DEV Community

Tutty
Tutty

Posted on

Uncertainty of Thoughts: Uncertainty-Aware Planning Enhances Information Seeking in Large Language Models

選定理由&所感

NUS, NTU, UCL Yaleなどいろんな大学の共同研究、NIPS2024 Accepted。

Paper: https://openreview.net/forum?id=CVpuVe1N22&noteId=aTI8PGpO47
Code: https://github.com/zhiyuanhubj/UoT

LLMの推論の不確実性を定式化した初の手法という点は革新的。

概要

【社会課題】
医療診断・技術サポート・教育・FAQなどの実社会における意思決定支援では正確な判断を下すために適切な情報を能動的に取得する必要がある(対話的情報探索タスク:図1)が、現在のLLMは「何を知らないか」「何を聞くべきか」を自律的に判断する能力が弱い。

fig1

【技術課題】
LLMは情報検索ができず、情報を取得するためのプロンプト設計や計画ができない。又、自らの推論の不確実性を扱えないため、的はずれな回答を生成し情報探索の効率性が低い。従来の Direct Prompting や Passive Reasoning といった戦略性や先読みがないアプローチは未知情報の多いタスク(例:診断・20Q)に対し十分な性能を発揮できない。

【提案】
LLMの思考プロセスに「不確実性を意識した計画」を組み込み、効率的な情報取得のための質問選択を最適化するUoT(Uncertainty of Thoughts)を提案。

【効果】
情報収集が効率化され少ない対話で目的を達成できるようになった。LLM(GPT-3.5、GPT-4)を用いた複数タスクでは、従来手法に比べて 平均38.1%(最大57.8%)の成功率向上 を達成。又、医療診断・トラブルシューティング・20 Questionsなど多様な領域に応用でき、既存のLLMに統合することができる。

Uncertainty of Thoughts

本研究では質問者(LLM)と回答者(人間)が対話を通じて、質問者がある未知の情報(例:病名)を特定するという対話的情報探索タスクを扱う。全ての回答の集合を ΩΩ とし、その中のたった1つの要素 ωΩω∈Ω が正解とする。例えば医療診断では、 Ω=Ω= {気管支炎,インフルエンザ,高血圧,…} のように病気の集合となり、 ωω が患者の本当の疾患である。最終的に正しい ωω を特定するか、あるいは最大ターン数に達したら終了とする。

fig2

UoTは図2に示すように(a) Question Generation and Simulation, (b) Uncertainty-based Reward, (c) Reward Propagation の3要素から成る。

Question Generation and Simulation

過去の質問と回答の履歴 hih_i に基づいて、LLM を使って mm 個の質問候補を生成する。質問は情報利得が高く、曖昧さが少ないものとなるようプロンプトで誘導する。

qi1,qi2,,qim=LLM(Promptgen(hi,Ωi)) q^1_i, q^2_i, \ldots, q^m_i = \text{LLM}(\text{Prompt}_{\text{gen}}(h_i, \Omega_i))

各質問に対して、肯定・否定の応答を前提としたツリーを構築する。ツリー上の各ノードでは、履歴に応じて回答集合 ΩvΩ_v を更新し、LLMによって将来の分岐をシミュレートする。その過程で得られる情報利得(エントロピー減少量)を計算し、最終的に最も期待値の高い質問を選択する。

ΩvA,ΩvN=LLM(Promptans(hv,Ωv)) \Omega^A_v, \Omega^N_v = \text{LLM}(\text{Prompt}_{\text{ans}}(h_v, \Omega_v))

Uncertainty-based Reward

回答の良し悪しを判断する情報利得(IG:Information Gain)は以下の式で定義される。ここで pvAp^A_v は回答が肯定的である場合の確率であり、本研究では pvA=p(ΩvA)p(Ωv)p^A_v = \frac{p(\Omega^A_v)}{p(\Omega_v)} (回答数のカウントではなく、厳密には確率測度としての定義)

IGv(X)=pvAlogpvApvNlogpvN IG_v(X) = -p^A_v \log p^A_v - p^N_v \log p^N_v

バランスの良い質問が強調されるようなスケーリングを行うと最終的には以下の式になる。

Ru(v)=fIGv(X):=pvAlogpvApvNlogpvN1+λ1pvApvN R_u(v) = f_{IG_v}(X) := \frac{-p^A_v \log p^A_v - p^N_v \log p^N_v}{1 + \lambda^{-1} \left| p^A_v - p^N_v \right|}

Reward Propagation

1ステップの報酬(質問後すぐの情報利得)だけでは、長期的な予測ができず、適切な質問選択が困難になる。そこで、木全体にわたる報酬伝播(reward propagation)を導入する。再帰的にツリーの各ノードの期待報酬を計算し、報酬が最大になるような質問を選択する。

実験

実験条件

UoTが、対話的情報探索タスクにおいて優れているかを検証するために以下のタスク・データセットで実験を行った。

タスクカテゴリ 説明 使用データセット
診断系(Medical) 症状から病名を推定 MedQA, MedMCQA, PubMedQA
故障調査(Troubleshooting) 問題の原因を対話的に特定 Taskmaster
20 Questions ゲーム 質問を重ねて物体や概念を当てる 20Q benchmark

比較対象としては、Direct Prompting(DP)、および情報利得を利用するがツリー構造を持たない Entropy-based Search を選定。実験にはLLMとして GPT-3.5、GPT-4、Claude 2 を使用した。評価指標は以下である。

指標 内容
成功率 最終的な回答が正解かどうか
質問数(平均) 正解にたどり着くまでに必要な質問回数
情報利得効率 各質問がどれだけ不確実性(エントロピー)を減少させたか

実験結果

モデル タスク 成功率向上(UoT vs DP) 質問数の効率性 情報利得効率の向上 備考
GPT-4 20 Questions +57.8% 大幅に改善 高い改善 ツリーによる見通しが効果的
GPT-3.5 Troubleshooting +38.1% 改善 明確な改善 質問の的確性が向上
GPT-3.5 Medical QA +34.2% 改善 中程度の改善 関連症状に集中できる

複数のデータセットにおいて明確な改善効果が見られた。不確定な要素が強いほどツリーによる改善効果が大きい。

fig3

図3は具体的な対話の一例である。UoTでは例えば「腹痛」といった初期情報を得た後、一般的な質問ではなく関連する具体的な問題に焦点を当てた質問を生成する。結果、過度に特定的な質問を避けつつ、的確な情報収集が可能になる。

アブレーションスタディ(要素除去実験)

  • ツリー構造なし(flat planning):性能が明確に低下。
  • 情報利得関数の変更:成功率に影響あり。報酬関数の設計が重要な要素であることが示された。

今後の展望

今後はツリーのPruningや情報利得以外の報酬関数の学習による質問戦略の実現がある。又、エントロピー以外の不確実性指標の導入や、反復的計画により質問の再構成も効果的と考えられる。

Top comments (0)