Diversify-verify-adapt: Efficient and Robust Retrieval-Augmented Ambiguous Question Answering

Lomanu4 · 14 Май 2025

選定理由と所感

Abode ResearchとKAISTの共同研究。

Paper:

Пожалуйста Авторизируйтесь или Зарегистрируйтесь для просмотра скрытого текста.

Code:
Blog:

Пожалуйста Авторизируйтесь или Зарегистрируйтесь для просмотра скрытого текста.

検索時のRecallを改善する目的で検索結果に多様性を陽に与えるアプローチは従来からよくある。LLMの知識を用いて多様性を与えると反復的に深堀するよりも検索・応答性能が高くなるが、現在のLLMの特性に依存する面があると思われる。

概要

【社会課題】

Пожалуйста Авторизируйтесь или Зарегистрируйтесь для просмотра скрытого текста.

と同じ

【技術課題】
ユーザークエリと検索対象の文書集合の母集団分布には常に乖離があり、１回の検索では適切な文書を取得することが困難である。又、事前検証実験により中途半端な情報、余計な情報が交じるとLLMの回答性能はかえって悪化することがわかっている（図３）。

Пожалуйста Авторизируйтесь или Зарегистрируйтесь для просмотра скрытого текста.

そして既存の反復的なRAG戦略(例:[

Пожалуйста Авторизируйтесь или Зарегистрируйтесь для просмотра скрытого текста.

])は検索回数の増加による時間コスト、資金コストの増大という欠点があった。

【提案】
Diversify（多様化）：曖昧な質問から複数の具体的なサブクエリ（疑似解釈）を生成し、それぞれに対して文書を検索
Verify（検証）：取得した文書が各サブクエリに対して有用かどうかを評価し、関連性の低い文書を除外
Adapt（適応）：検証結果に基づき最適な生成戦略を選択し、最終的な回答を生成

という３ステージを実行するDIVA（Diversify-Verify-Adapt）を提案

【効果】
精度向上：従来のRAGや反復的RAGと比較して、DIVAはより高いD-F1スコアを達成
効率性：DIVAは反復的RAGよりも約2倍高速で、コストも約1.8倍低減

DIVA（Diversify-Verify-Adapt）

Пожалуйста Авторизируйтесь или Зарегистрируйтесь для просмотра скрытого текста.

DIVAとIter-RAGを比較した全体像は図８である。

Retrieval Diversification (RD)

Пожалуйста Авторизируйтесь или Зарегистрируйтесь для просмотра скрытого текста.

図4に示すようなプロンプトを用いてクエリの曖昧性をパターン分類し、疑似解釈を生成する。これは人間も曖昧な質問を受けた際に、曖昧な点をまず明確化してから回答する行為に似ている。曖昧性の分類と疑似解釈を同時に１つの推論で実施すると、精度が低下するため１つずつ行う（以下の式）。

Qi←LLM(qi,Ip,LLM(qi,Ia)) Q_i \leftarrow \mathrm{LLM}(q_i, I_p, \mathrm{LLM}(q_i, I_a)) Qi←LLM(qi,Ip,LLM(qi,Ia))
Retrieving Relevant and Diverse Passages

曖昧性のないクエリの場合には単一パッセージのみ取得する、曖昧性を含むクエリの場合は疑似解釈により得られたパッセージの論理和を取得する。

Pruning Noisy Passages

Diversify 時に元のクエリに関連性の低い文書が回収される可能性があるため、これを除去するための Pruning を行う。ノイズのパターンとしては検索時のRetrieverに起因するものは疑似解釈に関係なく均一に混入し、疑似解釈の誤りに起因するものはその疑似解釈での検索に多く混入すると考えられる。

S(p)=1∣Q^i∣∑j=1∣Q^i∣Enc(q^j)⋅Enc(p)∣Enc(q^j)∣⋅∣Enc(p)∣ S(p) = \frac{1}{|\hat{Q}i|} \displaystyle\sum{j=1}^{|\hat{Q}_i|} \frac{\text{Enc}(\hat{q}_j) \cdot \text{Enc}(p)}{|\text{Enc}(\hat{q}_j)| \cdot |\text{Enc}(p)|} S(p)=∣Q^i∣1∑j=1∣Q^i∣∣Enc(q^j)∣⋅∣Enc(p)∣Enc(q^j)⋅Enc(p)

そこで上記スコア関数にてスコアリングを行い、top-k 以下のものを除外する。この計算法は関連性を定量化する際によく用いられる。

Adaptive Generation (AG)

Retrieval Verification (RV)

生成された疑似解釈とそれによって取得された文書を用いて、それぞれの疑似解釈の質問に回答できているかを判定する。一つでも回答できていると判断された場合は文書をLLMに渡して回答。一つも回答できていなかった場合は文書を提供せずLLMに直接回答させる

実験

Пожалуйста Авторизируйтесь или Зарегистрируйтесь для просмотра скрытого текста.

図６によると反復的なRAGよりも早く、正確であることがわかる。

Пожалуйста Авторизируйтесь или Зарегистрируйтесь для просмотра скрытого текста.

Vanilla RAG, Iterative RAG, CRAGなど各種SOTAなRAG手法と比べても高い性能であることがわかる。

Пожалуйста Авторизируйтесь или Зарегистрируйтесь для просмотра скрытого текста.

Diversify-verify-adapt: Efficient and Robust Retrieval-Augmented Ambiguous Question Answering

Lomanu4