精品国产不卡,99久久.com,麻豆免费在线

選自arXiv

作者：Hangfeng He等

機(jī)器之心編譯

編輯：王楷

該研究提出的 RR（Rethinking with Retrieval）方法不需要額外的訓(xùn)練或微調(diào)，也不受大型語言模型（LLM）輸入長度限制，在常識推理、時間推理和表格推理任務(wù)中顯著提高了 LLM 性能。

大型語言模型 (LLM) 已通過 In-context Learning 在各種復(fù)雜任務(wù)上展現(xiàn)出卓越的性能，并且無需針對特定任務(wù)進(jìn)行訓(xùn)練或微調(diào)，近期 prompt 和解碼方面取得的進(jìn)展也使 LLM 解決復(fù)雜推理任務(wù)變成了現(xiàn)實(shí)。

然而，LLM 可能會存儲過時、不全面或不正確的知識，要將 LLM 成功部署到實(shí)際應(yīng)用中，外部知識來源（例如維基百科）至關(guān)重要。此前，人們嘗試將知識用于較小的語言模型 (LM)，例如 T5、BERT 和 RoBERTa，但這些方法通常需要額外的訓(xùn)練或微調(diào)，成本高昂，對于 LLM 來說完全不切實(shí)際。

基于此，來自羅徹斯特大學(xué)、騰訊 AI Lab 和賓夕法尼亞大學(xué)的研究者聯(lián)合提出了一種稱為 Rethinking with Retrieval (RR) 的后處理方法，以在 LLM 中利用外部知識。

論文地址：https://arxiv.org/pdf/2301.00303v1.pdf

該研究的思路是首先使用思維鏈 (chain-of-thought，CoT) prompting 方法生成一組不同的推理路徑，類似于 Wang et al. (2022) 的方法。然后該研究使用這些路徑中的每個推理步驟來檢索相關(guān)的外部知識，讓 RR 方法可以提供更合理的解釋和更準(zhǔn)確的預(yù)測。

該研究使用 GPT-3 175B 和幾種常見的外部知識源（維基百科、維基數(shù)據(jù)、WordNet 和 Conceptnet）來評估 RR 方法在三個復(fù)雜推理任務(wù)上的有效性，包括常識推理、時序推理和表格推理。實(shí)驗(yàn)結(jié)果表明，無需額外的訓(xùn)練或微調(diào)，RR 在這三項(xiàng)任務(wù)上始終優(yōu)于其他方法，這表明 RR 方法在利用外部知識來提高 LLM 性能方面具有很大優(yōu)勢。

利用檢索進(jìn)行重新思考

實(shí)際上，盡管 LLM 已準(zhǔn)確捕捉了回答問題所需的要素，但這些模型有時還是會生成錯誤的結(jié)果。這種現(xiàn)象說明 LLM 存儲和檢索知識的方式存在一些問題，包括：

預(yù)訓(xùn)練語料庫中存在過時、不正確或缺失的相關(guān)知識；

預(yù)訓(xùn)練時對相關(guān)知識的存儲有誤；

推理階段對相關(guān)知識的錯誤檢索。

RR 方法的大致思路如下：給定一個輸入問題 Q，RR 方法先利用思維鏈（chain-of though）prompting 生成一組不同的推理路徑 R_1、R_2、……、R_N，其中每個推理路徑 R_i 由解釋 E_i 和跟在其后的預(yù)測 P_i 組成，然后再從合適的知識庫 KB 中檢索相關(guān)知識 K_1、……、K_M 來支持每個推理路徑中的解釋，并選擇最符合該知識的預(yù)測

。

思維鏈（CoT）prompting。與標(biāo)準(zhǔn) prompting 明顯不同，CoT prompting 包括在 prompting 中進(jìn)行分步推理實(shí)例演示來生成一系列捕獲推理過程的短句。

例如，給定輸入問題：「亞里士多德使用筆記本電腦嗎？」CoT prompting 旨在生成完整的推理路徑：

CoT prompting 的推理過程為：「亞里士多德死于公元前 322 年。第一臺筆記本電腦于 1980 年發(fā)明。因此，亞里士多德沒有使用筆記本電腦。所以答案是 no。」而非簡單地輸出「No」。

對不同的推理路徑采樣。與 Wang et al. (2022) 相似，該研究對一組不同的推理路徑 R_1、R_2、……、R_N 進(jìn)行了采樣，而不是像 Wei et al. (2022) 那樣只考慮最優(yōu)比例路徑（greedy path）。對于「亞里士多德是否使用筆記本電腦？」這一問題，可能的推理路徑如下：

(R_1) 亞里士多德死于 2000 年。第一臺筆記本電腦發(fā)明于 1980 年。因此，亞里士多德使用過筆記本電腦。所以該問題的答案為是。

(R_2) 亞里士多德于公元前 322 年去世。第一臺筆記本電腦發(fā)明于 2000 年。因此，亞里士多德沒有使用過筆記本電腦。所以答案為否。

知識檢索。不同的知識庫可以用來處理不同的任務(wù)。例如，為了解決「亞里士多德使用筆記本電腦了嗎？」這個問題，我們可以使用維基百科作為外部知識庫 KB。信息檢索技術(shù)可用于基于分解的推理步驟從維基百科中檢索相關(guān)知識 K_1、……K_M。理想情況下，針對此問題我們可以從維基百科中獲得以下兩段內(nèi)容：

(K_1) 亞里士多德（公元前 384 至公元前 322 年）是古希臘古典時期的希臘哲學(xué)家和博學(xué)大師

(K_2) 第一臺筆記本電腦 Epson HX-20 于 1980 年發(fā)明……

忠實(shí)的推理。我們可以使用函數(shù) f_KB（R_i）來估算每個推理路徑 R_i 的置信度，該函數(shù)建立在從知識庫 KB 檢索的相關(guān)知識 K_1、……、K_M 基礎(chǔ)之上。最終的預(yù)測可以通過運(yùn)用以下推斷過程來獲得：

實(shí)驗(yàn)評估

本節(jié)中，該研究介紹了 RR 在三個復(fù)雜推理任務(wù)上的評估：常識推理、時序推理和表格推理。

實(shí)驗(yàn)設(shè)置。在所有實(shí)驗(yàn)中，除非另有說明，該研究都使用 GPT-3 text-davinci-002。實(shí)驗(yàn)完成期間生成的最大 token 數(shù)量被設(shè)置為 256，zero-shot、few-shot 以及 chain-of-thought prompting，溫度參數(shù)（temperature）固定設(shè)置為 0。

結(jié)果。如表 1 所示，本文提出的方法 RR，在所有三個推理任務(wù)上始終優(yōu)于所有基準(zhǔn)，而無需額外的訓(xùn)練或微調(diào)。這些結(jié)果凸顯出了 RR 在利用外部知識提高 LLM 表現(xiàn)方面的有效性。

該研究在 StrategyQA 數(shù)據(jù)集上展示了帶有 CoT prompting 方法的關(guān)于 GPT-3 的分析。在仔細(xì)檢查 GPT-3 的輸出后，該研究觀察到 RR 可以為許多問題提供合理的解釋和正確的預(yù)測。例如，當(dāng)給出「佐治亞州的奧爾巴尼會在紐約州的奧爾巴尼之前先達(dá)到十萬名住戶嗎？」這個問題時，GPT-3 產(chǎn)生了以下輸出：

總體來看對于問題的輸出答案質(zhì)量很高。然而，該研究也觀察到 GPT-3 可能偶爾會為其解釋提供不正確的事實(shí)支持，或?yàn)槠漕A(yù)測做出不正確的推理，盡管它通常能夠識別出合適的觀點(diǎn)。

錯誤的支持事實(shí)。如表 2 所示，GPT-3 為 Lil Jon 在 Billboard 榜單中排名最高的歌曲提供了錯誤的事實(shí)支持，指出排名最高的歌曲是 Get Low 而非正確答案 Yeah。另外，GPT-3 還做出了錯誤的推理，即富士山的山頂不會高于日本海，而不是正確答案會高于。

更多技術(shù)細(xì)節(jié)請參閱原論文。

• 竇驍敷著面膜求婚__何超蓮轉(zhuǎn)頭一看大叫「這是什	• 聚焦“雙碳”目標(biāo)_可能建言建深地工廠發(fā)展儲能
• 骨科醫(yī)生提醒_10種姿勢蕞傷腰和膝_	• 東鵬控股_部署建材行業(yè)“315”大促_通過4種
• 你有多高？研究發(fā)現(xiàn)_一個人的身高_(dá)會影響他的收	• 強(qiáng)降溫即將到來_四川盆地這些城市未來72小時約
• 韓學(xué)者警告_韓國國內(nèi)過度的反華情緒極其危險	• 探老店_二食堂加工坊_手工搖出團(tuán)圓滋味
• 查出疝氣沒當(dāng)回事_六旬女子內(nèi)臟“大挪移”	• 八旬老人倒地？_果斷扶_事發(fā)泉州市區(qū)街頭

合明科技SIP、POP、IG	不銹鋼卸扣使用時的注
G80模鍛D型環(huán)（焊接吊	吸塑托盤與注塑托盤生

VIP

推廣服務(wù)

禁止大型語言模型胡編亂造_給點(diǎn)外部知識_推理靠