蘋果工程師展示人工智慧「推理」是多麼脆弱

蘋果工程師展示人工智慧「推理」是多麼脆弱


一段時間以來,OpenAI 和谷歌等公司一直在宣傳先進的「推理」能力,作為其最新人工智慧模型的下一個重大步驟。但現在,六名蘋果工程師的一項新研究表明,面對常見基準問題看似微不足道的變化,高級大型語言模型所展示的數學「推理」可能極其脆弱且不可靠。

這些新結果中強調的脆弱性有助於支持先前的研究,表明法學碩士對機率模式匹配的使用缺少對真正可靠的數學推理能力所需的基本概念的正式理解。研究人員根據這些結果推測:“目前的法學碩士不具備真正的邏輯推理能力。” “相反,他們試圖複製在訓練資料中觀察到的推理步驟。”

混合起來

在「GSM-Symbolic:理解大型語言模型中數學推理的局限性」(目前可作為預印本論文)中,六位Apple 研究人員從GSM8K 的8,000 多個小學水平數學應用問題的標準化集合開始,這些問題常被使用作為現代法學碩士複雜推理能力的基準。然後,他們採用新穎的方法修改該測試集的一部分,以動態地用新值替換某些名稱和數字,因此關於Sophie 在GSM8K 中為她的侄子獲得31 個構建塊的問題可能會變成關於Bill在GSM8K 中獲得19 個構建塊的問題他的兄弟在新的 GSM-Symbolic 評估中。

這種方法有助於避免因靜態 GSM8K 問題直接輸入 AI 模型的訓練資料而導致的任何潛在的「資料污染」。同時,這些偶然的變化根本不會改變固有數學推理的實際難度,這意味著理論上模型在 GSM-Symbolic 上測試時的性能應該與 GSM8K 上的測試一樣好。

相反,當研究人員在 GSM-Symbolic 上測試 20 多個最先進的法學碩士時,他們發現與 GSM8K 相比,平均準確度全面下降,性能下降 0.3% 到 9.2% 之間,具體取決於模型。結果也顯示,50 次獨立運行的 GSM-Symbolic 具有不同的名稱和數值,差異很大。在單一模型中,最佳運行和最差運行之間的準確度差距高達 15% 是很常見的,並且出於某種原因,更改數字往往會導致比更改名稱更差的準確度。

這種差異——無論是在不同的 GSM-Symbolic 運行中還是與 GSM8K 結果相比——都令人驚訝,因為正如研究人員指出的那樣,“解決問題所需的總體推理步驟保持不變。”如此小的變化導致如此多變的結果這一事實向研究人員表明,這些模型並沒有進行任何“正式”推理,而是“嘗試”[ing] 執行一種分佈內模式匹配,將給定的問題和解決方案步驟與訓練資料中類似的問題和解決方案步驟對齊。

不要分心

儘管如此,從總體上看,GSM-Symbolic 測試顯示的整體差異通常相對較小。例如,OpenAI 的 ChatGPT-4o 從 GSM8K 上的 95.2% 準確率下降到 GSM-Symbolic 上仍然令人印象深刻的 94.9%。無論模型本身是否在幕後使用「形式」推理,使用任一基準的成功率都相當高(儘管當研究人員僅向問題添加一兩個額外的邏輯步驟時,許多模型的總準確性急劇下降) ) 。

然而,當蘋果研究人員透過在問題中添加「看似相關但最終無關緊要的陳述」來修改 GSM-Symbolic 基準時,受測試的法學碩士的表現要差得多。對於這個“GSM-NoOp”基準集(“無操作”的縮寫),關於某人在多天內挑選了多少新西蘭人的問題可能會被修改,以包括“其中五個”的附帶細節 [the kiwis] 比平均小一點。

與 GSM8K 相比,添加這些轉移注意力的因素會導致準確率出現研究人員所說的“災難性性能下降”,從 17.5% 到高達 65.7% 不等,具體取決於測試的模型。研究人員寫道,準確性的大幅下降凸顯了使用簡單的「模式匹配」來「在沒有真正理解其含義的情況下將語句轉換為操作」的固有局限性。



Source link

More From Author

多倫多市工作人員在公園審計之前駁回了追蹤工作卡車的想法

多倫多市工作人員在公園審計之前駁回了追蹤工作卡車的想法

Cher 將 2024 年維多利亞的秘密時裝秀變成迪斯科舞池

Cher 將 2024 年維多利亞的秘密時裝秀變成迪斯科舞池

Leave a Reply

Your email address will not be published. Required fields are marked *

Categories