高級人工智慧聊天機器人不太可能承認他們沒有所有答案

研究人員發現了智慧聊天機器人的明顯缺點。儘管人工智慧模型隨著進步可以預見地變得更加準確,但它們也更有可能(錯誤地)回答超出其能力的問題,而不是說「我不知道」。而促使他們這樣做的人更有可能將他們自信的幻覺視為表面價值,從而產生自信的錯誤訊息的涓滴效應。 西班牙巴倫西亞理工大學教授何塞·埃爾南德斯-奧拉洛表示:“現在他們幾乎回答了所有問題。” 自然。 “這意味著更正確,但也更不正確。”計畫負責人埃爾南德斯-奧拉洛與西班牙巴倫西亞人工智慧研究所的同事一起進行了這項研究。 團隊研究了三個LLM系列,包括OpenAI的GPT系列、Meta的LLaMA和開源的BLOOM。他們測試了每個模型的早期版本,並轉向更大、更先進的版本,但不是當今最先進的版本。例如,團隊從OpenAI 相對原始的GPT-3 ada 模型開始,並測試了直至2023 年3 月發布的GPT-4 的迭代。在研究中。我很好奇最新型號是否仍然保持這種趨勢。 研究人員用數千個有關「算術、字謎、地理和科學」的問題測試了每個模型。他們還測試了人工智慧模型轉換資訊的能力,例如按字母順序排列清單。團隊根據感知的難度對提示進行排名。 數據顯示,隨著模型的發展,聊天機器人的錯誤答案比例(而不是完全迴避問題)增加。因此,人工智慧有點像教授,隨著他掌握更多學科,他越來越相信自己對所有學科都有黃金答案。 使事情變得更加複雜的是人類提示聊天機器人並閱讀他們的答案。研究人員要求志願者對人工智慧機器人答案的準確性進行評級,他們發現他們「經常錯誤地將不準確的答案分類為準確的答案」。被志願者誤認為是正確的錯誤答案的範圍通常在 10% 到 40% 之間。 「人類無法監督這些模型,」埃爾南德斯-奧拉洛總結道。 研究團隊建議人工智慧開發人員開始提高簡單問題的效能,並對聊天機器人進行程式設計以拒絕回答複雜的問題。…

Recent Comments

No comments to show.

Categories