高級人工智慧聊天機器人不太可能承認他們沒有所有答案

高級人工智慧聊天機器人不太可能承認他們沒有所有答案


研究人員發現了智慧聊天機器人的明顯缺點。儘管人工智慧模型隨著進步可以預見地變得更加準確,但它們也更有可能(錯誤地)回答超出其能力的問題,而不是說「我不知道」。而促使他們這樣做的人更有可能將他們自信的幻覺視為表面價值,從而產生自信的錯誤訊息的涓滴效應。

西班牙巴倫西亞理工大學教授何塞·埃爾南德斯-奧拉洛表示:“現在他們幾乎回答了所有問題。” 自然。 “這意味著更正確,但也更不正確。”計畫負責人埃爾南德斯-奧拉洛與西班牙巴倫西亞人工智慧研究所的同事一起進行了這項研究。

團隊研究了三個LLM系列,包括OpenAI的GPT系列、Meta的LLaMA和開源的BLOOM。他們測試了每個模型的早期版本,並轉向更大、更先進的版本,但不是當今最先進的版本。例如,團隊從OpenAI 相對原始的GPT-3 ada 模型開始,並測試了直至2023 年3 月發布的GPT-4 的迭代。在研究中。我很好奇最新型號是否仍然保持這種趨勢。

研究人員用數千個有關「算術、字謎、地理和科學」的問題測試了每個模型。他們還測試了人工智慧模型轉換資訊的能力,例如按字母順序排列清單。團隊根據感知的難度對提示進行排名。

數據顯示,隨著模型的發展,聊天機器人的錯誤答案比例(而不是完全迴避問題)增加。因此,人工智慧有點像教授,隨著他掌握更多學科,他越來越相信自己對所有學科都有黃金答案。

使事情變得更加複雜的是人類提示聊天機器人並閱讀他們的答案。研究人員要求志願者對人工智慧機器人答案的準確性進行評級,他們發現他們「經常錯誤地將不準確的答案分類為準確的答案」。被志願者誤認為是正確的錯誤答案的範圍通常在 10% 到 40% 之間。

「人類無法監督這些模型,」埃爾南德斯-奧拉洛總結道。

研究團隊建議人工智慧開發人員開始提高簡單問題的效能,並對聊天機器人進行程式設計以拒絕回答複雜的問題。 「我們需要人類明白:『我可以在這個區域使用它,但我不應該在那個區域使用它,』」埃爾南德斯-奧拉洛告訴我們 自然

這是一個善意的建議,在理想的世界中是有意義的。但人工智慧公司很有可能會這麼做。經常說「我不知道」的聊天機器人可能會被認為不夠先進或不那麼有價值,導致使用量減少,以及製造和銷售它們的公司賺到的錢更少。因此,我們收到的警告是「ChatGPT 可能會出錯」和「Gemini 可能會顯示不準確的資訊」。

這讓我們有責任避免相信和傳播可能傷害自己或他人的幻覺錯誤訊息。為了準確性,請對你那該死的聊天機器人的答案進行事實檢查,以免大聲喊叫。

您可以閱讀該團隊的完整研究報告 自然



Source link

More From Author

以下是美光科技強勁的季度和前景可以告訴我們的關於我們投資組合中的 8 隻股票的信息

以下是美光科技強勁的季度和前景可以告訴我們的關於我們投資組合中的 8 隻股票的信息

「我不想在餘下的日子裡勉強糊口」:我與丈夫離婚再婚。我可以領取他的社會安全嗎?

「我不想在餘下的日子裡勉強糊口」:我與丈夫離婚再婚。我可以領取他的社會安全嗎?

Leave a Reply

Your email address will not be published. Required fields are marked *

Recent Comments

No comments to show.

Categories