最強大的開源人工智慧模型可以增強人工智慧代理

最強大的開源人工智慧模型可以增強人工智慧代理


最強大的開源人工智慧模型具有視覺能力,但可能會看到更多的開發人員、研究人員和新創公司開發人工智慧代理,這些代理可以在你的電腦上為你執行有用的雜務。

艾倫人工智慧研究所 (Ai2) 今天發布了多模式開放語言模型 (Molmo),它可以解釋圖像並透過聊天介面進行交談。這意味著它可以理解電腦螢幕,可能幫助人工智慧代理執行瀏覽網頁、瀏覽文件目錄和起草文件等任務。

「透過這個版本,更多的人可以部署多模式模型,」Ai2 的執行長、華盛頓大學電腦科學家、總部位於華盛頓州西雅圖的研究組織 Ai2 的執行長 Ali Farhadi 說。 “它應該成為下一代應用程式的推動者。”

所謂的人工智慧代理被廣泛吹捧為人工智慧領域的下一個重大事件,OpenAI、Google和其他公司都在競相開發它們。代理最近已成為一個流行詞,但人工智慧的宏偉願景是超越聊天,在收到命令時在電腦上可靠地執行複雜而複雜的操作。這種能力尚未以任何規模實現。

一些強大的人工智慧模型已經具備視覺能力,包括 OpenAI 的 GPT-4、Anthropic 的 Claude 和 Google DeepMind 的 Gemini。這些模型可用於為一些實驗性人工智慧代理提供動力,但它們隱藏在視圖之外,只能透過付費應用程式介面或 API 存取。

Meta 已經發布了一系列名為 Llama 的人工智慧模型,其商業用途受到限制,但尚未向開發人員提供多模式版本。 Meta 預計將在今天的 Connect 活動上宣布幾款新產品,其中可能包括新的 Llama AI 車型。

「擁有一個開源、多模式的模型意味著任何有想法的新創公司或研究人員都可以嘗試去做,」普林斯頓大學從事人工智慧代理研究的博士後 Ofir Press 說。

Press 表示,Molmo 是開源的,這意味著開發人員可以透過提供額外的訓練數據,更輕鬆地針對特定任務(例如使用電子表格)調整代理程式。像 GPT-4 這樣的模型只能透過其 API 進行有限程度的微調,而完全開放的模型可以進行廣泛的修改。 「當你擁有這樣的開源模型時,你就有了更多的選擇,」普雷斯說。

Ai2 今天發布了多種尺寸的 Molmo,包括一個 700 億參數模型和一個小到可以在行動裝置上運行的 10 億參數模型。模型的參數計數是指它包含的用於儲存和操作資料的單元的數量,並且大致對應於它的功能。

Ai2 表示,儘管 Molmo 規模相對較小,但它的能力與更大的商業模型一樣強大,因為它經過了高品質數據的仔細訓練。新模型也是完全開源的,與 Meta 的 Llama 不同,它的使用沒有任何限制。 Ai2 還發布了用於創建模型的訓練數據,為研究人員提供了其工作原理的更多細節。

發布強大的模型並非沒有風險。這些模型更容易被用於邪惡目的;例如,有一天我們可能會看到旨在自動攻擊電腦系統的惡意人工智慧代理的出現。

Ai2 的 Farhadi 認為,Molmo 的效率和可移植性將使開發人員能夠建立更強大的軟體代理,這些代理可以在智慧型手機和其他可攜式裝置上本地運行。他說:“十億參數模型現在的表現與至少大 10 倍的模型水平或聯盟相當。”

然而,建立有用的人工智慧代理可能不僅僅依賴更有效率的多模式模型。一個關鍵的挑戰是使模型更加可靠地工作。這很可能需要人工智慧推理能力的進一步突破——OpenAI 試圖透過其最新模型 o1 來解決這個問題,該模型展示了逐步的推理能力。下一步很可能是賦予多模式模型這樣的推理能力。

目前,Molmo 的發布意味著人工智慧代理比以往任何時候都更加接近,並且很快甚至可以在統治人工智慧世界的巨頭之外發揮作用。



Source link

More From Author

穆罕默德法耶德:哈羅德前員工詳述了數十年的虐待行為

穆罕默德法耶德:哈羅德前員工詳述了數十年的虐待行為

我知道你去年夏天的所作所為將會帶來另一張熟悉的臉孔

我知道你去年夏天的所作所為將會帶來另一張熟悉的臉孔

Leave a Reply

Your email address will not be published. Required fields are marked *

Recent Comments

No comments to show.

Categories