文件照片:在發布最後一個大型人工智慧模型兩個月後,Meta 發布了第一個具有圖像和文字處理能力的開源模型。 |圖片來源:路透社
在發布最後一個大型人工智慧模型兩個月後,Meta 發布了第一個具有圖像和文字處理能力的開源模型。 Llama 3.2 模型包括具有 110 億和 900 億參數的小型和中型變體,以及適合特定移動和邊緣設備的 10 億和 30 億參數的更輕量級純文字模型。
這些模型將幫助開發人員創建更先進的人工智慧應用程序,例如即時理解視訊的 AR 應用程式、根據內容分發圖像的視覺搜尋引擎或可以總結大部分文字的文檔分析工具。
在不同的 Llama 3.2 變體中,110 億參數的一號和 900 億參數的一號是視覺模型,可以理解圖表和圖形、為圖像添加字幕並根據自然語言提示定位物件。更大的模型還可以精確定位圖像中的細節以創建標題。
而輕量級型號僅支援文本,適用於搭載高通、聯發科和其他 Arm 硬體的手機。這些旨在總結最近的消息,發送會議日曆邀請,並供開發人員在其上建立個人化代理應用程式。
Meta 表示,儘管 Meta 正在追趕競爭對手 AI 公司的多模態模型,但 Llama 3.2 在影像辨識和視覺理解任務方面可與 Anthropic 的 Claude 3 Haiku 和 OpenAI 的 GPT4o-mini 相媲美。
該公司表示,Llama 3.2 在某些任務(如即時重寫、指令追蹤和總結)方面優於 Gemma 和 Phi 3.5-mini。
已發表 – 2024 年 9 月 26 日下午 2:50(美國標準時間)