OpenAI 搞砸了錯誤的超級熱門育兒論壇

想想任何可以想像到的與養育孩子有關的模糊話題，Mumsnet 上可能會有一篇關於它的帖子，Mumsnet 是一個長期運行、非常受歡迎、引發爭議的英國母親育兒論壇。在其二十多年的歷史中，Mumsnet 累積了由其高度參與的用戶群撰寫的超過 60 億字的檔案，主題涉及骯髒的尿布和懶惰的丈夫等主題。（更不用說對海豚的瘋狂咆哮了。）

今年春天，在Mumsnet 發現人工智慧公司正在竊取其數據後，該公司表示決定嘗試與該領域的一些主要參與者達成許可協議，其中包括OpenAI，在Mumsnet 首次與OpenAI 達成合作後，OpenAI 最初表示願意探索一項安排。在與 OpenAI 的談判破裂後，Mumsnet 在 7 月宣布打算採取法律行動。

根據 Mumsnet 報導，在這些早期對話中，一位 OpenAI 策略合作夥伴負責人告訴該公司，這家人工智慧巨頭對超過 10 億字的資料集感興趣。 Mumsnet 的領導階層很興奮。「我們花了相當長的時間與他們反覆交流，」Mumsnet 創始人兼執行長賈斯汀·羅伯茨 (Justine Roberts) 告訴《連線》雜誌。 “我們必須簽署一些保密協議，他們想要我們提供很多信息。”

然而，根據《連線》雜誌查看的一封電子郵件往來，一個多月後，OpenAI 告訴 Mumsnet，該公司當時不再有興趣合作。羅伯茨說，當被問及原因時，OpenAI 工作人員表示 Mumsnet 的 60 億字資料集太小，無法保證許可安排。他們還指出，OpenAI 主要對公眾無法在線上存取的大型數據集感興趣，並且希望數據集能夠捕獲廣泛的人類經驗。

當《連線》雜誌要求其置評時，該公司也表達了同樣的觀點。 OpenAI 發言人 Kayla Wood 表示：“我們尋求針對反映人類社會的大規模數據集建立合作夥伴關係，而不是僅僅針對公開資訊尋求合作夥伴關係。” “我們支持出版商和創作者的選擇，為他們提供表達其網站和內容如何在搜尋結果中與人工智慧配合使用的偏好的方式，並培訓生成式人工智慧基礎模型。”

羅伯茨說她對這種事態發展感到「惱怒」。她回憶說，OpenAI 起初似乎對 Mumsnet 特別感興趣，因為該平台的內容大量由女性編寫。「這是非常高品質的對話數據，」她說。 “90% 的對話都是女性，這很不尋常。”

去年，OpenAI 與媒體機構和平台達成了多項數據授權協議，並與 Vox Media 達成了協議。 大西洋、Axel Springer、Time 和 WIRED 母公司 Condé Nast，以及充滿使用者生成內容的平台（如 Reddit）。（據說 WordPress.com 和 Tumblr 的所有者 Automattic 今年早些時候也正在進行許可談判。）由於這些交易的細節尚未披露，因此尚不清楚它們各自的語料庫規模有多大。

當《連線》詢問其將考慮商業許可的資料集大小時，OpenAI 拒絕透露該資訊。但發言人凱拉·伍德強調，該公司與出版商的合作「重點是在我們的產品中展示他們的內容並為他們帶來流量」。

Source link