阻止 OpenAI 抓取機器人的競賽正在放緩

阻止 OpenAI 抓取機器人的競賽正在放緩


現在判斷人工智慧公司和出版商之間的一系列交易將如何結束還為時過早。不過,OpenAI 已經取得了一場明顯的勝利:它的網路爬蟲不再像以前那樣被頂級新聞媒體封鎖。

生成式人工智慧的繁榮引發了資料淘金熱,以及隨後的資料保護熱潮(至少對於大多數新聞網站而言),出版商試圖阻止人工智慧爬蟲並防止其工作在未經同意的情況下成為訓練數據。例如,當蘋果今年夏天推出新的人工智慧代理商時,許多頂級新聞媒體迅速選擇使用機器人排除協議(robots.txt)(該檔案允許網站管理員控制機器人)退出蘋果的網路抓取。現場有這麼多新的人工智慧機器人,感覺就像是在玩打地鼠遊戲才能跟上。

OpenAI 的 GPTBot 擁有最高的知名度,並且比 Google AI 等競爭對手更頻繁地被屏蔽。根據對1,000 家網站的分析,從2023 年8 月推出到當年秋天,使用robots.txt「禁止」OpenAI 的GPTBot 的高級媒體網站數量急劇增加,然後從2023 年11 月到2024 年4 月穩步(但更緩慢)增加安大略省人工智慧偵測新創公司 Originality AI 的熱門新聞媒體。在高峰時期,最高的網站只有三分之一多一點;現在已經下降了近四分之一。在少數最著名的新聞媒體中,封鎖率仍高於 50%,但較今年稍早近 90% 的高點有所下降。

但去年 5 月,Dotdash Meredith 宣布與 OpenAI 達成授權協議後,這一數字大幅下降。 5 月底,當 Vox 宣布自己的安排時,股價再次下跌,而今年 8 月,當 WIRED 的母公司康泰納仕 (Condé Nast) 達成協議時,股價再次下跌。封鎖增加的趨勢似乎已經結束,至少目前是如此。

這些下降顯然是有道理的。當公司建立合作夥伴關係並允許使用他們的資料時,他們就不再有動力去封鎖它,因此他們會更新他們的 robots.txt 檔案以允許抓取;進行足夠多的交易,阻止爬蟲的網站的總體百分比幾乎肯定會下降。一些媒體在宣布交易的同一天就解鎖了 OpenAI 的爬蟲,例如《大西洋月刊》。其他則需要幾天到幾週的時間,例如 Vox,該公司在 5 月底宣布了合作夥伴關係,但在 6 月底解除了對 GPTBot 的封鎖。

Robots.txt 不具有法律約束力,但它長期以來一直是管理網路爬蟲行為的標準。在網路存在的大部分時間裡,經營網頁的人們都希望彼此遵守該文件。今年夏天早些時候,《連線》雜誌的一項調查發現人工智慧新創公司 Perplexity 可能選擇忽略 robots.txt 命令,亞馬遜雲端部門對 Perplexity 是否違反了其規則展開了調查。忽略 robots.txt 不太好,這可能解釋了為什麼許多著名的人工智慧公司(包括 OpenAI)明確聲明他們使用它來確定要抓取的內容。 Originality AI 執行長 Jon Gillham 認為,這為 OpenAI 推動達成協議增添了額外的緊迫性。 「很明顯,OpenAI 認為受阻是對其未來雄心的威脅,」Gillham 說。



Source link

More From Author

免費提供 4 個月的 Amazon Music Unlimited

免費提供 4 個月的 Amazon Music Unlimited

海倫的康復在網路上比在實地更具政治性

海倫的康復在網路上比在實地更具政治性

Leave a Reply

Your email address will not be published. Required fields are marked *

Categories