人工智慧引發了一場網路爬行之戰

人工智慧引發了一場網路爬行之戰


大多數人認為生成式人工智慧會變得越來越好;但事實並非如此。畢竟,到目前為止這就是趨勢。它可能會這樣做。但有些人沒有意識到,生成式人工智慧模型的好壞取決於它們所訓練的大量資料集,而這些資料集並不是由 OpenAI 和 Anthropic 等領先人工智慧公司擁有的專有資料所建構的。相反,它們由我們所有人創建的公共數據組成——任何曾經寫過部落格文章、發布過影片、在 Reddit 貼文上發表評論或在網路上做過任何其他事情的人。

人工智慧研究人員志工團體資料來源倡議 (Data Provenance Initiative) 的新報告揭示了所有這些數據正在發生的情況。這份題為《危機中的同意:人工智慧資料共享的快速衰落》的報告指出,許多感到受到生成式人工智慧威脅的組織正在採取措施隔離他們的資料。 IEEE 頻譜 與資料來源計畫的首席研究員 Shayne Longpre 討論了該報告及其對人工智慧公司的影響。

謝恩朗普雷談:

  • 網站如何阻止網路爬蟲,以及為什麼
  • 消失的數據及其對人工智慧公司意味著什麼
  • 綜合數據、峰值數據以及接下來會發生什麼
  • 網站用來阻止網路爬蟲的技術並不新鮮——機器人排除協議 它於 1995 年推出。

    人工智慧引發了一場網路爬行之戰謝恩·朗普雷

    謝恩朗普雷: Robots.txt 是一個機器可讀的文件,爬蟲(在網路中導航並記錄所見內容的機器人)使用它來確定是否爬行網站的某些部分。在網站主要使用它來指導網路搜尋的時代,它成為事實上的標準。所以想想 Bing 或 Google 搜尋;他們希望記錄這些訊息,以便改善用戶在網路上的導航體驗。這是一種非常共生的關係,因為網路搜尋是透過向網站發送流量來進行操作的,而網站也希望這樣做。一般來說,大多數網站與大多數爬蟲都能很好地配合。

    接下來讓我談談對於理解這一點很重要的一系列主張。通用人工智慧模型及其令人印象深刻的能力依賴於用於訓練它們的數據和計算的規模。規模和數據確實很重要,而且很少有來源可以像網路一樣提供公共規模。許多基礎模型都經過了訓練 [data sets composed of] 網路爬行。這些流行且重要的資料集本質上只是網站和用於收集、打包和處理該資料的爬行基礎設施。我們的研究不僅關注資料集,還關注來自底層網站的偏好訊號。這是數據本身的供應鏈。

    但去年,許多網站開始使用 robots.txt 來限制機器人,尤其是透過廣告和付費專區獲利的網站,例如新聞和藝術家。他們特別擔心生成式人工智慧可能會影響他們的生計,這也許是正確的。因此他們正在採取措施保護他們的資料。

    當網站設定 robots.txt 限制時,就像設定禁止侵入標誌一樣,對嗎?它不具有強制執行力。您必須相信爬蟲會尊重它。

    長普: 悲劇在於 robots.txt 是機器可讀的,但似乎不具法律可執行性。而服務條款可能具有法律效力,但不是機器可讀的。在服務方面,他們可以用自然語言闡明數據使用的偏好。所以他們可以說,“你可以使用這些數據,但不能用於商業用途。”但在 robots.txt 中,您必須單獨指定爬蟲,然後說明您允許或禁止它們存取網站的哪些部分。這給網站帶來了過度的負擔,需要在數千個不同的爬蟲中找出哪些爬蟲適合他們想要的用途,哪些爬蟲適合他們不喜歡的用途。

    我們是否知道爬蟲通常是否遵守 robots.txt 的限制?

    長普: 許多大公司都有明確說明其規則或程序的文件。以 Anthropic 為例,他們確實表示尊敬 ClaudeBot 的 robots.txt。然而,其中許多公司最近也出現在新聞中,因為它們被指控 不是 無論如何,尊重 robots.txt 並抓取網站。外界並不清楚為什麼人工智慧公司所說的話與他們被指控的行為之間存在差異。但許多使用爬行的親社會團體——小型新創公司、學者、非營利組織、記者——他們傾向於尊重 robots.txt。他們不是這些限制的預期目標,但他們卻被這些限制所阻止。

    回到頂部

    在報告中,您查看了三個經常用於訓練生成式人工智慧系統的訓練資料集,這些資料集都是在過去幾年中透過網路爬行創建的。您發現,從 2023 年到 2024 年,受限的已爬網域數量出現了非常顯著的成長。您能談談這些發現嗎?

    長普: 我們發現,如果你看一個特定的資料集,讓我們以2019 年創建的非常流行的C4 為例,在不到一年的時間裡,如果你尊重或堅持偏好,它的大約5% 的資料已被撤銷底層網站。現在,5% 聽起來並不是很多,但當您意識到這部分資料主要對應於最高品質、維護得最好和最新的資料時。當我們查看此 C4 資料集中的前 2,000 個網站時(按規模排名前 2,000 個網站,它們大多是新聞、大型學術網站、社交媒體和精心策劃的高品質網站)——佔資料的 25%此後,前2000 名的排名已被撤銷。這意味著尊重 robots.txt 的模型的訓練資料分佈正在迅速從高品質新聞、學術網站、論壇和社交媒體轉向更多組織和個人網站以及電子商務和部落格。

    如果我們要求 ChatGPT 或 Perplexity 的未來版本來回答複雜的問題,並且它從個人部落格和購物網站獲取信息,這似乎可能是一個問題。

    長普: 確切地。很難衡量這將如何影響模型,但我們懷疑尊重 robots.txt 的模型的性能與已經保護這些數據並願意對其進行訓練的模型的性能之間存在差距。

    但較舊的資料集仍然完好無損。人工智慧公司可以只使用舊的資料集嗎?這樣做有什麼壞處呢?

    長普: 嗯,持續的數據新鮮度確實很重要。目前還不清楚 robots.txt 是否可以追溯應用程式。出版商可能會辯稱他們確實這麼做了。因此,這取決於您對訴訟的興趣,或者您認為趨勢可能走向的方向,尤其是在美國,圍繞數據合理使用的訴訟正在進行中。最典型的例子顯然是 紐約時報 對抗 OpenAI 和微軟,但現在有很多變種。至於它會走向何方,存在著許多不確定性。

    該報告被稱為「危機中的同意」。為什麼你認為這是一場危機?

    長普: 我認為這對數據創建者來說是一場危機,因為很難用現有協議表達他們想要的東西。對於一些非商業性甚至可能與人工智慧無關的開發人員來說,學者和研究人員發現這些數據變得越來越難以存取。我認為這也是一場危機,因為它太混亂了。基礎設施的設計並不是為了同時容納所有這些不同的用例。由於這些巨大的行業與生成式人工智慧對抗新聞創作者和其他人,這最終成為一個問題。

    如果這種情況持續下去,越來越多的數據受到限制,人工智慧公司能做什麼?為了繼續訓練巨大的模型,他們會採取什麼行動?

    長普: 大公司將直接授權。如果大量資料被取消贖回權或難以收集,對於一些大公司來說可能不是一個壞結果,它只會產生更大的進入資本要求。我認為大公司將在資料收集管道上投入更多資金,並持續存取用戶生成的有價值的資料來源,例如 YouTube、GitHub 和 Reddit。獲得這些網站的獨家訪問權可能是一種明智的市場行為,但從反壟斷的角度來看,這是一個有問題的行為。我特別擔心由此可能產生的排他性資料獲取關係。

    回到頂部

    您認為合成數據可以填補這一空白嗎?

    長普: 大公司已經在大量使用合成數據。合成數據既帶來恐懼,也帶來機會。一方面,已經有一系列的工作證明了模型崩潰的可能性,即由於對不良合成數據進行訓練而導致模型退化,隨著越來越多的生成機器人被允許使用,這些數據可能會更頻繁地出現在網路上。然而,我認為大型模型不太可能受到太大阻礙,因為它們有質量過濾器,因此質量差或重複的東西可以被吸走。合成數據的機會在於它在實驗室環境中創建的品質非常高,而且它針對的是尚未開發的特定領域。

    您是否相信我們可能正處於數據峰值的想法?或者您覺得這種擔憂有些過分?

    長普: 那裡有很多未開發的數據。但有趣的是,很多內容都隱藏在 PDF 後面,所以你需要進行 OCR [optical character recognition]。許多資料被鎖在政府、專有管道、非結構化格式或難以提取的格式(如 PDF)中。我認為在弄清楚如何提取這些數據方面將會有更多的投資。我確實認為,就容易取得的數據而言,許多公司開始碰壁並轉向合成數據。

    這裡的趨勢線是什麼?您預計未來幾年會看到更多網站設定 robots.txt 限制嗎?

    長普: 我們預計 robots.txt 和服務方面的限制都會增加。這些趨勢線從我們的工作中非常明顯,但它們可能會受到外部因素的影響,例如立法、公司本身改變政策、訴訟結果以及來自作家協會的社區壓力等。我預計數據商品化的增加將在這個領域引發更多的戰場。

    您希望看到行業內標準化方面發生什麼,以使網站更容易表達有關爬行的偏好?

    長普: 在資料省計畫中,我們絕對希望新的標準能夠出現並被採用,以允許創作者以更精細的方式表達他們對資料使用的偏好。這會讓他們的負擔減輕很多。我認為這是理所當然的,也是雙贏的。但尚不清楚誰的工作是製定或執行這些標準。如果 [AI] 公司自己可以得出這個結論並採取行動。但標準的設計者幾乎不可避免地會對自己的使用產生一些偏見,特別是如果它是一個公司實體。

    另外,並非在所有情況下都不應尊重偏好。例如,我認為從事親社會研究的學者或記者不一定不能使用任何人都可以訪問的網站上已經公開的機器存取資料。並非所有資料都生來平等,也並非所有用途都生來平等。

    回到頂部

    來自您網站的文章

    網路上的相關文章

    More From Author

    唐納德·川普 (Donald Trump) 的 20 億美元股票橫財、比特幣下跌、超微電腦下跌:市場新聞綜述

    唐納德·川普 (Donald Trump) 的 20 億美元股票橫財、比特幣下跌、超微電腦下跌:市場新聞綜述

    Cuthand:必須繼續面對種族主義和“加拿大種族滅絕”

    Cuthand:必須繼續面對種族主義和“加拿大種族滅絕”

    Leave a Reply

    Your email address will not be published. Required fields are marked *

    Recent Comments

    No comments to show.

    Categories