新聞出版商因 AI 抓取疑慮 限制網際網路檔案館的存取權

特約記者劉子瑞編譯報導
本文翻譯自《尼曼新聞實驗室》(Nieman Lab)原文〈News publishers limit Internet Archive access due to AI scraping concerns〉,由安德魯.戴克(Andrew Deck)與哈娜.塔米茲(Hanaa’ Tameez)共同撰寫,兩位皆為《尼曼新聞實驗室》的特約撰稿人。
非營利數位圖書館「網際網路檔案館(Internet Archive)」以保存網路內容為使命,提供「網站時光機(Wayback Machine)」的公眾數位檔案館服務,同時也使用爬蟲技術捕捉網頁快照(snapshots)。然而,隨著 AI 機器人為了餵養模型而在網路上搜尋訓練素材,網際網路檔案館初始承諾的資訊自由存取權,已成為某些新聞出版商眼中的潛在威脅。
AI抓取資料遭濫用 網際網路檔案館成無辜受害者
《衛報》(The Guardian)商務與授權主管羅伯特.漢恩(Robert Hahn)表示,當該報查看是誰在嘗試擷取其內容時,存取日誌(access logs)顯示網際網路檔案館經常有爬蟲造訪,因此決定限制網際網路檔案館存取該報超過 1 兆份網頁快照資料庫的已發表文章內容,以降低 AI 公司透過該非營利機構抓取(scrape)其內容的機率。漢恩表示《衛報》已採取具體措施,將自己從網際網路檔案館的應用程式介面(Application Programming Interface, API)中排除,並從網站時光機的 URL 介面中過濾掉其文章頁面。不過,《衛報》的區域首頁、主題頁面及其他登陸頁面(landing pages)仍將繼續出現在網站時光機中。
漢恩特別對網際網路檔案館的 API 表達擔憂。他說:「許多這類 AI 企業都在尋找現成的、結構化的內容資料庫。網際網路檔案館的 API 顯然是他們將機器接入並吸取智慧財產權的絕佳場所。」不過他也承認網站時光機(Wayback Machine)本身的「風險較小」,因為其數據結構化程度不高。
隨著新聞出版商試圖保護其內容不受 AI 公司侵害,網際網路檔案館的使用權限也備受關注。例如,《金融時報》(The Financial Times)封鎖了任何試圖抓取其付費牆後內容的機器人,包括來自 OpenAI、Anthropic、Perplexity 以及網際網路檔案館的機器人。全球公共政策與平台策略總監馬特.羅傑森(Matt Rogerson)説道,《金融時報》的大多數報導都設有付費牆,因此,通常只有無需付費的報導才會出現在網站時光機中,因為這些內容原本就是開放給廣大公眾的。
老道明大學(Old Dominion University)的電腦科學家兼教授麥克.尼爾森(Michael Nelson)表示:「Common Crawl 和網際網路檔案館被廣泛認為是『好人』,卻被像 OpenAI 這樣的『壞人』所利用。在每個人都不願被大型語言模型(LLM)控制的反感中,我認為好人成了無辜的受害者。」
新聞業限制資料抓取 恐削弱對抗「資訊混亂」工作
《衛報》尚未記錄到其網頁被 AI 公司透過網站時光機抓取的具體案例,但正主動採取特定措施,並與網際網路檔案館合作執行,漢恩表示,對方也一直對《衛報》的疑慮持接受態度。漢恩說,《衛報》並未全面封鎖網際網路檔案館的爬蟲,因為它支持非營利機構網際網路檔案館使資訊民主化的使命,他說:「更多是關於合規性(compliance)還有對我們內容的後門威脅。」
當被問及《衛報》的決定時,網際網路檔案館創辦人布魯斯特.卡利(Brewster Kahle)表示,「如果出版商限制像網際網路檔案館這樣的圖書館,那麼公眾獲得歷史記錄的管道就會減少。」此話也暗示了這種發展可能會削弱該機構對抗「資訊混亂」的工作。
《衛報》並非唯一在重新評估與網際網路檔案館關係的媒體。《紐約時報》(The New York Times)向《尼曼新聞實驗室》證實,它正積極進行「硬封鎖(hard blocking)」網際網路檔案館的爬蟲。2025 年底,《紐約時報》還將其中一個爬蟲 archive.org_bot 加入其 robots.txt 檔案中,禁止其存取內容。《紐約時報》發言人表示:「我們相信《紐約時報》以人為本的新聞價值,並始終希望確保我們的智慧財產權是受到合法存取和使用的。我們封鎖網際網路檔案館的機器人,是因為網站時光機提供了對《紐約時報》內容不受限制、未經授權的存取管道,AI 公司也可以使用。」
去年 8 月,網路論壇 Reddit 宣布將封鎖網際網路檔案館,後者的數位圖書館包含了無數 Reddit 論壇、留言區和個人檔案的資料,這些內容與 Reddit 現在以數千萬美元授權給 Google 作為 AI 訓練數據的內容大同小異。Reddit 發言人告訴《The Verge》:「網際網路檔案館致力於開放網路(open web),但我們已經注意到有些 AI 公司違反了平台政策,從網站時光機中抓取數據。在他們能夠保護自己的網站並遵守平台政策之前⋯⋯我們將限制他們對 Reddit 數據的部分存取權,以保護 Reddit 用戶。」
卡利也提到網際網路檔案館正限制對其館藏的批次存取行為。去年秋天他在 Mastodon 的一則貼文中寫道:「有許多收藏內容可供用戶使用,但不允許批次下載。我們使用內部流量限制系統、過濾機制及 Cloudflare 等網路安全服務。」網際網路檔案館目前並未透過其 robots.txt 檔案禁止任何特定的爬蟲,包括各大 AI 公司的爬蟲。截至 1 月 12 日,archive.org 的 robots.txt 檔案還寫著:「歡迎來到本檔案館!請爬取我們的檔案。如果您能負責任地爬取,我們將不勝感激。保持開放!」之後不久,內容就被更改了,現在該檔案簡短地寫著:「歡迎來到網際網路檔案館!」
網頁robots.txt 頁面不具法律約束力 爬蟲機器人並無義務遵守
有證據顯示,網站時光機過去曾被用於訓練大型語言模型(LLM)。《華盛頓郵報》(Washington Post)2023 年分析 Google 的 C4 數據集的結果顯示,網際網路檔案館是建造 Google T5 模型和 Meta Llama 模型所使用數百萬個網站的其中一個。在 C4 數據集的 1,500 萬個網域中,網站時光機的網域(web.archive.org)出現頻率排名第 187 位。
網站時光機總監馬克.葛拉漢(Mark Graham)去年秋天告訴《尼曼新聞實驗室》,2023 年 5 月,網際網路檔案館曾因一家 AI 公司造成伺服器超載而暫時斷線。該公司從 Amazon Web Services 上的虛擬主機每秒發送數萬個請求,以從該非營利機構的公共領域檔案中擷取文本數據。網際網路檔案館曾兩度封鎖這些主機,隨後公開呼籲「節制尊重地」抓取其網站。葛拉漢說:「我們聯繫了他們。他們最後給了我們一筆捐款⋯⋯他們最後表示了歉意,並停止了這種行為。」卡利在事件發生後不久的一篇部落格文章中寫道:「那些想要批次使用我們材料的人應該從慢速開始,然後逐步增加。此外,如果您正在啟動一個大型專案,請聯繫我們⋯⋯我們隨時提供協助。」
《衛報》限制網際網路檔案館存取權的舉動讓我們好奇,其他新聞出版商是否也採取了類似行動。我們查看了出版商的 robots.txt 頁面,以此衡量對網際網路檔案館爬蟲行為的潛在擔憂。網站的 robots.txt 頁面會告訴機器人可以抓取網站的哪些部分,其作用就像「門房」,告知訪客誰被允許進入、誰不被允許,以及哪些區域是禁區。robots.txt 頁面不具法律約束力,因此運作爬蟲機器人的公司並無義務遵守。
「今日美國公司」採強硬措施保護內容免於網路爬蟲侵害
為了探討這個問題,《尼曼新聞實驗室》以記者班.威爾許(Ben Welsh)擁有的 1,167 個新聞網站的資料庫作為起點著手研究,其中 76% 的網站位於美國。威爾許定期在其資料庫中媒體 robots.txt 檔案跑爬蟲。12 月底,我們從威爾許的網站下載了一份試算表,是這些網站 robots.txt 檔案中所有被禁止的機器人,其中有 4 個機器人,被 AI 使用者代理監督服務 Dark Visitors 視為與網際網路檔案館有關。
這些數據並不全面,而且偏探索性質,也並不代表全球或整個產業的趨勢,目的只是開始揭示哪些出版商較不希望其內容被網際網路檔案館爬取。結果顯示,總共有來自 9 個國家的 241 個新聞網站,明確禁止了 4 個網際網路檔案館爬蟲機器人中的至少 1 個。這些網站中的大多數(87%)歸今日美國公司(USA Today Co.)所有,這是美國最大的報業集團,前身為甘尼特(Gannett)。在我們的數據集當中,每個甘尼特旗下的媒體都禁止了同樣的兩個機器人 archive.org_bot 和 ia_archiver-web.archive.org。這些機器人於 2025 年被加入甘尼特旗下出版物的 robots.txt 檔案中。
某些甘尼特旗下的網站採取了更強硬的措施,來保護其內容不受網際網路檔案館爬蟲的侵害。在網站時光機中搜尋《狄蒙紀錄報》(Des Moines Register)的 URL 時,會出現一則訊息:「抱歉。此 URL 已從網站時光機中排除。」
今日美國公司的一名發言人透過電子郵件表示:「今日美國公司一貫強調保護我們內容和智慧財產權的重要性⋯⋯去年,我們引入了新協定(protocols)來阻止未經授權的數據收集與抓取行為,將此類活動重新導向至一個概述我們授權要求的指定頁面。」
甘尼特拒絕進一步評論其與網際網路檔案館的關係。在 2025 年 10 月的財報電話會議上,執行長麥克.李德(Mike Reed)談到了公司的反抓取(anti-scraping)措施。李德在會議上說:「光是在 9 月,我們就在地方平台和《今日美國》(USA Today)平台上封鎖了 7,500 萬個 AI 機器人,其中絕大多數都試圖抓取我們的地方內容。其中約 7,000 萬個來自 OpenAI。」甘尼特已於 2025 年 7 月與 Perplexity 簽署了內容授權協議。
我們的資料集識別出的 4 個網際網路檔案館機器人裡,約 93%(226 個網站)的出版商禁止了其中的 2 個。有 3 個新聞網站禁止了其中 3 個網際網路檔案館爬蟲,分別是法國《哈芬登郵報》(Le Huffington Post)、《世界報》(Le Monde),以及《世界報》英文版,這些媒體皆隸屬於世界報集團(Group Le Monde)。
另外,在我們資料集中的 241 個網站,除了禁止 4 個網際網路檔案館機器人中至少 1 個,其中有高達 240 個網站也禁止了 Common Crawl —— 這是另一個與商業 LLM 開發有著更緊密關係的非營利網路保存計畫。另外,有 231 個網站同時禁止了 OpenAI、Google AI 和 Common Crawl 運作的機器人。
網際網路檔案館承擔保存的艱鉅任務 出於良善目的卻遭濫用
正如《尼曼新聞實驗室》之前報導過的,網際網路檔案館承擔了保存網際網路的艱鉅任務,而許多新聞機構並沒有能力保存自己的作品。12 月,波因特學院(Poynter)宣布與網際網路檔案館發起一項聯合倡議,培訓地方新聞媒體如何保存其內容。雖然迫切需要像這樣的檔案封存倡議,但卻少之又少。美國聯邦政府沒有下令要求保存網路內容,因此網際網路檔案館是目前在美國最強大的檔案封存倡議機構。
漢恩表示,網際網路檔案館通常表現得像個好公民,但是這就是非預期後果定律(the law of unintended consequences),即,你出於非常良善的目的去做某件事,結果它卻被濫用了。
《卓越新聞電子報》為讀者報導新聞媒體最前線,我們追蹤所有重大新聞演講活動現場、探索新聞媒體浮動的疆界!
- 牛津路透新聞學研究所報告:有多少新聞網站封鎖了 AI 爬蟲?
- 人工智慧引發新聞媒體「零點擊」危機:流量雪崩與法律戰升級
- 人工智慧授權難變現 報導內容讓讀者買單仍是關鍵
- 2026新聞業展望》消滅新聞業,或是幫助記者? AI在媒體機構的階級鴻溝與應用創新
主編:蔡宏杰
