牛津路透新聞學研究所報告：有多少新聞網站封鎖了 AI 爬蟲？

2024 年 04 月 11 日 | 卓越新聞電子報

郭宇璇｜特約記者編譯報導

在生成式AI時代，OpenAI的ChatGPT和Google的Gemini（原名Bard）可說是AI聊天機器人龍頭。為了讓AI的回答更加精確，它們需要很多資料訓練其大型語言模型（LLM），各國的新聞網站便是資料來源之一。然而，牛津路透新聞學研究所（Reuters Institute for the Study of Journalism）於2024年2月發佈的一篇研究報告指出，在他們研究的10個國家中，有些新聞網站已經封鎖了OpenAI和Google，阻止他們使用AI爬蟲從其網站上抓取資料。

重要研究結果

截至2023年底，在這10個國家的熱門新聞網站中，有48%封鎖了OpenAI的爬蟲；封鎖Google爬蟲的新聞網站數量較少，約佔24%。
幾乎所有（97%）決定封鎖Google爬蟲的新聞網站，都同時封鎖了OpenAI的爬蟲。
不同國家封鎖AI爬蟲的新聞網站比例不同，封鎖OpenAI的新聞網站比例從美國的79%到墨西哥和波蘭的20%不等；封鎖Google的比例則從德國的60%到波蘭和西班牙的7%不等。
在2023年牛津路透新聞學研究所調查的新聞網站中，沒有一家在決定封鎖AI爬蟲後反悔。
與網路新聞觸及率相對較小的新聞機構相比，網路新聞觸及率較大的新聞機構更傾向封鎖AI爬蟲。
所有類型的新聞機構都會封鎖AI爬蟲，但傳統印刷媒體的網站比廣播公司或數位媒體的網站更有可能封鎖AI爬蟲。
將此研究結果與其他研究比較後發現，與一般的流行網站相比，新聞媒體更有可能封鎖AI爬蟲。

研究背景

網路爬蟲（web crawlers）會自動瀏覽網頁，並在瀏覽過程中系統性地收集資料。爬蟲可用於多種目的，例如搜尋引擎以爬蟲收集的數據為網頁編制索引，以便在使用者搜尋時快速回應。

OpenAI等AI公司也會利用爬蟲，從網路上收集資料來訓練自己的大型語言模型。其需要以大量資料的訓練為基礎才能良好運行，而網路是高品質文本和視聽資料的重要來源。

例如，由《華盛頓郵報》（Washington Post）記者和艾倫AI研究所（Allen Institute for AI）研究人員組成的團隊，分析了Google的C4資料集，其已被用於一些大型語言模型（Schaul et al., 2023）。其中「新聞和媒體」類別佔了資料集中13%的分詞（tokens），該類別除了新聞機構外，還包括維基百科、文檔分享網站Scribd和書籍分享網站Goodreads等。

經過訓練後，像GPT這類的大型語言模型，就可以透過ChatGPT這類的界面輸出內容，並回答人們的問題。雖然模型不需要連線就能做到這一點，但一旦訓練完成，它們還可以與網路連接，使它們能夠即時從網站上搜尋內容，然後將這些內容作為輸出訊息的一部分。如此一來，大型語言模型就能替代傳統搜尋引擎。

然而，出於各種原因，新聞機構可能不希望他們的內容被AI公司使用。一些媒體——例如《紐約時報》（New York Times）認為，如果AI公司使用他們的內容來訓練AI模型，他們應該得到經濟補償（Grynbaum and Mac, 2023）。此外，新聞媒體可能會擔心，當AI回答錯誤或「幻覺」（hallucinations）的內容時，使用者會將責任歸咎給他們；以及擔憂若使用者能透過AI獲得資訊，就不會到新聞網站上閱讀完整內容，導致他們的收入減少。

也有些媒體不擔心這些潛在的風險，甚至他們可能主動希望被納入AI的資料庫中，讓人們在將生成式AI用於新聞相關用途時，自家新聞能發揮作用（Maher, 2024）。有一些公司，例如德國出版商阿克塞爾-施普林格（Axel Springer），已經與OpenAI等公司達成了協議，允許它們用自家網站上的新聞回答使用者的問題（Sisani and Sommerfeld, 2023）。與此同時，世界各地的新聞媒體也都在嘗試使用AI工具，探索AI是否能創造新的使用者體驗、提高效率並降低成本。

如果新聞媒體不希望AI公司獲取其線上內容，他們可以選擇封鎖網路爬蟲。媒體可以在其網站上加入robots.txt文件，來指示網路爬蟲遠離自家網站（雖然他人是否遵守該指示是自願的）。OpenAI在2023年8月7日發佈最新的網路爬蟲時，也提供了如何封鎖網路爬蟲的說明（OpenAI, n.d.），讓媒體能選擇退出；Google在2023年9月28日也提供了同樣的說明（Romain, 2023）。

因此，在許多專家認為AI將改變資訊格局的時候，追蹤哪些媒體封鎖了AI，可以讓我們了解媒體與AI公司之間的關係，進而探究AI作為一種新聞接觸的管道，對大眾而言有多實用。

為了追蹤有多少網站封鎖了最著名的ChatGPT和Gemini的AI爬蟲，此研究在非營利組織網際網路檔案館（Internet Archive）的網站時光機（Wayback Machine）中，檢查了2023年每個能查詢的日子裡的robots.txt存檔文件。並根據2023年牛津路透新聞學研究所的數位新聞報告（Digital News Report），針對10個國家中使用最廣泛的15個網路新聞來源進行調查，這些國家包括巴西、丹麥、德國、印度、墨西哥、挪威、波蘭、西班牙、英國和美國（Newman et al., 2023）。

過往研究

路透新聞學研究所並不是第一個進行類似研究的單位。Originality.ai是一家開發AI和抄襲檢查器的公司，目前正在利用網站時光機，追蹤在全球1000個最受歡迎的網站中，封鎖AI爬蟲的比例（Originality.ai, n.d.）。他們發現，目前約有三分之一的網站封鎖了OpenAI、約五分之一的網站封鎖了公開網路爬蟲專案Common Crawl，以及約十分之一的網站封鎖了Google。不過，該公司並沒有特別關注新聞媒體，反而是包括了一些幾乎沒有理由封鎖的網站類別（例如電子商務）。

路透社記者威爾士（Ben Welsh）每天檢查1156家新聞媒體的robots.txt文件，查看它們是否封鎖了OpenAI、Google AI和Common Crawl，並在自己的網站上分享結果（Welsh, n.d.）。其結果顯示約50%的新聞網站封鎖了OpenAI、約40%封鎖了Google AI和Common Crawl。這個結果指出，與一般流行網站相比，新聞網站更有可能封鎖AI爬蟲。不過，值得注意的是，調查範圍的網站中約有75%來自美國，目前尚不清楚這是否會導致結果偏差。此外，不同類型的新聞媒體在封鎖AI爬蟲方面是否存在系統性差異仍屬未知。

研究結果

※ 各國差異

透過對10個國家中使用最廣泛的15個線上新聞來源進行研究，牛津路透新聞學研究所發現，截至2023年底，在這10個國家中有48%的新聞網站封鎖了OpenAI的爬蟲、封鎖Google AI爬蟲的網站則約佔OpenAI的一半（24%）。

不過，各國封鎖AI爬蟲的比例有巨大差異。封鎖OpenAI的新聞網站比例從美國的79%到墨西哥和波蘭的20%不等。至於Google，封鎖其AI爬蟲的比例從德國的60%到波蘭和西班牙的7%不等。整體來說，北方國家的新聞媒體比南方更有可能封鎖AI爬蟲。有趣的是，這些數據與試圖根據AI能力和準備程度來對國家進行排名的嘗試一致，例如 Tortoise（n.d.）和智庫機構Oxford Insights （n.d.）發布的數據，這兩家公司都將美國排名第一。

除了德國（封鎖OpenAI和Google的比例均為60%）之外，在每個國家中，封鎖OpenAI爬蟲的新聞網站都比Google多。此外，幾乎所有封鎖Google AI的網站也封鎖了OpenAI（97%）。這可能是因為ChatGPT比Gemini（原名Bard）更突出、使用更廣泛，也可能是因為OpenAI爬蟲先發布。但新聞媒體也可能對封鎖Google更加謹慎，以免影響他們在Google搜尋結果中的地位（雖然Google搜尋和AI是個別的爬蟲）。

封鎖OpenAI的新聞網站的比例從美國的79%到墨西哥和波蘭的20%不等。（特約記者郭宇璇擷圖）

封鎖Google的AI爬蟲的比例從德國的60%到波蘭和西班牙的7%不等。（特約記者郭宇璇擷圖）

※ 不同時期的差異

通過觀察不同時期的數據可以發現，在大多數國家，都有一些新聞媒體在OpenAI的爬蟲發佈後，便立即開始封鎖OpenAI的爬蟲；但在西班牙、墨西哥和波蘭，媒體的封鎖行動較晚。

在封鎖Google的AI方面也有類似的情況，但在墨西哥和波蘭，沒有證據表明，任何新聞網站在Google爬蟲推出時便立即將其封鎖。這些國家的一些媒體事實上封鎖了Google AI爬蟲，但這只是因為，他們長期以來都有封鎖所有網路爬蟲的政策，因此在Google AI爬蟲推出之前，封鎖比例就已經超過了0%。

2023年期間，沒有任何網站在封鎖後決定解除對OpenAI或Google AI爬蟲的封鎖。上圖中墨西哥趨勢線的下降是由於網站時光機缺失了一些資料，而不是網站解除了封鎖。不過，牛津路透新聞學研究所認為，如果有更多的新聞媒體與AI公司達成交易、或是封鎖的弊端開始大於好處，未來可能會看到這一趨勢的逆轉。

※ 新聞媒體的差異

如果關注媒體的差異，會發現某些類別的媒體，比其他類別的媒體更有可能封鎖AI爬蟲。首先，根據牛津路透新聞學研究所的《2023年數位新聞報告》（Newman et al., 2023 ），網路覆蓋率較大的媒體相較於較小的媒體，更有可能封鎖AI爬蟲。截至2023年底，在網路新聞覆蓋率達到或超過20%的媒體中，有32%的媒體封鎖了Google AI爬蟲。然而，在覆蓋率低於10%的媒體中，封鎖Google AI爬蟲的比例僅為22%。至於不同網路覆蓋率對於封鎖OpenAI的比例差異則較小。

網路覆蓋率較大的媒體相較於較小的媒體，更有可能封鎖AI爬蟲，尤其是封鎖Google AI爬蟲的差異更為明顯。（特約記者郭宇璇擷圖）

不同媒體類型之間的差異更大。牛津路透新聞學研究所將媒體分為三類：傳統印刷媒體（如《紐約時報》（New York Times）等報紙和《明鏡週刊》（Der Spiegel）等雜誌）、電視和廣播公司（如《BBC》和《CNN》）以及數位媒體（包括《哈芬登郵報》（HuffPost）和《Yahoo!》）。

截至2023年底，半數以上（57%）的傳統印刷媒體網站封鎖了OpenAI的爬蟲，而電視和廣播公司的此比例為48%，數位媒體則是約為三分之一（31%）。封鎖Google AI爬蟲的情況與此類似，印刷媒體（32%）比廣播媒體（19%）和數位媒體（17%）更有可能封鎖Google。

不同類型的媒體封鎖AI爬蟲的比例不同，以傳統印刷媒體封鎖AI爬蟲的比例最高。（特約記者郭宇璇擷圖）

結論

這份研究報告發現，截至2023年底，受調查的10個國家中的新聞媒體，約有一半的新聞網站已封鎖OpenAI和Google的AI爬蟲。此外，這些被封鎖的網站大多是傳統的印刷媒體和網路覆蓋率較大的媒體。這代表較新的AI模型不太可能從這些管道收集資料，這可能會對AI在新聞方面的回答產生影響。

不過，牛津路透新聞學研究所也指出，這份報告只是2023年AI產業中的一小部分觀察。AI是一個快速發展的領域，即使在短期內，情況也可能會發生變化。有些媒體開始希望能與AI公司達成交易，相關的新產品也在不斷開發中。