牛津路透新聞學研究所報告:有多少新聞網站封鎖了 AI 爬蟲?


郭宇璇|特約記者編譯報導
在生成式AI時代,OpenAI的ChatGPT和Google的Gemini(原名Bard)可說是AI聊天機器人龍頭。為了讓AI的回答更加精確,它們需要很多資料訓練其大型語言模型(LLM),各國的新聞網站便是資料來源之一。然而,牛津路透新聞學研究所(Reuters Institute for the Study of Journalism)於2024年2月發佈的一篇研究報告指出,在他們研究的10個國家中,有些新聞網站已經封鎖了OpenAI和Google,阻止他們使用AI爬蟲從其網站上抓取資料。
重要研究結果
- 截至2023年底,在這10個國家的熱門新聞網站中,有48%封鎖了OpenAI的爬蟲;封鎖Google爬蟲的新聞網站數量較少,約佔24%。
- 幾乎所有(97%)決定封鎖Google爬蟲的新聞網站,都同時封鎖了OpenAI的爬蟲。
- 不同國家封鎖AI爬蟲的新聞網站比例不同,封鎖OpenAI的新聞網站比例從美國的79%到墨西哥和波蘭的20%不等;封鎖Google的比例則從德國的60%到波蘭和西班牙的7%不等。
- 在2023年牛津路透新聞學研究所調查的新聞網站中,沒有一家在決定封鎖AI爬蟲後反悔。
- 與網路新聞觸及率相對較小的新聞機構相比,網路新聞觸及率較大的新聞機構更傾向封鎖AI爬蟲。
- 所有類型的新聞機構都會封鎖AI爬蟲,但傳統印刷媒體的網站比廣播公司或數位媒體的網站更有可能封鎖AI爬蟲。
- 將此研究結果與其他研究比較後發現,與一般的流行網站相比,新聞媒體更有可能封鎖AI爬蟲。
研究背景
網路爬蟲(web crawlers)會自動瀏覽網頁,並在瀏覽過程中系統性地收集資料。爬蟲可用於多種目的,例如搜尋引擎以爬蟲收集的數據為網頁編制索引,以便在使用者搜尋時快速回應。
OpenAI等AI公司也會利用爬蟲,從網路上收集資料來訓練自己的大型語言模型。其需要以大量資料的訓練為基礎才能良好運行,而網路是高品質文本和視聽資料的重要來源。
例如,由《華盛頓郵報》(Washington Post)記者和艾倫AI研究所(Allen Institute for AI)研究人員組成的團隊,分析了Google的C4資料集,其已被用於一些大型語言模型(Schaul et al., 2023)。其中「新聞和媒體」類別佔了資料集中13%的分詞(tokens),該類別除了新聞機構外,還包括維基百科、文檔分享網站Scribd和書籍分享網站Goodreads等。
經過訓練後,像GPT這類的大型語言模型,就可以透過ChatGPT這類的界面輸出內容,並回答人們的問題。雖然模型不需要連線就能做到這一點,但一旦訓練完成,它們還可以與網路連接,使它們能夠即時從網站上搜尋內容,然後將這些內容作為輸出訊息的一部分。如此一來,大型語言模型就能替代傳統搜尋引擎。
然而,出於各種原因,新聞機構可能不希望他們的內容被AI公司使用。一些媒體——例如《紐約時報》(New York Times)認為,如果AI公司使用他們的內容來訓練AI模型,他們應該得到經濟補償(Grynbaum and Mac, 2023)。此外,新聞媒體可能會擔心,當AI回答錯誤或「幻覺」(hallucinations)的內容時,使用者會將責任歸咎給他們;以及擔憂若使用者能透過AI獲得資訊,就不會到新聞網站上閱讀完整內容,導致他們的收入減少。
也有些媒體不擔心這些潛在的風險,甚至他們可能主動希望被納入AI的資料庫中,讓人們在將生成式AI用於新聞相關用途時,自家新聞能發揮作用(Maher, 2024)。有一些公司,例如德國出版商阿克塞爾-施普林格(Axel Springer),已經與OpenAI等公司達成了協議,允許它們用自家網站上的新聞回答使用者的問題(Sisani and Sommerfeld, 2023)。與此同時,世界各地的新聞媒體也都在嘗試使用AI工具,探索AI是否能創造新的使用者體驗、提高效率並降低成本。
如果新聞媒體不希望AI公司獲取其線上內容,他們可以選擇封鎖網路爬蟲。媒體可以在其網站上加入robots.txt文件,來指示網路爬蟲遠離自家網站(雖然他人是否遵守該指示是自願的)。OpenAI在2023年8月7日發佈最新的網路爬蟲時,也提供了如何封鎖網路爬蟲的說明(OpenAI, n.d.),讓媒體能選擇退出;Google在2023年9月28日也提供了同樣的說明(Romain, 2023)。
因此,在許多專家認為AI將改變資訊格局的時候,追蹤哪些媒體封鎖了AI,可以讓我們了解媒體與AI公司之間的關係,進而探究AI作為一種新聞接觸的管道,對大眾而言有多實用。
為了追蹤有多少網站封鎖了最著名的ChatGPT和Gemini的AI爬蟲,此研究在非營利組織網際網路檔案館(Internet Archive)的網站時光機(Wayback Machine)中,檢查了2023年每個能查詢的日子裡的robots.txt存檔文件。並根據2023年牛津路透新聞學研究所的數位新聞報告(Digital News Report),針對10個國家中使用最廣泛的15個網路新聞來源進行調查,這些國家包括巴西、丹麥、德國、印度、墨西哥、挪威、波蘭、西班牙、英國和美國(Newman et al., 2023)。
過往研究
路透新聞學研究所並不是第一個進行類似研究的單位。Originality.ai是一家開發AI和抄襲檢查器的公司,目前正在利用網站時光機,追蹤在全球1000個最受歡迎的網站中,封鎖AI爬蟲的比例(Originality.ai, n.d.)。他們發現,目前約有三分之一的網站封鎖了OpenAI、約五分之一的網站封鎖了公開網路爬蟲專案Common Crawl,以及約十分之一的網站封鎖了Google。不過,該公司並沒有特別關注新聞媒體,反而是包括了一些幾乎沒有理由封鎖的網站類別(例如電子商務)。
路透社記者威爾士(Ben Welsh)每天檢查1156家新聞媒體的robots.txt文件,查看它們是否封鎖了OpenAI、Google AI和Common Crawl,並在自己的網站上分享結果(Welsh, n.d.)。其結果顯示約50%的新聞網站封鎖了OpenAI、約40%封鎖了Google AI和Common Crawl。這個結果指出,與一般流行網站相比,新聞網站更有可能封鎖AI爬蟲。不過,值得注意的是,調查範圍的網站中約有75%來自美國,目前尚不清楚這是否會導致結果偏差。此外,不同類型的新聞媒體在封鎖AI爬蟲方面是否存在系統性差異仍屬未知。
研究結果
※ 各國差異
透過對10個國家中使用最廣泛的15個線上新聞來源進行研究,牛津路透新聞學研究所發現,截至2023年底,在這10個國家中有48%的新聞網站封鎖了OpenAI的爬蟲、封鎖Google AI爬蟲的網站則約佔OpenAI的一半(24%)。
不過,各國封鎖AI爬蟲的比例有巨大差異。封鎖OpenAI的新聞網站比例從美國的79%到墨西哥和波蘭的20%不等。至於Google,封鎖其AI爬蟲的比例從德國的60%到波蘭和西班牙的7%不等。整體來說,北方國家的新聞媒體比南方更有可能封鎖AI爬蟲。有趣的是,這些數據與試圖根據AI能力和準備程度來對國家進行排名的嘗試一致,例如 Tortoise(n.d.)和智庫機構Oxford Insights (n.d.)發布的數據,這兩家公司都將美國排名第一。
除了德國(封鎖OpenAI和Google的比例均為60%)之外,在每個國家中,封鎖OpenAI爬蟲的新聞網站都比Google多。此外,幾乎所有封鎖Google AI的網站也封鎖了OpenAI(97%)。這可能是因為ChatGPT比Gemini(原名Bard)更突出、使用更廣泛,也可能是因為OpenAI爬蟲先發布。但新聞媒體也可能對封鎖Google更加謹慎,以免影響他們在Google搜尋結果中的地位(雖然Google搜尋和AI是個別的爬蟲)。
封鎖OpenAI的新聞網站的比例從美國的79%到墨西哥和波蘭的20%不等。(特約記者郭宇璇擷圖)
封鎖Google的AI爬蟲的比例從德國的60%到波蘭和西班牙的7%不等。(特約記者郭宇璇擷圖)
※ 不同時期的差異
通過觀察不同時期的數據可以發現,在大多數國家,都有一些新聞媒體在OpenAI的爬蟲發佈後,便立即開始封鎖OpenAI的爬蟲;但在西班牙、墨西哥和波蘭,媒體的封鎖行動較晚。
在封鎖Google的AI方面也有類似的情況,但在墨西哥和波蘭,沒有證據表明,任何新聞網站在Google爬蟲推出時便立即將其封鎖。這些國家的一些媒體事實上封鎖了Google AI爬蟲,但這只是因為,他們長期以來都有封鎖所有網路爬蟲的政策,因此在Google AI爬蟲推出之前,封鎖比例就已經超過了0%。
2023年期間,沒有任何網站在封鎖後決定解除對OpenAI或Google AI爬蟲的封鎖。上圖中墨西哥趨勢線的下降是由於網站時光機缺失了一些資料,而不是網站解除了封鎖。不過,牛津路透新聞學研究所認為,如果有更多的新聞媒體與AI公司達成交易、或是封鎖的弊端開始大於好處,未來可能會看到這一趨勢的逆轉。
※ 新聞媒體的差異
如果關注媒體的差異,會發現某些類別的媒體,比其他類別的媒體更有可能封鎖AI爬蟲。首先,根據牛津路透新聞學研究所的《2023年數位新聞報告》(Newman et al., 2023 ),網路覆蓋率較大的媒體相較於較小的媒體,更有可能封鎖AI爬蟲。截至2023年底,在網路新聞覆蓋率達到或超過20%的媒體中,有32%的媒體封鎖了Google AI爬蟲。然而,在覆蓋率低於10%的媒體中,封鎖Google AI爬蟲的比例僅為22%。至於不同網路覆蓋率對於封鎖OpenAI的比例差異則較小。
網路覆蓋率較大的媒體相較於較小的媒體,更有可能封鎖AI爬蟲,尤其是封鎖Google AI爬蟲的差異更為明顯。(特約記者郭宇璇擷圖)
不同媒體類型之間的差異更大。牛津路透新聞學研究所將媒體分為三類:傳統印刷媒體(如《紐約時報》(New York Times)等報紙和《明鏡週刊》(Der Spiegel)等雜誌)、電視和廣播公司(如《BBC》和《CNN》)以及數位媒體(包括《哈芬登郵報》(HuffPost)和《Yahoo!》)。
截至2023年底,半數以上(57%)的傳統印刷媒體網站封鎖了OpenAI的爬蟲,而電視和廣播公司的此比例為48%,數位媒體則是約為三分之一(31%)。封鎖Google AI爬蟲的情況與此類似,印刷媒體(32%)比廣播媒體(19%)和數位媒體(17%)更有可能封鎖Google。
不同類型的媒體封鎖AI爬蟲的比例不同,以傳統印刷媒體封鎖AI爬蟲的比例最高。(特約記者郭宇璇擷圖)
結論
這份研究報告發現,截至2023年底,受調查的10個國家中的新聞媒體,約有一半的新聞網站已封鎖OpenAI和Google的AI爬蟲。此外,這些被封鎖的網站大多是傳統的印刷媒體和網路覆蓋率較大的媒體。這代表較新的AI模型不太可能從這些管道收集資料,這可能會對AI在新聞方面的回答產生影響。
不過,牛津路透新聞學研究所也指出,這份報告只是2023年AI產業中的一小部分觀察。AI是一個快速發展的領域,即使在短期內,情況也可能會發生變化。有些媒體開始希望能與AI公司達成交易,相關的新產品也在不斷開發中。
參考資料
- Grynbaum, M. M., Mac, R. 2023. ‘The Times Sues OpenAI and Microsoft Over A.I. Use of Copyrighted Work’.New York Times, 27 December.
- Maher, B. 2024. ‘Politico embraces generative AI web crawlers with website redesigns’.Press Gazette, 1 February.
- Newman, N., Fletcher, R., Eddy, K., Robertson, C. T., Nielsen, R. K. 2023. Reuters Institute Digital News Report 2023. Oxford: Reuters Institute for the Study of Journalism.
- OpenAI. (n.d.). GPTBot. (Accessed 8 February 2024).
- Originality.ai. (n.d.). Websites That Have Blocked OpenAI’s GPTBot CCBot Anthropic Google Extended – 1000 Website Study. (Accessed 8 February 2024).
- Oxford Insights. (n.d.). Government AI Readiness Index 2023. (Accessed 8 February 2024).
- Romain, D. 2023. ‘An update on web publisher controls’. The Keyword, 28 September.
- Schaul, K., Chen, S. Y., Tiku, N. 2023. ‘Inside the secret list of websites that make AI like ChatGPT sound smart’. Washington Post, 19 April.
- Sisani, A., Sommerfeld, J. 2023. ‘Axel Springer and OpenAI partner to deepen beneficial use of AI in journalism’. Axel Springer, 13 December 13.
- >Tortoise. (n.d.). The Global AI Index. (Accessed 8 February 2024).
- Welsh, B. (n.d.). Who blocks OpenAI, Google AI and Common Crawl? (Accessed 8 February 2024).
《卓越新聞電子報》為讀者報導新聞媒體最前線,我們追蹤所有重大新聞演講活動現場、探索新聞媒體浮動的疆界!
- 人工智慧大躍進,但AI會取代新聞工作者嗎?
- 美聯社公布人工智慧報導準則 記者仍是不可取代
- 尼曼新聞實驗室2024年新聞業預測|人工智慧篇,上篇|搜尋引擎導引流量下滑 AI促進新聞「客製化」發展
- 尼曼新聞實驗室2024年新聞業預測|人工智慧篇,下篇|AI人機協作成趨勢 人類優勢無可取代
- 記者可以應用AI寫新聞嗎? 路透社、Newsquest分享執行經驗
- 牛津路透新聞學研究所:2023年新聞產業的20項研究成果 在2024年仍然適用
- AI時代危機 假訪問、新型詐騙亂真 監管挑戰迫在眉睫
主編:蔡宏杰