研究揭：ChatGPT、Claude、Gemini 與 Grok 多未主動標示新聞來源　加拿大媒體提告

2026 年 04 月 28 日 | 卓越新聞電子報

特約記者廖彥甄編譯報導

本文翻譯自《尼曼新聞實驗室》（Nieman Lab）原文〈ChatGPT, Claude, Gemini, and Grok are all bad at crediting news outlets, but ChatGPT is the worst (at least in this study)〉，由《尼曼新聞實驗室》編輯蘿拉．哈札德．歐文（Laura Hazard Owen）撰文。

加拿大研究人員測試了四款主流人工智慧模型：ChatGPT、Claude、Gemini 與 Grok，付費版與免費版兩者的表現差異，並詢問它們對加拿大新聞事件的回應，以觀察這些模型是否會在答案中主動標示來源為特定新聞媒體機構。結果或許並不令人意外：在未被特別要求的情況下，多數人工智慧模型很少主動引用新聞來源；此外，不同模型在這方面的表現也存在明顯差異。

「這些系統系統性地吸收了加拿大新聞內容。」麥基爾大學（McGill University）倫理與傳播系教授、同時也是該研究共同作者歐文（Taylor Owen）在其部落格中指出，「它們對國內政治、省級事務與地方新聞的掌握程度，清楚顯示其知識來源來自加拿大新聞；然而，這些系統卻很少告訴你資訊從何而來。」

加拿大多家主要媒體，包括 CBC、The Globe and Mail、Toronto Star、Postmedia、Metroland Media 及 The Canadian Press，已於 2024 年 11 月對 OpenAI 提起版權侵權訴訟。此案為加拿大首宗同類案件，目前仍在審理中。

92% AI 內容回應缺少新聞來源標示

歐文與媒體、科技與民主中心創辦主任布里奇曼（Aengus Bridgman）進一步說明其研究方法與發現：在未啟用網路搜尋功能的情況下，針對 2,267 則真實的加拿大新聞（涵蓋英語與法語）測試四款主要人工智慧模型，並發現一致的模式：所有模型皆展現出對加拿大時事的廣泛理解，與其吸收新聞報導內容的情況相符。在訓練資料涵蓋期間內，模型對 74% 的新聞事件回覆中至少呈現部分相關知識；然而，在這些具備知識的回應中，有高達 92% 未提供任何形式的來源標示。

進一步啟用網路搜尋功能，並透過各家公司 API 測試 140 篇特定新聞文章時，結果顯示：所有模型都能生成涵蓋足夠原始報導內容的回應，使多數使用者幾乎無需點擊原始來源。雖然模型通常會附上加拿大新聞網站的連結（有 52% 的回覆至少包含一個加拿大網址），但僅有 28% 的情況會在回覆文字中明確點出新聞來源名稱。

也就是說，儘管連結理論上提供了回溯來源的途徑，但對於只閱讀回應內容的使用者而言，往往難以辨識自己實際正在「消費」的是哪一家媒體的報導。

在啟用網路搜尋的情境下，研究附圖所呈現的是一種「預設的使用者體驗」：當使用者在未特別要求引用來源的情況下，提出一般性問題時，模型會如何作答。這也正是多數人使用人工智慧的方式，例如「告訴我關於 X 的事情」，而非具體詢問「Toronto Star 如何報導 X」。

藍色方塊：代表回應中「涵蓋原始報導獨家內容」的比例，例如具體事件、特定人物或關鍵發現，其詳盡程度足以讓讀者在不造訪新聞網站的情況下，仍能掌握報導要點。這些內容並非完整複製，而是經過摘要與轉述，涵蓋原文部分關鍵資訊，但有時也可能出現事實錯誤或遺漏。研究團隊逐一比對原始文章，評估每則回應是否真正涉及「獨家報導」，而非僅停留在一般性描述。
綠色方塊：顯示模型「標示來源」的頻率，包括在回應文字中直接點名媒體，或透過結構化、機器可讀的引用資訊附上來源。

整體而言，研究結果顯示：內容「覆蓋率高」，但「來源標示率偏低」。

高覆蓋、低標示來源：AI 模型的共同落差

在各模型表現上，Gemini 與Claude 分別在 81% 與 72% 的回覆中涵蓋了原始報導的獨家內容，但 Gemini 僅有 6% 的回覆標示來源；Grok 在 59% 的回覆中呈現獨家內容，其中僅 7% 提供來源引用；至於 ChatGPT，則在 54% 的回覆中涵蓋獨家報導，但幾乎從不標示原始新聞來源。

即使模型未能呈現獨家報導，它們仍會提供完整的主題性回應，進一步降低使用者點擊原始新聞來源的動機。在未被明確要求的情況下，ChatGPT 尤其較少進行標示來源，在本次樣本中僅有 1% 的回覆提及來源；Claude 則為 16%。

然而，一旦使用者明確要求引用來源，所有模型的表現皆顯著提升，但這正是多數使用者實際上不會採取的提問方式。

在最有利的條件下（明確指定媒體並要求引用），各模型的標示來源比例大幅改善：Claude 達 97%、Gemini 為 95%、ChatGPT 為 86%、Grok 為 74%；連結附帶率同樣偏高，分別為 Grok（91%）、Gemini（69%）、Claude（64%）與 ChatGPT（59%）。

研究指出，「有意義的標示來源在技術上並非難事」，關鍵問題在於「預設使用體驗」與「最佳情境」之間的落差。由於大多數使用者不會主動指定媒體或要求引用來源，因此一般情境下的回應方式，才是真正形塑新聞消費模式與媒體生態的關鍵。

AI引用的媒體不平衡

研究人員進一步發現，即使人工智慧模型確實提供來源，其引用對象往往集中在讀者已熟悉、且可免費取得的媒體；相較之下，設有付費牆或規模較小的地方新聞機構，則明顯較少被提及。

研究指出，在英語媒體中，在免費內容平台 CBC、CTV 與 Global News，「被引用頻率」與「模型可見度」兩項指標上均名列前茅。The Globe and Mail 的表現亦相對突出；然而，Toronto Star 與 Financial Post 雖為重要新聞機構，卻明顯處於邊緣位置。此外，服務卡加利、愛德蒙頓、渥太華、溫哥華等城市的地方性報紙，幾乎完全未出現在模型引用之中。

在法語媒體方面，Radio-Canada 與 La Presse 佔據主導地位，其中 Le Devoir 的能見度亦相當突出。相較之下，魁北克發行量最大的報紙之一 Le Journal de Montréal 在所有模型中的總提及次數僅為48次。

研究人員指出，法語新聞業正處於「雙重劣勢」：其內容被納入模型訓練資料，但生產這些內容的媒體卻幾乎未被標示或認可。

各模型行為差異

若從新聞價值角度出發，必須選擇一個最正確的人工智慧模型，會是哪一個？布里奇曼表示：「這其實是一個相當困難的問題」，因為各個模型的行為差異極大，他指出：

Claude 在第一軌（Track 1）中，引用加拿大媒體來源的比例最高（相較之下，ChatGPT 為8%，Gemini 僅3%）。當它無法確定答案時，傾向直接承認「不知道」，而非產生幻覺。僅約 37% 的經濟版回覆能實質回應「截止前」的新聞事件，但這是因為它選擇拒答而非猜測。然而，其代價是：在開啟網路搜尋後，它仍以高達 68% 的比例重現付費牆內容。
ChatGPT 則擁有目前最完善的新聞呈現介面（如內嵌引用與可點擊連結），對一般使用者最為友善。但其經濟版模型也是最容易產生「幻覺」的：對於理論上不可能掌握的「截止後」事件，有高達87%的回覆仍給出看似自信的答案，其中 88% 實際上是不準確的。雖然它在 54% 的第二軌（Track 2）回覆中會標示來源，乍看之下表現不錯，但同時也在相同比例的情況下，生成足以取代原始報導的內容。
Gemini 的反應最為敏捷，在開啟網路搜尋時，能涵蓋最多具體且獨特的報導內容（達 81%）；然而，它幾乎不會在回應文字中點出加拿大新聞來源（僅 2% 至 8%）。換言之，它在「有效取代原始新聞」的同時，也最徹底地隱藏了資訊來源。
Grok 則最擅長在未啟用網路搜尋、僅依賴訓練資料的情況下，呈現加拿大媒體內容。然而，它在處理「截止後」新聞時，同樣存在高度幻覺問題：89% 的回覆涉及其不應掌握的事件，其中 84% 為不準確資訊。

布里奇曼最後指出，最令他感到意外的，是這一現象的高度複雜性，以及各家公司所採取的多樣策略。每家公司都有設計決策，這些決策會導致差異化產出和或多或少負責任的行為，例如：避免幻覺或傾向重現原始報導；是強化來源推薦，還是弱化付費牆機制。這些是重要的差異，也顯示當前人工智慧生態中仍存在有限且不完整的自主性。