特約記者/朱弘川 編譯
大量資訊導致新聞業近10年來發生了巨大變化。自2008年以來,資訊的整合和數位敘事已成為新聞編輯台的首要課題,也促成資料新聞(data journalism)的發展。現在,記者們正在學習如何通過電子洩露(electronic leaks)、無人機和高端的程式獲取大量數據,許多大型新聞機構也因應這樣的趨勢,建立內部數位化程序來對這些資料進行分類和過濾,就如巴拿馬文件那時的做法一樣。新聞記者每天都試圖透過各種管道獲取資訊,也與大量的資訊進行競爭。美國東北大學一份研究指出,2013年數位資訊量為(digital universe)為4.4 zettabytes,預估到2020年將達到44 zettabytes。而2015年富比士雜誌的一篇文章提到,過去兩年所生產出的數據量,已超越了人類歷史過往的總合。
正如全球調查新聞網(GIJ)在2015年報導所提到的,新聞業使用資料進行報導已近50年,不僅是做為新聞業的基石,也能提升報導的質量。GOOGLE近期的一份報告指出,42%的記者使用資料呈現新聞報導,美國和歐洲有51%的新聞機構都有專門的資料記者,數位出版商更高達60%。
但隨著資訊量的龐大,及快速的傳播速度,也讓新聞界開始正視消息來源的保護、資訊的準確性,及能否有效的處理,和新聞責任的問題。
接下來的文章,將會以「資料的使用」與資訊相關的法律及案例進行對話,並整理相關問題和思考的面向。
圖片來源:unsplash
電腦詐欺和濫用法
根據電腦詐欺和濫用法(Computer Fraud and Abuse Act,CFAA),資料採集行為通常透過機器人、爬蟲(crawlers)或應用程式從網站上提取資料。特別是對於調查記者而言,資料的採集是記者必備的技術之一,從公共資源中收集資料,或直接向公司索取資料較無觸法的疑慮,但試圖掠奪公司數據可能會導致民事甚至刑事問題。因此,在兼顧公眾利益和不違反CFAA的前提下,未來資料新聞該如何發展,將需要更多實務上的探討。
資料採集
資料採集(Data scraping)己成為許多記者必備的新聞技術,事實上,過去幾年許多重要的報導都與資料採集息息相關。2017年,ProPublica揭露了亞馬遜網站商品定價的秘辛,他們模擬「非金卡會員」的購物程序,在幾周內鎖定250個經常購買的產品頁面,並加以分析。他們發現亞馬遜會優先考慮推送自家的產品以及那些為其服務付費的供應商,同時對消費者隱藏最佳優惠。這則報導提醒了人們演算法在現今商業機制的重要性。
許多新聞機構每天透過資料採集來確保他們處在最佳狀態。舉例來說,全球深度報導網(CIR)的Reveal,便是靠此來建立「失蹤人口資料庫」。 每天晚上,Reveal都會使用Python連上聯邦政府資料庫,即時更新失踪人口和身份不明的屍體的資料。同樣地,關於房市崩盤的報導,因為政府拒絕透露資訊,Reveal特地寫了一個採集程式來獲取底特律土地銷售數據。
「亞特蘭大憲法報」則更強大,當他們在進行「醫生和性虐待」的全國性調查項目時,因為得不到全美各州的醫療委員會和監管機構有效回應,他們便開發了採集程式,花了一年多的時間檢索超過10萬多份監管機構的文件,最終也入選了2017年普利茲獎決選名單。
ProPublica的Julia Angwin設計的Facebook Political Ad Collector,當用戶登錄臉書時,該程式便收集用戶新聞頁面顯示的廣告,並猜出哪些是政治性的廣告。但就目前CFAA的規定,ProPublica仍有觸法的疑慮。
學術圈也在資料採集上有所貢獻。哈佛商學院的研究人員利用網頁瀏覽器自動化工具向Airbnb主機採集相關數據,試圖探討Airbnb上種族歧視的問題。該研究發現,具有明顯非裔美國人名的租屋客,其租賃請求的成功率,較具有明顯白人名的租屋客降低16%,。
雖然資料採集正成為許多領域人們常用的工具,但政府和企業往往不歡迎它。許多公司通常利用演算法來確保用戶看到的內容,同時允許廣告商在不知會用戶的情況下鎖定特定的消費者,而記者對這些資料的挖掘,也威脅了商業模式運作。
大型公司和技術平台透過收集用戶數據對公眾擁有很多控制權,但在美國企業「自我監管」(self-regulate)和商業秘密的保護傘下,目前仍未有改善的情況。此外,這些公司很少向大學、研究人員或智庫提供資料,也限制了問責機制的建立。自劍橋分析公司醜聞及臉書洩露個資事件以來,許多企業將擴大自我監管的範疇,也讓記者和學者的工作將更艱辛。
法律概念的轉變
首先要注意私營企業將繼續使用各種法律策略來阻止記者和其他研究人員收集數據。雖然有關侵入、版權、詐欺和違約等傳統概念仍有其存在的必要。但是,這些法律主張在現今網路空間中未必實用,有必要討論新的類型。
例如,像一般的網路爬蟲(web crawling),已構成侵入的要件,但也是網路世界的常態。因此,法院一直不願意將「進入」網站的機器人與進入「實體」空間的入侵者進行比較。雖然踩到某人的財產並改變他們的財物可能會造成傷害,但就網路爬蟲的情況,機器人大概只會拖慢網路流量。
同樣,版權的主張也難以發揮。例如,在Ticketmaster Corp. v. Tickets.com, Inc.的判例上,Ticketmaster聲稱Tickets.com不當使用程式從Ticketmaster網站上竊取資訊。加州法院認定,由於版權法(Copyright Act)既不保護事實也不保護事實彙編,Ticketmaster不能聲稱其侵犯版權。法院強調了在版權聲明下許多資料和數據通常對公眾開放。此外,鑑於網站上的大量內容(例如社交媒體和網路零售商)是由用戶創建的,平台無法自己主張版權聲明,因為版權是由內容的創建者持有的,而各種網站僅僅是該內容的管理者,而非創建者。
實務方面的建議
新聞媒體在進行資料採集時,可採取以下方法降低觸法的風險。首先,記者應先了解造訪網站的服務條款,以了解是否禁止採集,即便其資料是可接近的。在查看使用條款時,通常會討論機器人、登錄指令或其他方法,記者應確保哪些行為是禁止的,如果無法了解這些條款的含義,應主動聯繫律師。
其次,如果使用條款禁止資料抓取,記者應首先尋找替代來源,或透過公開記錄請求。不幸的是,許多企業開始以商業秘密為由,阻止透過公開記錄請求披露其資訊。而且,正如亞特蘭大憲法報的「醫生與性虐待」案例所示,公開記錄請求也難以提供足夠資訊,必須從第三方獲取資料。
但是,如果所需資訊僅存在於企業的網站上,那麼最好主動聯繫。華盛頓郵報的圖片編輯John Muyskens便認為,這種方法不僅有效,而且有助於記者拓展人脈,甚至可能促使企業主動聯繫記者,促成報導完成。當然,也可能讓這些企業更小心保管自己資料不被獲取。
也許最重要的是,記者應該是良好的公民,並確保任何資料收集都是為了公共利益。記者應該有一個明確的理由,他們需要具體的資訊,而不是期望「釣魚」和資料採集一定能做出好報導。在這一點上,尼曼實驗室(Nieman Lab)建議保持「過程追踪」,逐步掌握是否具備發展成報導的可能性。
相關文章: