當資料新聞學成為一門備受矚目的顯學時,它在實行上會碰到的問題也會顯露出來。資料新聞學的明星記者 Nate Silver 就指出:在資料新聞學的四大步驟當中,傳統新聞記者擅長完成資料性新聞的前二個步驟:收集資料、將這些資料組織成一篇文稿或其他新聞形式。但是不擅長於後二個步驟:解釋或分析資料、將解釋推廣下去,呈現資料對於將來的意含。如何去詮釋、呈現資料,都會需要做好各種判斷來避開錯誤。經濟學者、Quartz 與路透社專欄作家 Allison Schrager 分享了她過去運用資料撰寫新聞的心得,談到幾個資料新聞記者要懂得避開的陷阱:
在理想狀況下,資料本身就會「說話」,會自己呈現出意義,但實際碰到的資料絕不可能如此完美。因此首先你必須要選取正確的資料來解答你的疑問。資料選定之後,還必須檢視它,找出該剔除的異常極端值、抓到你真正想要的統計母體。當然,在剔除的取捨上,又牽涉到作者的判斷與經驗。但是如果不好好審視資料而囫圇吞棗,往往會使用了有偏差而不可靠的採樣而不自知。
在分析資料時,必須留心資料所代表的真正意義。Schrager 舉了一個簡單但很容易碰見類似狀況的例子:假設我們要調查美國國民個人儲蓄率是否足夠,而只看各年個人儲蓄金額的話,會得到儲蓄年年升高的趨勢。但是儲蓄與收入有直接的關係,如果看的是儲蓄對個人收入的比例,卻會發現完全相反的趨勢,其實儲蓄比例是持續降低的。在考慮儲蓄意義時,收入的資料也應當一併考慮進去。同樣的,資料新聞記者必須精準了解自身所要處理的問題、掌握資料在這些問題當中的意義,做出適當的處理,否則很可能會因為自己的先入為主而濫用了資料作佐證。
美國個人每年儲蓄金額
美國個人每年儲蓄對收入的比例
最後,越是複雜的資料,處理起來越容易讓偏差趁虛而入。考量到記者畢竟不是資料科學家,應避免採用需要複雜計算處理的資料,必須讓資料處理的理路都在自己的理解與可行範圍之下。Schrager 提及她探討工會機能不斷減弱的文章,原本考慮以1989年與最靠近當下的2010年工人資料做比較。但是她想到2010年會因為不景氣與人口老化的問題而有超過原本傾向的影響因子,為了不需要過度花費心思對這些影響作額外的處理,Schrager 寧可挑比較沒有疑慮,但是同樣能證明趨勢的2007年資料來作比較。
我們可以從 Schrager 的經驗看出,資料正確與否的「驗證」自然會是問題,但即使所使用的資料都為真確,還是有資料的「詮釋」問題。新聞作者的年齡、先入為主的價值觀,都會影響到他如何觀看這份資料、進而做出怎麼樣的詮釋。在這樣的詮釋當中,作者很容易有意或無意地將偏見投射進去。這時,在「數字會說話」、「數字不會說謊」的印象下,偏見與誤差會更容易為人所接受,造成的傳播效應更加可怕。
即使是最有經驗、最用心的研究學者也會不自覺得出有所偏差的結果,而記者更不可能如學者般花大量的時間處理過度複雜或曖昧的資料,要處理資料新聞學。最好透過專家網路尋求可信任又有合作意願的資料專家一同進行,否則就必須在新聞需求與資料處理能力間取得平衡。當然,與傳統新聞相同,公正無偏差無誤導仍舊是一定要把持的要務。
參考文獻及圖片出處:
The problem with data journalism http://qz.com/189703/the-problem-with-data-journalism/
The dangers and rewards of Data Journalism http://www.onemanandhisblog.com/archives/2014/03/data-journalism-dangers-rewards-statsitics.html
本文轉載自《米克斯媒體研究情報》原文網址http://mediaproplus.blogspot.tw/2014/04/blog-post_16.html