不穩定中的穩定元素
那福忠/數位出版顧問

  大環境震盪,讓傳統相對穩定的行業陷入困境,新聞媒體就是其一。對資訊業的人來說,資訊大環境幾十年來從未安穩過,多年前的統計每十分鐘就有一樣新的軟硬體發展出來,現在恐怕縮短到一分鐘了,設備更新與軟體升級從未間斷,而設備的新舊不合,軟體新舊版本的不相容,也就習以為常成了每天的課題了。雖然如此,地球仍依靠資訊系統來運作,因為資訊系統並不依靠不穩定的軟硬體,而是依靠相對穩定的資料結構。

  我們日用的資訊系統不外處理資料,所謂資料的 3T,解譯 (Translation)、轉換 (Transformation)、傳遞 (Transmission)。一個機構、一家企業、乃至一種行業,每天例行所處理的資料,儘管內容不同,但資料項目、項目之間的關連,也就是資料的結構 (Data Structure),則少有變動,是系統中的穩定元素,也自然成為系統的核心。一篇新聞報導無論用什麼軟體撰寫編輯,也無論用什麼電腦運算與通訊設備傳遞,其資料項目如標題、日期、作者、內文段落、圖片、關鍵詞等結構,則極少變動。
  

  正因為資料結構變動不大,用來存取資料的資料庫系統,幾十年來變動的次數也屈指可數,尤其是關連式資料庫 (Relational Database) 可以說是多年未變。但資料庫是資訊科技最複雜的技術之一,是電腦的語言,只有受過訓練的資訊專業人員才能貫通,而且一旦設計成型,任何結構上的更改都困難而複雜,使得資料運用的靈活度受到限制。直到十幾年前,可延伸性標示語言 XML (eXtensible Markup Language) 的出現,不但改變了這一現象,也改變了資訊科技,同時也帶給新聞媒體脫胎換骨的契機。
  

  XML 並不是程式語言,也不是任何可以在電腦運算的語言,僅是一種語法、文法、規章,基本原理是在資料上加標示,形同商品上的標籤 (Tag),標籤的名稱是由人訂的,所以人看得懂。標籤是元數據 (Metadata),是用來描述別的資料的資料,上例的新聞報導除標題、日期、作者、內文段落、圖片、關鍵詞都可以訂為標籤之外,可以添增多種管理標籤,如版權、圖片來源、圖片版權、稿費、支付方式,更可以在文稿內容適當的地方加註標籤,像是事件發生日期、事件發生地點。這麼多標籤的內容大部分不會在文稿上出現,但可以作為搜尋的索引,以後只要搜尋標籤就可找到標籤裡的內容,不必人力閱讀全文尋找。
  

  標籤除了便於日後搜尋之外,更可作為不同系統之間資料交換的橋樑,傳統的資料結構沒有標籤,相互傳遞的規則必先由人工內建在程式裡,系統才知道接收的是什麼資料,如果眾多系統的資料都相互交換,系統人員則要把規規範一一內建於各程式。如同業之間需要資料交換,那就更需要業界一齊來制訂標準規章。資料加註標籤,各系統只要看標籤就知道資料項目,省卻了一切繁雜的人力手續,使各系統自動運作。標籤的可延伸性是另一優勢是,需要新標籤就可以增加,這在傳統的資料庫幾乎不可能。
  

  XML 的運用,在高科技如電子、軟體,以及多種專業早已採用,所以發展特別迅速,但在出版界則落後甚多。聯合報在四年以前依新聞作業,規劃出聯合報標示語言 udnML (United Daily News Markup Language),曾數次在研討會發表,後多次被學術論文引用,唯因人力關係未能落實。標示語言僅是語法,各專業行業各有自己的資料結構,也就是要設計特殊的語法,然後須撰寫成程式,才能推廣應用。
新華社經驗
  

  中國大陸在標示語言的研究頗為超前,並且已經實際應用。最早是中國報業協會專為報紙設計的規範,以後新華社為內部使用,設計了新華標示語言 xinhuaML (xinhua Markup Language),發展成軟體全面使用,使得幾十種不同型態的外稿,在格式上統一,內部運作效率大幅度提升。新華社的成功經驗發酵,讓大家體認華文媒體應該有一個共同標準,於是網羅專家學者,成立專案組織,以 xinhuaML 為基礎擴大研究,取名華文新聞標示語言 CNML (Chinese News Markup Language)。製作完成後,於 2006 年 5 月核定為國家標準。
  

  新華社有豐富使用標示語言的經驗,所以首先採用 CNML,同時也是採用完整版本的機構。據新華社資訊系統負責人武國衛先生說,新華社的內部作業,全面採用了 CNML 的文字、圖片、音視頻等標準規格,統一了內部 20 個系統的資料結構,對業務的整合、資訊的交換、資訊的共用,發揮了很大的功能,同時業務靈活度增強,因應業務變化所做的調整也大幅度簡化。
  

  新華社同時對國內 800 家用戶以 CNML 格式發佈新聞,大部分的報社,也有部分的網站、電臺、電視臺,大部分用戶都是採用北大方正提供的接收軟體,與內部系統連接,另有少部分用戶自行撰寫軟體解譯 CNML,再與內部系統連接,用戶內部作業完全採用 CNML 的還不多。對國外用戶,雖然也我們也以 CNML 格式發佈,但仍維持舊有格式,海外媒體用戶,也開始陸續索取 CNML 的規範。
  

  便於推廣,新華社開發了一套通用的 CNML 應用軟體介面,每個系統都能使用,不必使用 CNML 時重複開發介面,而且使用容易,簡化了推廣的難度,也節省了不少經費。武國衛說,CNML 是元數據的使用、是技術的底層,技術部門自然最先看到效果,業務部門則要多花一些時間,才能體驗 CNML 的優勢,這樣的新技術,全面推廣自然需要一些時日,但高層主管的強烈支持,推廣才能加速。
新聞加值
  

  對新聞媒體來說,採用標示語言結構能把新聞轉換成知識,利用傳統資料庫則無法做到,至少是非常困難的事。半個世紀前,電腦進入商業用途,資訊科學 (Information Science) 興起之初,就把資料、與資訊作簡單的分野,資料本身是沒有意義的數據,但把資料應用在決策上,就成為資訊。以後又把定義延伸,凡把資訊前後串連在一起就稱為知識。一則新聞報導當然不僅是資料,但也稱不上是知識,僅算是資訊。資訊是短暫的,價值不高,知識是長時間的累積與加工,價值就遠高於資訊,網路上許多憂質研究報告以高價出售,即是證明。
  

  設計周全的標示語言,在製作新聞妥善運用標籤,以後就很容易的從資料庫抽取各種資料,匯總整理成價值高的知識,提升新聞的附加價值。新聞媒體尤其是報業目前陷入低潮,今後可能轉變為多種型態,但其資料結構變化有限,只要有設計周全的標示語言,就能從容應付各種轉變。