假新聞語言學

發表於 2019-08-29 11:00

讚好 273

本文作者為言論自由行行政總裁黃永

一般人到底有多容易相信假新聞？麻省理工學院的一項研究發現，假新聞單是標題也有20%機會成功誤導讀者，並估計每名受眾平均每看5篇假新聞，便有一篇令人上當。

過去應對假新聞的主要手段，基本上是靠fact-check：兩個月前本欄亦介紹過每年一度的「全球新聞核實高峰會」，今年的主題是如何運用大數據偵測假新聞的來源和轉發模式，像天文台般分析fake news在全球各地的傳播趨勢。

卻原來，世上還有一些語言學家正嘗試從另一角度切入，利用大數據去對付fake news這個問題：希望透過人工智能，自動識別（automatic detection）一篇文章是否假新聞；更準確的說法，應該是利用電腦推算一篇新聞是真還是假的機率。

像康奈爾大學一個專門研究運算學及語言學的專家小組便發現，假新聞在寫作手法方面，往往有以下「特徵」：

大量用「我」字，刻意強調只是個人觀點；

內文有極多介詞，如：為了、由於、對於、自從；

比真新聞會使用更多動詞和代詞，相對少提全名；

使用更多亦更密集的標點符號，也就是短句會較多；

有更多從作者所觀察的消息，故較多用「看到」或「聽到」；

較多強調當下如何影響將來（真新聞則多數比較過去與現在）；

語調傾向正向而感性（真新聞的內文會較多「不」字，並較負面）；

多日常對話用語及語氣相對肯定（真新聞則提及各種可能性，因而語氣較不肯定）。

以康奈爾大學這個研究為基礎，最近加拿大的西門菲莎大學（Simon Fraser University ）再有語言學家探索假新聞的修辭，發現假新聞使用的詞語較多接近仇恨言論（hate speech），而且亦有較多跟性愛、死亡、焦慮相關的字眼；相比之下，真新聞有更高比例的商業用語，另外內文也會較多提及銀碼和經濟數據。

研究上述範疇的學者表示，目前最大的困難是許多假新聞的源頭，往往懂得混入不少真新聞，真新聞會反過來對人工智能造成干擾，阻礙電腦的學習進度。另一方面，「創作」新聞的人也愈來愈懂得如何掩飾真相，令識別假新聞變得更為困難。

不過，正因如此，令愈來愈多學者相信以大數據配合人工智能去辨認假新聞，可能是人類的唯一出路：畢竟fake news的增長速度太快、數量也太多，根本就不可能不停fact-check！

原文轉載自《信報》 2019年8月27日

原圖：RTHK

評論