假新聞語言學
假新聞語言學

本文作者為言論自由行行政總裁黃永


一般人到底有多容易相信假新聞?麻省理工學院的一項研究發現,假新聞單是標題也有20%機會成功誤導讀者,並估計每名受眾平均每看5篇假新聞,便有一篇令人上當。


過去應對假新聞的主要手段,基本上是靠fact-check:兩個月前本欄亦介紹過每年一度的「全球新聞核實高峰會」,今年的主題是如何運用大數據偵測假新聞的來源和轉發模式,像天文台般分析fake news在全球各地的傳播趨勢。


卻原來,世上還有一些語言學家正嘗試從另一角度切入,利用大數據去對付fake news這個問題:希望透過人工智能,自動識別(automatic detection)一篇文章是否假新聞;更準確的說法,應該是利用電腦推算一篇新聞是真還是假的機率。


像康奈爾大學一個專門研究運算學及語言學的專家小組便發現,假新聞在寫作手法方面,往往有以下「特徵」:


大量用「我」字,刻意強調只是個人觀點;


內文有極多介詞,如:為了、由於、對於、自從;


比真新聞會使用更多動詞和代詞,相對少提全名;


使用更多亦更密集的標點符號,也就是短句會較多;


有更多從作者所觀察的消息,故較多用「看到」或「聽到」;


較多強調當下如何影響將來(真新聞則多數比較過去與現在);


語調傾向正向而感性(真新聞的內文會較多「不」字,並較負面);


多日常對話用語及語氣相對肯定(真新聞則提及各種可能性,因而語氣較不肯定)。


以康奈爾大學這個研究為基礎,最近加拿大的西門菲莎大學(Simon Fraser University )再有語言學家探索假新聞的修辭,發現假新聞使用的詞語較多接近仇恨言論(hate speech),而且亦有較多跟性愛、死亡、焦慮相關的字眼;相比之下,真新聞有更高比例的商業用語,另外內文也會較多提及銀碼和經濟數據。


研究上述範疇的學者表示,目前最大的困難是許多假新聞的源頭,往往懂得混入不少真新聞,真新聞會反過來對人工智能造成干擾,阻礙電腦的學習進度。另一方面,「創作」新聞的人也愈來愈懂得如何掩飾真相,令識別假新聞變得更為困難。


不過,正因如此,令愈來愈多學者相信以大數據配合人工智能去辨認假新聞,可能是人類的唯一出路:畢竟fake news的增長速度太快、數量也太多,根本就不可能不停fact-check!


原文轉載自《信報》 2019年8月27日


原圖:RTHK


(本文純屬作者個人意見,不代表『港人講地』立場。)
2
驚訝
4
點算呀
2
無意見

評論