技術(shù)
導(dǎo)讀:近日,麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)和卡塔爾計(jì)算研究所的研究人員推出了一套鑒別假新聞的全新AI解決方案。
近日,麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)和卡塔爾計(jì)算研究所的研究人員推出了一套鑒別假新聞的全新AI解決方案。
該方案在本月的2018年自然語(yǔ)言處理經(jīng)驗(yàn)方法(EMNLP)會(huì)議上提交的一項(xiàng)研究中進(jìn)行展示,他們描述了一種人工智能(AI)系統(tǒng),可以確定新聞報(bào)道來(lái)源是準(zhǔn)確的還是帶有政治偏見(jiàn)的。
研究人員用它來(lái)創(chuàng)建一個(gè)包含1000多個(gè)新聞來(lái)源的開(kāi)源數(shù)據(jù)集,其中注釋了“事實(shí)性”和“偏見(jiàn)”的分?jǐn)?shù)。他們聲稱(chēng)這是同類(lèi)中最大的數(shù)據(jù)庫(kù)。
虛假消息繼續(xù)令人頭疼。今年3月,有一半的美國(guó)人稱(chēng)在新聞網(wǎng)站上瀏覽了故意誤導(dǎo)性的文章。最近愛(ài)德曼(Edelman)調(diào)查的大多數(shù)受訪者表示,他們無(wú)法判斷媒體報(bào)道的真實(shí)性。鑒于假新聞的傳播速度比真實(shí)新聞快,因此十分之七的人擔(dān)心它可能會(huì)被用作“武器”,這并不奇怪。
人工智能系統(tǒng)的新穎之處在于對(duì)其評(píng)估的媒介的廣泛語(yǔ)境理解,沒(méi)有單獨(dú)從新聞文章中提取特征值(機(jī)器學(xué)習(xí)模型所訓(xùn)練的變量),而是在確定可信度時(shí)考慮維基百科、社交媒體,甚至URL和網(wǎng)絡(luò)流量數(shù)據(jù)的結(jié)構(gòu)。
它建立在支持向量機(jī)(SVM)上,后者是一種常用于分類(lèi)和回歸分析的監(jiān)督系統(tǒng),經(jīng)過(guò)培訓(xùn)就可以進(jìn)行評(píng)估。真實(shí)性分為:低、中、高;政治傾向分為:極左、左、中偏左、中偏右、右、極右。
根據(jù)團(tuán)隊(duì)的說(shuō)法,系統(tǒng)只需要150篇文章來(lái)確定是否可以可靠地信任某一來(lái)源。它在檢測(cè)新聞來(lái)源是否具有高、低或中等水平的“事實(shí)性”時(shí)準(zhǔn)確率可達(dá)到65%,并且在檢測(cè)新聞來(lái)源是左傾,右傾還是中等時(shí)準(zhǔn)確率為70%。
維基百科和Twitter也加入了系統(tǒng)的預(yù)測(cè)模型。正如研究人員指出的那樣,缺少維基百科頁(yè)面可能表明網(wǎng)站不可信,或者頁(yè)面可能會(huì)提到有問(wèn)題的來(lái)源是諷刺性的或明確的左傾。此外,他們指出,沒(méi)有經(jīng)過(guò)驗(yàn)證的Twitter帳戶(hù)的出版物,或者使用新創(chuàng)建的沒(méi)有明確標(biāo)注的賬戶(hù)發(fā)布的消息,不太可能是公正的。
模型考慮的最后兩個(gè)向量是URL結(jié)構(gòu)和Web流量。它會(huì)檢測(cè)試圖模仿可靠新聞來(lái)源(例如“foxnews.co.cc”而不是“foxnews.com”)的網(wǎng)址,并考慮網(wǎng)站的Alexa排名,即根據(jù)收到的整體綜合瀏覽量計(jì)算得出的指標(biāo)。
該團(tuán)隊(duì)對(duì)來(lái)自Media Bias/Fact Check(MBFC)的1,066個(gè)新聞來(lái)源進(jìn)行了系統(tǒng)培訓(xùn),這是一個(gè)人工事實(shí)檢查員的網(wǎng)站,他們手動(dòng)注釋具有準(zhǔn)確性和偏見(jiàn)數(shù)據(jù)的網(wǎng)站。為了生成上述數(shù)據(jù)庫(kù),研究人員在每個(gè)網(wǎng)站上發(fā)布了10-100篇文章(總計(jì)94,814篇)。
正如研究人員在其報(bào)告中詳細(xì)詳述的那樣,并非每個(gè)特征都是事實(shí)性和/或偏見(jiàn)的有用預(yù)測(cè)指標(biāo)。例如,一些沒(méi)有維基百科頁(yè)面或已建立的Twitter個(gè)人資料的網(wǎng)站是公正的,而Alexa中排名很高的新聞來(lái)源并不總是“一邊倒”地比那些流量較少的新聞源更具偏見(jiàn)或更實(shí)際。
然后就出現(xiàn)了一個(gè)有趣的模式:來(lái)自虛假新聞網(wǎng)站的文章更可能使用雙曲和情感語(yǔ)言,而左傾網(wǎng)點(diǎn)更可能提到公平和互惠。同時(shí),具有較長(zhǎng)維基百科頁(yè)面的出版物通常更可靠,具有包含最少數(shù)量的特殊字符和復(fù)雜子目錄的URL的出版物也是如此。
在未來(lái),該團(tuán)隊(duì)打算探索該系統(tǒng)是否可以適應(yīng)其他語(yǔ)言(它是專(zhuān)門(mén)針對(duì)英語(yǔ)進(jìn)行培訓(xùn)),以及是否可以訓(xùn)練它來(lái)檢測(cè)特定區(qū)域的偏差。他們計(jì)劃推出一款應(yīng)用程序,該應(yīng)用程序?qū)⑼ㄟ^(guò)“跨越政治范疇”的文章自動(dòng)回應(yīng)新聞。
“如果一個(gè)網(wǎng)站之前發(fā)布了假新聞,他們很有可能會(huì)再次發(fā)布,”該報(bào)的第一作者,博士后助理拉米·巴利(Ramy Baly)說(shuō)。 “通過(guò)自動(dòng)搜索有關(guān)這些網(wǎng)站的數(shù)據(jù),我們希望我們的系統(tǒng)可以幫助確定哪些網(wǎng)站可能首先做到這一點(diǎn)?!?/p>
當(dāng)然,他們并不是唯一試圖用AI來(lái)對(duì)抗假新聞傳播的機(jī)構(gòu)。
總部位于德里的創(chuàng)業(yè)公司MetaFact利用自然語(yǔ)言處理算法(NLP)來(lái)標(biāo)記新聞報(bào)道和社交媒體帖子中的錯(cuò)誤信息和偏見(jiàn)。 AdVerify.ai是去年推出測(cè)試版的軟件即服務(wù)平臺(tái),可以分析錯(cuò)誤信息、惡意軟件和其他有問(wèn)題的內(nèi)容,并可以交叉引用一個(gè)定期更新的數(shù)據(jù)庫(kù),其中包含數(shù)千條虛假或合法的新聞。
就其本身而言,F(xiàn)acebook已嘗試部署“識(shí)別賬戶(hù)和虛假新聞”的人工智能工具,并最近收購(gòu)了總部位于倫敦的創(chuàng)業(yè)公司Bloomsbury AI,以幫助其打擊誤導(dǎo)性報(bào)道。
假新聞會(huì)被消除嗎?一些專(zhuān)家不相信AI能勝任這項(xiàng)任務(wù)。負(fù)責(zé)組織假冒新聞挑戰(zhàn)賽的卡內(nèi)基梅隆大學(xué)機(jī)器人研究所科學(xué)家迪恩·波默洛(Dean Pomerleau)在接受采訪時(shí)表示,人工智能缺乏對(duì)不正當(dāng)和虛假陳述所必需的語(yǔ)言的細(xì)致理解。
“我們實(shí)際上是從一個(gè)更雄心勃勃的目標(biāo)開(kāi)始,創(chuàng)建一個(gè)可以回答這個(gè)問(wèn)題的系統(tǒng)來(lái)解決‘這是假新聞,是或否?’的問(wèn)題”他說(shuō)。 “但我們很快意識(shí)到機(jī)器學(xué)習(xí)不能勝任這項(xiàng)任務(wù)?!?/p>
人類(lèi)的事實(shí)檢查者不一定更好。今年,谷歌暫停了事實(shí)檢查,這是一個(gè)標(biāo)簽,會(huì)出現(xiàn)在谷歌新聞的文章報(bào)道旁邊,“包括由新聞出版商和事實(shí)檢查機(jī)構(gòu)檢查的信息”,此前,保守派出版商們?cè)娂娭肛?zé)這一設(shè)置對(duì)他們表現(xiàn)出偏見(jiàn)。
無(wú)論最終解決方案是什么——無(wú)論是人工智能還是人工管理,或是兩者兼而有之——都無(wú)法提供足夠快的速度。Gartner預(yù)測(cè),到2022年,如果目前的趨勢(shì)持續(xù)下去,發(fā)達(dá)國(guó)家的大多數(shù)人會(huì)看到更多的錯(cuò)誤而不是真實(shí)的信息。
原標(biāo)題:火眼金睛!MIT推出新聞鑒別AI系統(tǒng):既可識(shí)別假新聞 偏見(jiàn)識(shí)別度也超過(guò)65%