語言讓它離開算法如何幫助我們檢測假新聞

2022-04-21 06:24:02 編輯：蒲婕中來源：

導讀您是否曾在網(wǎng)上閱讀并在您的網(wǎng)絡中共享它，但卻發(fā)現(xiàn)它是錯誤的?作為一名軟件工程師和計算語言學家，她將大部分工作甚至休閑時間都花在電腦

您是否曾在網(wǎng)上閱讀并在您的網(wǎng)絡中共享它，但卻發(fā)現(xiàn)它是錯誤的?作為一名軟件工程師和計算語言學家，她將大部分工作甚至休閑時間都花在電腦屏幕前，我很擔心我在網(wǎng)上看到的內(nèi)容。在社交媒體時代，我們許多人消費不可靠的新聞來源。我們在社交網(wǎng)絡中接觸到大量信息 - 特別是如果我們花很多時間在Twitter和Facebook上掃描朋友的隨機帖子。

我和Simon Fraser大學話語處理實驗室的同事們對假新聞的語言特征進行了研究。

假新聞的影響

英國的一項研究發(fā)現(xiàn)，大約三分之二的受訪成年人經(jīng)常在Facebook上閱讀新聞，而其中一半的人有過最初相信假新聞的經(jīng)歷。由麻省理工學院的研究人員進行的另一項研究側重于接觸假新聞的認知方面，并發(fā)現(xiàn)，平均而言，新聞閱讀者至少有20%的時間認為是虛假新聞標題。

虛假故事的傳播速度比真實新聞快10倍，虛假新聞問題嚴重威脅著我們的社會。

例如，在2016年美國大選期間，數(shù)量驚人的美國公民相信并分享了一個明顯的虛假陰謀，聲稱希拉里克林頓與一家人工販賣集團有關。餐館老板收到了死亡威脅，一名信徒帶著槍出現(xiàn)在餐廳。這個 - 以及在選舉季節(jié)期間分發(fā)的其他一些假新聞報道 - 對人們的選票產(chǎn)生了不可否認的影響。

在黨派團體，社交媒體機器人和朋友的朋友分享了數(shù)千次之后，通常很難找到故事的起源。事實檢查網(wǎng)站，如Snopes和Buzzfeed只能解決一些最流行的謠言。

互聯(lián)網(wǎng)和社交媒體背后的技術使這種錯誤信息得以傳播; 也許是時候問一下這項技術在解決這個問題時應該提供什么。

贈品的寫作風格

機器學習的最新進展使得計算機能夠即時完成將人類花費更長時間的任務。例如，有一些計算機程序可以幫助警方在幾秒鐘內(nèi)識別犯罪面孔。這種人工智能訓練算法來分類，檢測和做出決策。

當機器學習應用于自然語言處理時，可以構建識別來自另一種類型的文本的文本分類系統(tǒng)。

在過去幾年中，自然語言處理科學家在構建檢測錯誤信息的算法方面變得更加積極; 這有助于我們了解假新聞的特點，并開發(fā)技術來幫助讀者。

一種方法找到相關的信息來源，為每個來源分配可信度得分，然后將它們整合以確認或揭穿給定的索賠。這種方法在很大程度上依賴于追蹤新聞的原始來源并根據(jù)各種因素評估其可信度。

第二種方法檢查新聞文章的寫作風格而不是其起源。書面作品的語言特征可以告訴我們很多關于作者及其動機的信息。例如，與誠實書寫的相比，特定單詞和短語往往在欺騙性文本中更頻繁地出現(xiàn)。

發(fā)現(xiàn)假新聞

我們的研究使用機器學習和自然語言處理技術識別語言特征以檢測假新聞。我們對大量關于各種主題的事實檢查新聞文章的分析表明，平均而言，假新聞文章使用更多在仇恨言論中常見的表達，以及與性，死亡和焦慮相關的詞語。另一方面，真實新聞包含更多與工作(商業(yè))和金錢(經(jīng)濟)相關的詞匯。

這表明結合機器學習的風格方法可能有助于檢測可疑新聞。

我們的假新聞檢測器是基于從大量新聞文章中提取的語言特征構建的。它需要一段文字，并顯示它與以前見過的假新聞和真實新聞有多相似。(試試吧!)

然而，主要的挑戰(zhàn)是建立一個能夠處理各種新聞主題和在線標題快速變化的系統(tǒng)，因為計算機算法從樣本中學習，如果這些樣本不足以代表在線新聞，那么該模型的預測將是不可靠。

一種選擇是讓人類專家收集并標記大量虛假和真實的新聞文章。該數(shù)據(jù)使機器學習算法能夠找到在每個集合中不斷發(fā)生的常見特征，而不管其他類型。最終，該算法將能夠在以前看不見的真實或假新聞文章之間區(qū)分。

標簽：

免責聲明：本文由用戶上傳，如有侵權請聯(lián)系刪除！

精彩推薦

圖文推薦

點擊排行

本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網(wǎng) 版權歸原作者所有。

語言讓它離開算法如何幫助我們檢測假新聞

猜你喜歡

最新文章

精彩推薦

圖文推薦

點擊排行