您的位置: 首頁(yè) >互聯(lián)網(wǎng) >

研究人員使用統(tǒng)計(jì)模型跟蹤兩個(gè)數(shù)據(jù)集中用戶(hù)的位置標(biāo)記

2019-06-05 17:34:21 編輯: 來(lái)源:
導(dǎo)讀 麻省理工學(xué)院研究人員的一項(xiàng)新研究發(fā)現(xiàn),編寫(xiě)關(guān)于人類(lèi)運(yùn)動(dòng)模式的大規(guī)模匿名數(shù)據(jù)集的不斷增長(zhǎng)的做法是一把雙刃劍:雖然它可以提供對(duì)人類(lèi)研究

麻省理工學(xué)院研究人員的一項(xiàng)新研究發(fā)現(xiàn),編寫(xiě)關(guān)于人類(lèi)運(yùn)動(dòng)模式的大規(guī)模匿名數(shù)據(jù)集的不斷增長(zhǎng)的做法是一把雙刃劍:雖然它可以提供對(duì)人類(lèi)研究行為的深刻見(jiàn)解,但它也可能使人們的私人數(shù)據(jù)處于危險(xiǎn)之中。

公司,研究人員和其他實(shí)體開(kāi)始收集,存儲(chǔ)和處理包含用戶(hù)“位置標(biāo)記”(地理坐標(biāo)和時(shí)間戳)的匿名數(shù)據(jù)??梢詮氖謾C(jī)記錄,信用卡交易,公共交通智能卡,Twitter帳戶(hù)和移動(dòng)應(yīng)用程序中獲取數(shù)據(jù)。合并這些數(shù)據(jù)集可以提供有關(guān)人類(lèi)旅行方式的豐富信息,例如,優(yōu)化交通和城市規(guī)劃等。

但是大數(shù)據(jù)帶來(lái)了很大的隱私問(wèn)題:位置標(biāo)記非常特定于個(gè)人,可用于惡意目的。最近的研究表明,在移動(dòng)數(shù)據(jù)集中只有少數(shù)隨機(jī)選擇的點(diǎn),有人可以識(shí)別和學(xué)習(xí)有關(guān)個(gè)人的敏感信息。使用合并的移動(dòng)數(shù)據(jù)集,這變得更加容易:代理可能會(huì)將來(lái)自一個(gè)數(shù)據(jù)集的匿名數(shù)據(jù)中的用戶(hù)軌跡與另一個(gè)數(shù)據(jù)集中的去匿名數(shù)據(jù)進(jìn)行匹配,以取消屏蔽匿名數(shù)據(jù)。

在今天發(fā)表在IEEE大數(shù)據(jù)交易的一篇論文中,麻省理工學(xué)院的研究人員展示了如何在新加坡的兩個(gè)大型數(shù)據(jù)集中首次分析所謂的用戶(hù)“匹配性”,一個(gè)來(lái)自移動(dòng)網(wǎng)絡(luò)運(yùn)營(yíng)商和一個(gè)來(lái)自當(dāng)?shù)氐慕煌ㄏ到y(tǒng)。

研究人員使用統(tǒng)計(jì)模型跟蹤兩個(gè)數(shù)據(jù)集中用戶(hù)的位置標(biāo)記,并提供兩組數(shù)據(jù)點(diǎn)來(lái)自同一個(gè)人的概率。在實(shí)驗(yàn)中,研究人員發(fā)現(xiàn)該模型可以在一周的數(shù)據(jù)中匹配大約17%的個(gè)體,并且在一個(gè)月的收集數(shù)據(jù)后超過(guò)55%的個(gè)體。這項(xiàng)工作展示了一種有效,可擴(kuò)展的方式來(lái)匹配數(shù)據(jù)集中的移動(dòng)軌跡,這可以成為研究的福音。但是,研究人員警告說(shuō),這樣的過(guò)程可以增加對(duì)真實(shí)用戶(hù)數(shù)據(jù)進(jìn)行去匿名化的可能性。

“作為研究人員,我們相信使用大規(guī)模數(shù)據(jù)集可以發(fā)現(xiàn)有關(guān)人類(lèi)社會(huì)和流動(dòng)性的前所未有的見(jiàn)解,使我們能夠更好地規(guī)劃城市。然而,重要的是要證明識(shí)別是否可行,以便人們意識(shí)到潛力分享移動(dòng)數(shù)據(jù)的風(fēng)險(xiǎn),“新加坡麻省理工學(xué)院研究與技術(shù)聯(lián)盟未來(lái)城市交通小組的博士后Daniel Kondor說(shuō)。

麻省理工學(xué)院城市系教授Carlo Ratti補(bǔ)充說(shuō):“在公布結(jié)果時(shí) - 特別是對(duì)數(shù)據(jù)進(jìn)行去匿名化的后果 - 我們感覺(jué)有點(diǎn)像'白帽'或'道德'黑客。”麻省理工學(xué)院Senseable City Lab的研究和規(guī)劃以及主任。“我們認(rèn)為重要的是要警告人們[數(shù)據(jù)合并]和[考慮]我們?nèi)绾螌?duì)其進(jìn)行監(jiān)管的新可能性。”

消除誤報(bào)

要了解匹配位置標(biāo)記和潛在的去異常化的工作方式,請(qǐng)考慮以下情況:“我兩天前在新加坡的圣淘沙島,昨天來(lái)到迪拜機(jī)場(chǎng),今天在迪拜的朱美拉海灘。我不太可能看到另一個(gè)人的軌跡完全相同。簡(jiǎn)而言之,如果某人有我的匿名信用卡信息,也許是我在Twitter的開(kāi)放位置數(shù)據(jù),他們就可以對(duì)我的信用卡數(shù)據(jù)進(jìn)行匿名化,“拉蒂說(shuō)。

存在類(lèi)似的模型來(lái)評(píng)估數(shù)據(jù)中的去異義化。但是那些使用計(jì)算密集型方法進(jìn)行重新識(shí)別,這意味著將匿名數(shù)據(jù)與公共數(shù)據(jù)合并以識(shí)別特定個(gè)體。這些模型僅適用于有限的數(shù)據(jù)集。麻省理工學(xué)院的研究人員使用更簡(jiǎn)單的統(tǒng)計(jì)方法 - 測(cè)量誤報(bào)的概率 - 有效地預(yù)測(cè)大量數(shù)據(jù)集中用戶(hù)的數(shù)量之間的匹配。

在他們的工作中,研究人員編制了兩個(gè)匿名的“低密度”數(shù)據(jù)集 - 每天一些記錄 - 關(guān)于新加坡的移動(dòng)電話(huà)使用和個(gè)人交通,2011年記錄了一周。移動(dòng)數(shù)據(jù)來(lái)自大型移動(dòng)網(wǎng)絡(luò)運(yùn)營(yíng)商和包含來(lái)自超過(guò)200萬(wàn)用戶(hù)的超過(guò)4.85億條記錄的時(shí)間戳和地理坐標(biāo)。運(yùn)輸數(shù)據(jù)包含超過(guò)7000萬(wàn)條記錄,其中包含個(gè)人在城市中移動(dòng)的時(shí)間戳。

給定用戶(hù)在兩個(gè)數(shù)據(jù)集中都有記錄的概率將隨著合并數(shù)據(jù)集的大小而增加,但誤報(bào)概率也會(huì)增加。研究人員的模型從一個(gè)數(shù)據(jù)集中選擇用戶(hù),并從具有大量匹配位置標(biāo)記的其他數(shù)據(jù)集中查找用戶(hù)。簡(jiǎn)單地說(shuō),隨著匹配點(diǎn)的數(shù)量增加,假陽(yáng)性匹配的概率降低。在沿著軌跡匹配一定數(shù)量的點(diǎn)之后,該模型排除了匹配是誤報(bào)的可能性。

他們關(guān)注典型用戶(hù),估計(jì)一周編譯數(shù)據(jù)的匹配成功率為17%,四周為55%。根據(jù)11周的數(shù)據(jù)編制,這一估計(jì)數(shù)躍升至95%左右。

研究人員還估計(jì)了在一周內(nèi)匹配大多數(shù)用戶(hù)需要多少活動(dòng)。通過(guò)查看具有30到49個(gè)個(gè)人交通記錄和大約1,000個(gè)移動(dòng)記錄的用戶(hù),他們估計(jì)一周的編譯數(shù)據(jù)成功率超過(guò)90%。此外,通過(guò)將兩個(gè)數(shù)據(jù)集與GPS跟蹤相結(jié)合 - 由智能手機(jī)應(yīng)用程序主動(dòng)和被動(dòng)地定期收集 - 研究人員估計(jì),他們可以使用不到一周的數(shù)據(jù)匹配95%的個(gè)別軌跡。

更好的隱私

通過(guò)他們的研究,研究人員希望提高公眾意識(shí)并促進(jìn)更嚴(yán)格的共享消費(fèi)者數(shù)據(jù)的法規(guī)。“所有帶有位置標(biāo)記的數(shù)據(jù)(這是今天收集的大部分?jǐn)?shù)據(jù))都可能非常敏感,我們都應(yīng)該就我們與誰(shuí)共享它做出更明智的決定,”Ratti說(shuō)。“我們需要繼續(xù)思考處理大規(guī)模數(shù)據(jù),個(gè)人以及提供足夠保障以保護(hù)隱私的正確方法所面臨的挑戰(zhàn)。”

為此,Ratti,Kondor和其他研究人員一直在廣泛研究大數(shù)據(jù)的倫理和道德問(wèn)題。2013年,麻省理工學(xué)院的Senseable City Lab啟動(dòng)了一項(xiàng)名為“參與數(shù)據(jù)”的計(jì)劃,該計(jì)劃涉及政府,隱私權(quán)組織,學(xué)術(shù)界和企業(yè)界的領(lǐng)導(dǎo)者,他們研究如何在今天的數(shù)據(jù)收集公司中使用移動(dòng)數(shù)據(jù)。

“今天的世界充斥著大數(shù)據(jù),”Kondor說(shuō)。“在2015年,人類(lèi)產(chǎn)生的信息與人類(lèi)文明前幾年創(chuàng)造的信息一樣多。盡管數(shù)據(jù)意味著更好地了解城市環(huán)境,但目前大部分信息都是由少數(shù)公司和公共機(jī)構(gòu)掌握的。很多關(guān)于我們的事情,雖然我們對(duì)它們知之甚少。我們需要注意避免數(shù)據(jù)壟斷和濫用。“


免責(zé)聲明:本文由用戶(hù)上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。