您的位置: 首頁 >科技 >

探索社交媒體中可拉伸字詞的使用

2022-08-13 05:14:10 編輯:祁閱閱 來源:
導(dǎo)讀 對Twitter消息的調(diào)查揭示了用于研究人們?nèi)绾问褂醚由煸~(例如 duuuuude, heyyyyy或 noooooooo)的新見解和工具。伯靈頓佛蒙特大學(xué)的Tyler...

對Twitter消息的調(diào)查揭示了用于研究人們?nèi)绾问褂醚由煸~(例如“ duuuuude”,“ heyyyyy”或“ noooooooo”)的新見解和工具。伯靈頓佛蒙特大學(xué)的Tyler Gray及其同事在2020年5月27日的開放獲取期刊PLOS ONE中介紹了這些發(fā)現(xiàn)。

在口語和書面語中,延伸的單詞可以修改單詞的含義。例如,“ suuuuure”可能表示諷刺,而“ yeeesssss”可能表示興奮。延伸的單詞在正式寫作中很少見,但是社交媒體的興起為學(xué)習(xí)它們提供了新的機(jī)會(huì)。

Gray和他的同事現(xiàn)在已經(jīng)完成了迄今為止社交媒體中“可拉伸”單詞的最全面研究。他們開發(fā)了一種新的,更徹底的策略來識(shí)別推文中的拉伸單詞,并使用它來分析隨機(jī)選擇的數(shù)據(jù)集,該數(shù)據(jù)集約占2008年9月至2016年12月之間生成的所有推文的10%,總計(jì)約1000億條推文。

研究人員在推文中識(shí)別出數(shù)千個(gè)“可拉伸”單詞,包括“ ha”(例如“ haha??ha”或“ haaahaha”),“ awesome”(例如“ awessssommmmmeeeeeeee”)和“ goal”(例如ggggoooooaaaaallllll)。

他們還確定了衡量可伸展單詞特征的兩種關(guān)鍵方法:平衡和伸展。平衡是指不同字母傾向于重復(fù)的程度。例如,“ ha”具有很高的平衡度,因?yàn)樵诶鞎r(shí),“ h”和“ a”傾向于幾乎相等地重復(fù)。“目標(biāo)”的平衡性較差,“ o”比單詞中的其他字母重復(fù)的次數(shù)多。

拉伸是指一個(gè)單詞傾向于被拉伸多長時(shí)間。例如,簡短的單詞或聽起來像“哈”的聲音具有很高的延伸度,因?yàn)槿藗兘?jīng)常重復(fù)多次(例如“哈哈哈哈哈哈哈哈”)。同時(shí),“無窮大”之類的常規(guī)詞的拉伸程度較低,通常僅重復(fù)一個(gè)字母:“無窮大”。

為了進(jìn)行此分析,研究人員開發(fā)了可用于將來的可拉伸單詞研究的各種工具和方法,例如對錯(cuò)誤鍵入和拼寫錯(cuò)誤的調(diào)查。該工具還可用于改善自然語言處理,搜索引擎和垃圾郵件過濾器

作者補(bǔ)充說:“我們能夠全面收集和計(jì)算'gooooooaaaalll'和'hahahaha'這樣的拉伸詞,并在整體拉伸性和拉伸平衡性的兩個(gè)維度上進(jìn)行映射,同時(shí)開發(fā)新的工具,這也將有助于它們的持續(xù)發(fā)展。語言研究,以及其他領(lǐng)域,例如語言處理,擴(kuò)充詞典,改進(jìn)搜索引擎,分析序列的構(gòu)造等等。”


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。