2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
每天,在社交媒體和其他平臺(tái)上發(fā)布數(shù)百萬(wàn)篇文章,從瀏覽網(wǎng)頁(yè)的用戶那里獲得大量點(diǎn)擊和分享。其中許多文章包含有用的信息,如果提取,可用于編譯知識(shí)數(shù)據(jù)庫(kù)或提供知識(shí)檢索和問答服務(wù)。
中國(guó)科學(xué)院(CAS)的研究人員開發(fā)了一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的模型,用于提取知識(shí)淵博的片段和注釋文檔。他們的方法在arXiv上發(fā)表的論文中概述,盡管經(jīng)過較??短時(shí)間的培訓(xùn),但發(fā)現(xiàn)其效果優(yōu)于現(xiàn)有工具。
在他們的論文中,研究人員將術(shù)語(yǔ)“知識(shí)淵博的文檔”定義為“包含多個(gè)知識(shí)淵博的片段的文檔,這些片段描述了實(shí)體的概念,屬性或?qū)嶓w之間的關(guān)系”。到目前為止,大多數(shù)知識(shí)庫(kù),如YAGO或DBpedia,都基于Wikipedia,WordNet,GeoNames和其他在線資源提取知識(shí)。但是,與社交媒體平臺(tái)相比,這些資源通常包含有限且不靈活的信息。
研究人員在他們的論文中寫道:“另一個(gè)最近的知識(shí)庫(kù)Probase擁有270萬(wàn)個(gè)概念,它是從迄今為止最大的語(yǔ)料庫(kù)中自動(dòng)獲取的,其中包括從16.8億個(gè)網(wǎng)頁(yè)中提取的3.26億個(gè)知識(shí)淵博的句子。” “然而,這些句子只能通過赫斯特模式提取。為了提取更多知識(shí)淵博的片段以構(gòu)建更全面的知識(shí)庫(kù),需要基于語(yǔ)義的方法來(lái)補(bǔ)充以前基于模式的方法。”
知識(shí)淵博的片段和文章也可用于開發(fā)知識(shí)檢索和問答服務(wù)。例如,這些服務(wù)將回答正在尋找特定問題幫助的用戶提出的問題??紤]到這些應(yīng)用,CAS的研究人員開始開發(fā)基于CNN的模型,該模型可以分析文檔的語(yǔ)義,確定它是否有用,并從中提取知識(shí)豐富的信息片段。
“具體來(lái)說,我們提出SSNN,這是一個(gè)基于CNN的聯(lián)合模型,用于協(xié)同理解不同領(lǐng)域中文檔的抽象概念,并判斷文檔是否具有知識(shí)性,”研究人員在他們的論文中解釋道。“更詳細(xì)地說,SSNN的網(wǎng)絡(luò)結(jié)構(gòu)是'低級(jí)共享,高級(jí)分裂',其中低級(jí)別層為不同域共享,而CNN之外的高級(jí)層分別訓(xùn)練以感知不同領(lǐng)域的差異。“
研究人員設(shè)計(jì)的模型提供了一種端到端的解決方案來(lái)注釋文檔,這些解決方案不需要進(jìn)行大量耗時(shí)的特征工程。他們還開發(fā)了手動(dòng)功能并訓(xùn)練了SVM分類器模型來(lái)完成任務(wù)。
研究人員評(píng)估了他們的模型在微信開發(fā)的中文消息,社交媒體和移動(dòng)支付平臺(tái)微信三個(gè)內(nèi)容領(lǐng)域的真實(shí)文檔數(shù)據(jù)集上的有效性。他們的研究結(jié)果非常有希望,SSNN的表現(xiàn)始終優(yōu)于其他CNN模型,同時(shí)通過更短,更有效的培訓(xùn)流程節(jié)省了時(shí)間和內(nèi)存消耗。
研究人員在他們的論文中寫道:“與構(gòu)建多個(gè)特定領(lǐng)域的CNN相比,這種聯(lián)合模型不僅可以大大節(jié)省訓(xùn)練時(shí)間,而且可以明顯提高預(yù)測(cè)精度。” “在Wechat公共平臺(tái)的真實(shí)數(shù)據(jù)集中證明了所提模型的優(yōu)越性。”
將來(lái),本研究中提出的SSNN 模型可用于構(gòu)建更全面的知識(shí)數(shù)據(jù)庫(kù)。它還可以幫助開發(fā)創(chuàng)新服務(wù),以實(shí)時(shí)快速和詳盡地回答用戶查詢。
2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。