您的位置: 首頁 >互聯網 >

從期刊文章中提取關鍵信息的web應用程序

2020-06-10 15:07:59 編輯: 來源:
導讀 學術論文通常會涉及到各個領域的新突破和有趣的理論。然而,這些文章中的大部分都是用專業(yè)術語和技術語言寫的,只有熟悉特定研究領域的讀者才能理解。 因此,非專業(yè)讀者通常無法理解科學文章,除非它們是經過策劃的,并由理解其中概念和思想的第三方更容易理解??紤]到這一點,一個研究小組在得克薩斯高級計算中心德克薩斯大學奧斯汀分校(TACC),俄勒岡州立大學(俄勒岡州立大學)和美國社會的植物生物學家(ASPB)

學術論文通常會涉及到各個領域的新突破和有趣的理論。然而,這些文章中的大部分都是用專業(yè)術語和技術語言寫的,只有熟悉特定研究領域的讀者才能理解。

因此,非專業(yè)讀者通常無法理解科學文章,除非它們是經過策劃的,并由理解其中概念和思想的第三方更容易理解??紤]到這一點,一個研究小組在得克薩斯高級計算中心德克薩斯大學奧斯汀分校(TACC),俄勒岡州立大學(俄勒岡州立大學)和美國社會的植物生物學家(ASPB)已經著手開發(fā)一種工具,它可以自動提取重要的詞語和術語研究論文以提供有用的定義和增強可讀性。

“我們的項目是為了提高期刊文章的可讀性,”TACC團隊的負責人徐維佳告訴TechXplore。這是生物策展人、期刊出版商和計算機科學家的共同努力,旨在開發(fā)一種網絡服務,可以識別并使作者策展期刊出版物中使用的重要術語。然后,這些術語和詞匯被附在期刊文章的結尾,以增加讀者的可訪問性。”

Xu和他的同事開發(fā)了一個可擴展的框架,可以用來從文檔中提取信息。然后,他們在一個名為DIVE(領域信息詞匯提取)的web服務中實現了這個框架,并將其與ASPB的期刊出版管道集成在一起。與現有的提取領域信息的工具不同,它們的框架結合了幾種方法,包括本體指導提取、基于規(guī)則的提取、自然語言處理(NLP)和深度學習技術。

“不同模型得到的結果會被存儲在一個中央數據庫中,”徐解釋說。“我們還設計了一個web服務,允許用戶管理提取結果。web服務與ASPB的生產發(fā)布管道集成在一起。

一旦期刊文章的預覽版本被提交并進入ASPB的管道,手稿就會自動輸入到DIVE,后者對其進行處理并生成一個URL,通過這個URL,作者將能夠訪問DIVE的處理結果。論文作者在正式提交論文之前,需要訪問提供的鏈接,查看提取的信息。

“作者需要訪問潛水地點,審查提取結果,并最終批準文章末尾的信息列表,”徐說。DIVE還會跟蹤作者的糾正,以改進未來的提取任務。目前,還沒有其他期刊出版商采用類似的方法,并將其整合到自己的出版渠道中?!?/p>

在分析過程中以及從文件中提取關鍵數據時,研究人員開發(fā)的框架使用了幾種技術。這使得它能夠比其他方法捕獲更多的信息,比如ABNER(一種生物醫(yī)學命名的實體識別器),它是一種用于分子生物學文本挖掘的開源軟件工具,只能提取通用術語(例如基因和蛋白質)。與DIVE相反,ABNER只是基于條件隨機場(CRFs),一種統計建模方法,在模式識別和機器學習應用中常用。

“我們項目的一個主要貢獻是,它有助于建立數據集和模型,可以從作者的出版物中推斷他們的研究興趣,”徐說?!拔覀兊捻椖靠梢允垢鼜V泛的生物研究人員受益。對于作者來說,關鍵信息的提取和包含可以增加他們文章的可訪問性。”

Xu和他的同事Amit Gupta評估了他們的框架,并將其性能與其他信息提取工具(包括ABNER)進行了比較。他們的發(fā)現表明,使用多種方法,包括深度學習,潛水獲得的分數比其他預先訓練的僅基于CRFs的模型更高的精度。有趣的是,還可以不斷地更新DIVE框架,因為可以隨時向其添加額外的提取模型。

DIVE web應用程序不僅能讓非專業(yè)讀者更好地理解學術論文,還能幫助他們識別符合自己興趣的論文。另一方面,研究人員可以使用DIVE來了解特定的研究領域,以及了解與他們感興趣的領域相關的新術語和趨勢。最后,應用程序生成的信息還可以指導生物策展人的決策和數據收集過程。

“我們將繼續(xù)探索兩個方向,”徐說?!耙环矫?,我們正在研究新的方法來結合我們的信息提取模型來提高性能。另一方面,我們也在努力擴大我們的服務,向更多的用戶社區(qū)和期刊出版商提供這項服務。”



免責聲明:本文由用戶上傳,如有侵權請聯系刪除!

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經網.復制必究 聯系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯網 版權歸原作者所有。