您的位置: 首頁(yè) >科技 >

使用機(jī)器學(xué)習(xí)解決您的黑暗數(shù)據(jù)噩夢(mèng)

2022-07-13 08:45:02 編輯:廣芝莉 來(lái)源:
導(dǎo)讀 我們生活在一個(gè)充滿文件的世界。這是一。 我們創(chuàng)建了很多文檔。這是我做的。 這是眾多的其中之一;從1990年代到今天充滿了寫作的硬盤。 但

我們生活在一個(gè)充滿文件的世界。這是一。

我們創(chuàng)建了很多文檔。這是我做的。

這是眾多的其中之一;從1990年代到今天充滿了寫作的硬盤。

但是,如果您要問(wèn)我如何構(gòu)造這些發(fā)票以及我發(fā)送給客戶的發(fā)票,我將不得不進(jìn)行搜索以查找所需的內(nèi)容。我當(dāng)然無(wú)法列出我涵蓋的所有主題,已審查的應(yīng)用程序和硬件,已撰寫的報(bào)告,已簽訂的合同的列表。它們就是我們所認(rèn)為的“暗數(shù)據(jù)”,只是存在于其中的非結(jié)構(gòu)化內(nèi)容,靜態(tài)數(shù)據(jù)填充了PC上的閃存以及一兩個(gè)云中的靜態(tài)數(shù)據(jù)。

XML的創(chuàng)建者之一讓·鮑利(Jean Paoli)如今正在思考大量暗數(shù)據(jù),實(shí)際上是自兩年前離開(kāi)微軟以來(lái)。這種想法的結(jié)果以及他在Docugami的聯(lián)合創(chuàng)始人的結(jié)果開(kāi)始浮出水面,因?yàn)檫@家隱身的初創(chuàng)公司慢慢揭露了將文檔專家與機(jī)器學(xué)習(xí)融合在一起的團(tuán)隊(duì)的工作方式。

他稱問(wèn)題為“文檔功能障礙”,即企業(yè)創(chuàng)建和使用的文件和單詞的混亂。這個(gè)問(wèn)題會(huì)影響我們文件的質(zhì)量以及文件的一致性,并且使我們面臨無(wú)法遵守法規(guī)的風(fēng)險(xiǎn)。這不是故意的,只是我們的業(yè)務(wù)和PC上存在大量非結(jié)構(gòu)化數(shù)據(jù)。

該問(wèn)題的一部分是規(guī)模問(wèn)題,Paoli指出,全球絕大多數(shù)企業(yè)是中小型組織,它們沒(méi)有資源或工具來(lái)構(gòu)建大型企業(yè)使用的龐大企業(yè)內(nèi)容管理工具公司,當(dāng)然也沒(méi)有時(shí)間構(gòu)建模板和形成工具來(lái)自動(dòng)構(gòu)建常用文檔。

Paoli對(duì)文檔功能障礙問(wèn)題的評(píng)估令人沮喪,他估計(jì)有85%的企業(yè)數(shù)據(jù)埋藏在電子郵件,Slack和Teams等工具以及數(shù)十億個(gè)臨時(shí)文檔中。盡管我們可以將計(jì)算投入到云托管的數(shù)據(jù)湖中,但這個(gè)問(wèn)題只會(huì)變得越來(lái)越糟。在2008年金融崩潰的文件災(zāi)難中,銀行已經(jīng)不知道誰(shuí)擁有抵押貸款以及合同的結(jié)構(gòu)如何,我們已經(jīng)看到了它會(huì)變得多么糟糕。在住院后復(fù)雜的出院過(guò)程中也很容易看到,那里的藥物和處方很容易丟失。

正如Paoli指出的那樣,盡管文檔是為人類編寫的,但它們需要計(jì)算機(jī)才能理解。我們?cè)噲D構(gòu)建一種系統(tǒng),使人們可以使用描述性標(biāo)記來(lái)構(gòu)建計(jì)算機(jī)可讀文檔,但是它們相對(duì)不靈活,只能處理一組有限的用例,否則它們很復(fù)雜,需要手動(dòng)標(biāo)記現(xiàn)有的內(nèi)容。我們需要一種解決問(wèn)題的新方法,該方法使用計(jì)算機(jī)作為輔助技術(shù),幫助我們編寫通用文檔。

公司名稱為Paoli的團(tuán)隊(duì)計(jì)劃如何解決問(wèn)題提供了一些線索。“文件”的portmanteau和日本的剪紙,kirigami和折紙,折紙藝術(shù)。少數(shù)客戶正在使用Docugami工具的非常早期的版本,但仍需要六到九個(gè)月的公開(kāi)測(cè)試版。

Paoli并沒(méi)有找到索引和存儲(chǔ)那些非結(jié)構(gòu)化文檔的更好方法,而是在研究使用AI技術(shù)構(gòu)造可重用文檔的創(chuàng)建通用文檔的新方法。正如他說(shuō)的那樣:“我們從重復(fù)中脫穎而出,您可以使用這五分鐘來(lái)增加創(chuàng)造力。”

他提出的一個(gè)重要觀點(diǎn)是,這是一個(gè)他稱之為“小數(shù)據(jù)”的世界。大數(shù)據(jù)的數(shù)量級(jí)約為TB,而不是50左右的合同或NDA。Paoli認(rèn)為,小型團(tuán)隊(duì)需要小型算法,即他們自己的機(jī)器學(xué)習(xí)模型。對(duì)于他們來(lái)說(shuō),這實(shí)際上是必不可少的,因?yàn)椴粌H最低公分母方法不可靠,而且它們可能是信息泄漏的媒介。如果一個(gè)模型是您自己的,那么它可以是安全的,并且攻擊者無(wú)法使用它來(lái)推斷您的文檔結(jié)構(gòu)。

如果要使這樣的事情成功,它還需要在幾個(gè)關(guān)鍵約束內(nèi)進(jìn)行操作:它不需要昂貴的顧問(wèn)來(lái)工作,并且運(yùn)行成本也不昂貴。保利將自己可能的聽(tīng)眾描述為個(gè)人和小團(tuán)隊(duì),例如公安辯護(hù)人(擁有太多文件和太多表格以致無(wú)法有效地管理案件),以及大型企業(yè)。

那么,為什么現(xiàn)在,當(dāng)我們?cè)谶^(guò)去幾十年中多次嘗試提出這種想法時(shí)呢?Paoli認(rèn)為這是接受云的關(guān)鍵,這意味著企業(yè)可以輕松地選擇一種新工具,該工具可以利用云計(jì)算來(lái)比本地軟件和硬件更快,更準(zhǔn)確地交付結(jié)果。

SEE:傳感器的企業(yè):物聯(lián)網(wǎng),機(jī)器學(xué)習(xí)和大數(shù)據(jù)(ZDNet特別報(bào)告)| 以PDF格式下載報(bào)告(TechRepublic)

Docugami團(tuán)隊(duì)無(wú)疑非常適合手頭的任務(wù),它有一個(gè)來(lái)自O(shè)ffice和Windows的應(yīng)用程序開(kāi)發(fā)團(tuán)隊(duì)(包括Microsoft表單管理工具InfoPath的許多原始創(chuàng)建者),還有一個(gè)純科學(xué)團(tuán)隊(duì),將XML和機(jī)器混合在一起,學(xué)習(xí)技能以及人機(jī)/機(jī)器學(xué)習(xí)界面。這是處理文檔,將自然語(yǔ)言處理和進(jìn)化式機(jī)器學(xué)習(xí)技能與深厚的企業(yè)歷史相結(jié)合的一種有趣的方法。

由于尚需一段時(shí)間才能發(fā)布公開(kāi)測(cè)試版,而且許多技術(shù)細(xì)節(jié)仍處于秘密狀態(tài),因此觀看Paoli和他的團(tuán)隊(duì)提出的建議將很有趣。

我們生活在一個(gè)充滿文件的世界。

很快,這可能是一臺(tái)機(jī)器幫助我制造的機(jī)器。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。