您的位置: 首頁(yè) >科技 >

ETL仍然是一個(gè)挑戰(zhàn) 機(jī)器學(xué)習(xí)可以識(shí)別和管理元數(shù)據(jù)

2022-07-04 02:58:50 編輯:魏澤馨 來源:
導(dǎo)讀 在20世紀(jì)90年代,當(dāng)數(shù)據(jù)倉(cāng)庫(kù)成為眾所周知的商業(yè)智能(BI)概念時(shí),提取,轉(zhuǎn)換和加載(ETL)成為一個(gè)熟悉的概念。網(wǎng)絡(luò)的出現(xiàn)以及大量數(shù)據(jù)使許

在20世紀(jì)90年代,當(dāng)數(shù)據(jù)倉(cāng)庫(kù)成為眾所周知的商業(yè)智能(BI)概念時(shí),提取,轉(zhuǎn)換和加載(ETL)成為一個(gè)熟悉的概念。網(wǎng)絡(luò)的出現(xiàn)以及大量數(shù)據(jù)使許多組織將注意力從ETL轉(zhuǎn)移到數(shù)據(jù)湖泊。太多人貶低ETL作為過去的工具。然而,正如IT人員一直意識(shí)到的那樣,數(shù)據(jù)湖并不能解決所有問題,而且對(duì)ELT進(jìn)行品牌重塑并沒有改變這樣一個(gè)事實(shí):現(xiàn)在有了比以往更多的資源和目標(biāo)。數(shù)據(jù)移動(dòng)仍然是一個(gè)復(fù)雜的問題和元數(shù)據(jù)管理(MDM),并且由于必須更好地跟蹤和控制隱私平均數(shù)據(jù)的監(jiān)管要求,因此問題變得更具挑戰(zhàn)性。

簡(jiǎn)單地說,元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù)。元數(shù)據(jù)告訴系統(tǒng),然后告訴人們,字段是字符,數(shù)字,貨幣金額等等。在更高級(jí)別,元數(shù)據(jù)給出數(shù)據(jù)的名稱。但是,對(duì)于這么多數(shù)據(jù),所有系統(tǒng)都有不同的名稱。例如,誰知道“工資稅”,“州工資稅”,“稅收11”和“prt2”是否在不同的系統(tǒng)中是指相同的數(shù)字?

數(shù)據(jù)倉(cāng)庫(kù)中最大的挑戰(zhàn)之一是將來自多個(gè)系統(tǒng)的元數(shù)據(jù)進(jìn)行網(wǎng)格化以識(shí)別邏輯對(duì)象,例如“工資稅”。隨著云時(shí)代系統(tǒng)的擴(kuò)展,這變得更具挑戰(zhàn)性。在分析元數(shù)據(jù)和同步向分析系統(tǒng)前進(jìn)的信息時(shí),會(huì)丟失大量時(shí)間。

同時(shí),必須支持逆流。在跨國(guó)公司中展示銷售的可視化是一回事。銷售副總裁想要在注意到有趣的東西時(shí)鉆回源數(shù)據(jù),這是另一回事。如果BI系統(tǒng)唯一理解的是匯總的元數(shù)據(jù)標(biāo)簽,那么如何從原始系統(tǒng)深入查看詳細(xì)信息?這些信息的來源是什么?

問題不僅變得更具挑戰(zhàn)性,而且變得越來越重要。諸如的GDPR和加利福尼亞即將推出的CCPA等法規(guī)要求對(duì)消費(fèi)者數(shù)據(jù)進(jìn)行更多的隱私控制。識(shí)別私人信息是邁向合規(guī)的第一步。

讓我們?cè)谶@個(gè)過程中拋出另一個(gè)復(fù)雜因素。讓我們回到跨國(guó)公司。它不僅僅是不同系統(tǒng)中的不同名稱,而是不同的語言。一個(gè)系統(tǒng)具有英文原始元數(shù)據(jù),另一個(gè)用法語,另一個(gè)用德語。翻譯不一定有幫助。

人們無法快速處理大型,復(fù)雜的元數(shù)據(jù)集成集。我們需要的是一種算法方法。統(tǒng)計(jì)過程既可以用于元數(shù)據(jù),也可以用于數(shù)據(jù),以便解決問題并快速推薦不同元數(shù)據(jù)標(biāo)簽之間的關(guān)系。

這就是機(jī)器學(xué)習(xí)(ML)的用武之地。通過自動(dòng)化分析復(fù)雜的企業(yè)環(huán)境可以更快。這個(gè)問題的有趣之處在于解決方案可以位于ML方程的更多商業(yè)智能方面。幾年前,我寫過關(guān)于我接受改變ML定義的文章。計(jì)算能力允許先進(jìn)的統(tǒng)計(jì)建模提供更好的洞察力,因此ML現(xiàn)在位于AI和BI之間。

Octopai是最新攻擊整個(gè)企業(yè)信息架構(gòu)中的元數(shù)據(jù)管理挑戰(zhàn)的公司之一。當(dāng)我與首席執(zhí)行官兼聯(lián)合創(chuàng)始人Amnon Drori進(jìn)行交談時(shí),我們討論了如何在沒有強(qiáng)大的元數(shù)據(jù)鏈接的情況下,數(shù)據(jù)和信息無法準(zhǔn)確地從源系統(tǒng)轉(zhuǎn)移到BI系統(tǒng)。“數(shù)據(jù)已經(jīng)在任何大公司的多個(gè)ETL流程中進(jìn)行,”Drori先生說。“不僅要查看數(shù)據(jù),還要分析流程以找到有助于澄清元數(shù)據(jù)重用的相似性,這一點(diǎn)至關(guān)重要。首先是合規(guī)意味著理解您的所有數(shù)據(jù),這意味著識(shí)別元數(shù)據(jù)并創(chuàng)建可訪問的元數(shù)據(jù)目錄。“

通過在數(shù)據(jù)和現(xiàn)有流程上使用現(xiàn)代ML流程,公司可以更好地識(shí)別并管理這些數(shù)據(jù)。結(jié)果不僅僅是分析的改進(jìn)。

具有政府法規(guī)和合同的現(xiàn)代合規(guī)性意味著具有強(qiáng)大元數(shù)據(jù)管理的公司可以提供信息鏈的來源并確定私人信息是私密的。無論有多少現(xiàn)代系統(tǒng)試圖隱藏它,ETL仍然很重要; 機(jī)器學(xué)習(xí)是一個(gè)關(guān)鍵工具,可以幫助管理保持信息準(zhǔn)確,受控和流動(dòng)所需的元數(shù)據(jù)。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。