2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
這是一場緊跟技術(shù)變革浪潮的狂野之旅。一些公司錯過了這波浪潮,而另一些公司抓住了它,只是在它達(dá)到頂峰時就出局了。在大數(shù)據(jù)的世界里,Vertica已經(jīng)養(yǎng)成了一個習(xí)慣:一波接一波地捕捉、定位、使勁劃水,然后在它旋轉(zhuǎn)的時候懸掛10個。
作為大數(shù)據(jù)服務(wù)的早期參與者,Vertica已經(jīng)順利地從一個趨勢過渡到下一個趨勢,無論是模型-視圖-演示架構(gòu)、使用Hadoop分布式文件系統(tǒng)的大數(shù)據(jù),還是HDFS,通過數(shù)據(jù)科學(xué)和數(shù)據(jù)分析,過渡到云計(jì)算和機(jī)器學(xué)習(xí)。Vertica是目前唯一一個同時提供本地計(jì)算和云計(jì)算的平臺,隨著Vertica version 10的發(fā)布,該平臺的部署靈活性又上了一個臺階。
“Vertica的核心是一種真正的工程文化,”微焦點(diǎn)國際有限公司Vertica產(chǎn)品管理和營銷副總裁Joy King(如圖)說?!斑@意味著我們不會假裝知道即將發(fā)生的一切。但我們致力于擁抱技術(shù)趨勢和創(chuàng)新。我們不會假裝什么都知道;我們什么都做。”
在虛擬Vertica大數(shù)據(jù)會議期間,金與SiliconANGLE Media的移動直播工作室theCUBE的主持人戴夫?韋蘭特進(jìn)行了交談。他們討論了數(shù)據(jù)方面的趨勢,以及Vertica如何使機(jī)器學(xué)習(xí)模型變得透明和可復(fù)制。(*披露如下。)
[編者注:為清晰起見,以下內(nèi)容已被壓縮。]
我對我們的一些客人說過Vertica一直都很擅長駕馭潮流。你認(rèn)為目前的趨勢是什么?你正在駕馭的巨浪。
King:數(shù)據(jù)增長和數(shù)據(jù)豎井是趨勢一。Hadoop是一只非常能干的大象,但它不可能是一個完整的動物園。所以,市場上有很多令人失望的東西,但是HDFS中有很多數(shù)據(jù)。再加上云對象存儲的爆炸式增長,你會看到更多的數(shù)據(jù),甚至更多的數(shù)據(jù)豎井。
趨勢二是云現(xiàn)實(shí)。云帶來了很多好處;公共云計(jì)算提供了如此多的機(jī)會。但我認(rèn)為,我們現(xiàn)在已經(jīng)了解了足夠多的東西,知道還有一些現(xiàn)實(shí)。這比我們預(yù)期的要貴一些,還有一些安全和隱私方面的問題,還有一些工作負(fù)載不能放到云上,所以混合和多云部署是下一個趨勢,是必須的。
就改變世界而言,最令人興奮的趨勢——我們現(xiàn)在可以做一點(diǎn)小小的改變——就是機(jī)器學(xué)習(xí)的運(yùn)作化。這項(xiàng)技術(shù)有很大的潛力,但在很大程度上,它被困在了科學(xué)項(xiàng)目和數(shù)據(jù)科學(xué)實(shí)驗(yàn)室中,現(xiàn)在是時候?qū)⑺度胧褂昧恕?/p>
我想我們都知道,數(shù)據(jù)分析,機(jī)器學(xué)習(xí),這些都不能帶來真正的價值,除非有大量的數(shù)據(jù)能夠真正預(yù)測和影響未來。過去7到10年,正確地說,是關(guān)于收集數(shù)據(jù),把數(shù)據(jù)放到一個公共位置。而HDFS正是為此而精心設(shè)計(jì)的?,F(xiàn)在的關(guān)鍵是,我們?nèi)绾卫盟羞@些數(shù)據(jù)?這正是Vertica關(guān)注的。
Vertica 10.0剛剛發(fā)布。有什么亮點(diǎn)?
King:在Eon模式下的Vertica允許工作負(fù)載隔離,這意味著分配不同用例需要的計(jì)算資源,而不允許它們干擾其他用例,并允許每個人訪問數(shù)據(jù)。所以,這是一種很好的方式,既能把企業(yè)界團(tuán)結(jié)起來,又能保護(hù)他們不受彼此傷害。
通過Vertica 10.0,我們?yōu)镠DFS引入了Eon模式的Vertica,為谷歌云引入了Eon模式的Vertica。HDFS的Eon模式是一種將ANSI SQL數(shù)據(jù)庫管理平臺應(yīng)用于HDFS基礎(chǔ)設(shè)施和HDFS文件存儲中的數(shù)據(jù)的方式。這是利用許多公司在HDFS上的投資的好方法。我認(rèn)為善待大象是公平的。
您擊敗了許多云玩家,因?yàn)樗鼈儞碛歇?dú)立的計(jì)算和存儲功能。這是Vertica的一個不同之處,假設(shè)你給了我云體驗(yàn)、許可和定價能力。你能解釋一下Vertica是如何處理許可和費(fèi)用的嗎?
金:毫無疑問,公共云帶來了計(jì)算和存儲的分離以及這些優(yōu)勢。但他們沒有能力,也沒有興趣,來復(fù)制這種內(nèi)部模式。對于Vertica,我們生來就是只做軟件的。我們不收取底層硬件的費(fèi)用,所以我們完全有動力去獨(dú)立于它,并不斷優(yōu)化軟件使其盡可能的高效。
Vertica為我們的客戶提供每個節(jié)點(diǎn)和每tb的數(shù)據(jù),具體取決于他們的用例。我們還為需要資本支出的客戶提供永久許可證。但我們也為那些說“不”的公司提供訂閱服務(wù)。我必須有OPEX。“這肯定會給我們的實(shí)地組織帶來一些復(fù)雜性;我們知道這一切都是關(guān)于選擇的,當(dāng)今世界的每個人都想讓它個性化,而這正是我們在定價和授權(quán)方面所做的。
所以,我的結(jié)論是選擇和定價。太好了。現(xiàn)在讓我們討論一下存儲的可選性。你有亞馬遜網(wǎng)絡(luò)服務(wù)公司,我假設(shè)現(xiàn)在谷歌有限責(zé)任公司,純存儲公司是合作伙伴…
King:我們支持谷歌對象存儲、Amazon S3對象存儲、HDFS、純存儲FlashBlade,這是一個prem對象存儲,我們將繼續(xù)沿著這條路走下去。因?yàn)?,最終,我們知道我們的客戶需要有下一代數(shù)據(jù)中心架構(gòu)的選擇,這是一種共享或公共存儲,所以所有的數(shù)據(jù)都在一個地方,但是工作負(fù)載可以在數(shù)據(jù)上獨(dú)立管理,這正是我們正在做的。
讓我們來談?wù)剬C(jī)器智能應(yīng)用到數(shù)據(jù)上,也就是其中的機(jī)器學(xué)習(xí)部分。你有什么故事?
金:幾年前,我們開始在Vertica中構(gòu)建一些數(shù)據(jù)庫內(nèi)的、本地的數(shù)據(jù)庫內(nèi)機(jī)器學(xué)習(xí)算法。我們這樣做的原因是我們知道MPP柱狀結(jié)構(gòu)的執(zhí)行將顯著提高性能。我們也知道很多人說SQL。那么,如果我們可以通過SQL訪問數(shù)據(jù)庫中的機(jī)器學(xué)習(xí),并提供這種性能,結(jié)果會怎樣呢?這就是我們開始的旅程。
然后我們意識到,實(shí)際上機(jī)器學(xué)習(xí)遠(yuǎn)不止是算法,大家都知道。因此,我們隨后構(gòu)建了完整的端到端機(jī)器學(xué)習(xí)功能,從數(shù)據(jù)準(zhǔn)備到模型培訓(xùn)、模型評分和評估,一直到全面部署。所有這些sql都是可訪問的。你說SQL;你對數(shù)據(jù)說話。這種方法的另一個優(yōu)點(diǎn)是,我們意識到如果你減少樣本,準(zhǔn)確性就會降低。
如果您將數(shù)據(jù)的一部分從數(shù)據(jù)庫移動到專門的機(jī)器學(xué)習(xí)平臺,您將面臨準(zhǔn)確性和業(yè)界所謂的可復(fù)制性的挑戰(zhàn)。這意味著,如果一個模型做出了一個決定,比如說信用評分,而這個決定在任何方面都受到了挑戰(zhàn),那么,你必須能夠復(fù)制它,來證明你的決定是正確的。
就在不久前,媒體還對一項(xiàng)似乎帶有性別偏見的信用評分決定大發(fā)雷霆,但不幸的是,由于這種模式無法復(fù)制,沒有辦法反駁這一點(diǎn),這不是一件好事。
所有這些都被內(nèi)置到Vertica中,有了Vertica 10,我們又進(jìn)了一步。就像Hadoop一樣,我們知道創(chuàng)新不僅發(fā)生在Vertica內(nèi)部,也發(fā)生在Vertica外部。我們發(fā)現(xiàn),數(shù)據(jù)科學(xué)家真的很喜歡他們喜歡的語言,比如Python;他們喜歡自己的工具和平臺,比如TensorFlow。使用Vertica 10,我們現(xiàn)在甚至更多地集成了Python,我們已經(jīng)有一段時間了,但是我們也集成了TensorFlow集成和PMML。
這是什么意思?這意味著,如果您使用自己喜歡的機(jī)器學(xué)習(xí)平臺,在Vertica之外構(gòu)建并訓(xùn)練一個模型,那么您可以將該模型導(dǎo)入Vertica,并在整個端到端流程上運(yùn)行它,但在所有數(shù)據(jù)上運(yùn)行它。沒有更多的精度挑戰(zhàn),MPP柱狀執(zhí)行,所以它非??臁H绻腥讼胫罏槭裁匆粋€模型要做決定,你可以復(fù)制那個模型,然后解釋為什么。
它也帶來了文化的統(tǒng)一。它將使用SQL的業(yè)務(wù)分析師社區(qū)與熱愛TensorFlow和Python等工具的數(shù)據(jù)科學(xué)家社區(qū)統(tǒng)一起來。
在如此多的機(jī)器智能和人工智能中,存在一個無法復(fù)制模型的黑箱問題;然后你就會遇到潛在的性別偏見。能夠復(fù)制它,并使機(jī)器智能透明化是非常非常重要的。
金:的確如此,這種可復(fù)制性和準(zhǔn)確性是至關(guān)重要的,因?yàn)槿绻阆蛳虏蓸?,在不同的?shù)據(jù)集上運(yùn)行模型,事情就會變得混亂。在數(shù)據(jù)庫中執(zhí)行或者訓(xùn)練模型,然后將其導(dǎo)入數(shù)據(jù)庫用于生產(chǎn),這就是Vertica所允許的。這是開拓ML蹤跡的下一步。
你的客戶要求你做什么,你提供什么?
金:我們的客戶現(xiàn)在最需要的是部署的靈活性。我告訴他們的是,你不可能知道你將要被命令做什么,或者你將來可能會有什么選擇;關(guān)鍵不是必須選擇。他們非常非常致力于此。
我想說的是對機(jī)器學(xué)習(xí)操作化的興趣,但不一定要強(qiáng)迫分析團(tuán)隊(duì)去敲打數(shù)據(jù)科學(xué)團(tuán)隊(duì)關(guān)于哪些工具是最好的工具,這可能是第二點(diǎn)。
我認(rèn)為第三點(diǎn)是規(guī)模上的表現(xiàn)??纯磧?yōu)步科技公司(Uber Technologies Inc.)、Trade Desk Inc.或電話公司(AT&T Corp.)等公司吧,他們說毫秒,其實(shí)是慢的。當(dāng)他們說拍字節(jié)的時候,他們會說,‘是的,那是昨天。因此,對Vertica來說,規(guī)模足夠好的性能永遠(yuǎn)都不夠好。這就是為什么我們一直在核心構(gòu)建下一代執(zhí)行引擎,數(shù)據(jù)庫設(shè)計(jì),優(yōu)化引擎,所有這些東西。
2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。