您的位置: 首頁 >科技 >

Hadoop是一種充分利用大數(shù)據(jù)的好方法

2022-06-28 10:13:50 編輯:梁河閱 來源:
導讀 在當今不斷變化的技術(shù)世界中,軟件即服務(SaaS)已成為一種常見的模式。該服務按用戶需求提供給訂閱者。大數(shù)據(jù)也遵循相同的服務模型。在本

在當今不斷變化的技術(shù)世界中,軟件即服務(SaaS)已成為一種常見的模式。該服務按用戶需求提供給訂閱者。大數(shù)據(jù)也遵循相同的服務模型。在本文中,我們將討論大數(shù)據(jù)技術(shù)領(lǐng)域中遵循的服務模型。

以下是一些眾所周知的大數(shù)據(jù)即服務(BDaaS)服務模型:

Rackspace公司

Rackspace Hadoop集群可以在Rackspace管理的專用服務器,公共云或私有云上運行Hadoop。

Rackspace為Apache Spark和Hadoop 提供了一個云大數(shù)據(jù)模型。它提供了一個完全托管的裸機平臺,用于內(nèi)存處理。

Rackspace消除了手動管理和維護大數(shù)據(jù)的問題。它具有以下功能:

通過提供24×7×365支持減少操作負擔

提供完整的Hortonworks數(shù)據(jù)平臺(HDP)工具集訪問,包括Pig,Hive,HBase,Sqoop,F(xiàn)lume和HCatalog

靈活的網(wǎng)絡設計,傳統(tǒng)網(wǎng)絡高達10GB

選擇私有云可以提高公共云的功能和效率,同時提高安全性和控制力。使用私有云的主要缺點是難以管理,需要專家進行升級,修補和監(jiān)控。Rackspace在這些領(lǐng)域提供了出色的支持,因此無需擔心云管理。

Joyent公司

Joyent基于Apache Hadoop,是一個基于云的大數(shù)據(jù)項目托管環(huán)境。此解決方案使用Hortonworks數(shù)據(jù)平臺構(gòu)建。它是一個高性能的容器本地基礎架構(gòu),可滿足當今移動應用程序和實時Web的需求。它允許在高性能Joyent云上運行企業(yè)級Hadoop。

它還具有以下優(yōu)點:

通過Joyent提供的解決方案,在相同的響應時間內(nèi)削減三分之二的基礎設施成本

Joyent Cloud上的Hadoop集群提供3倍更快的磁盤I / O響應時間

加速分布式和并行處理的響應時間

改進了執(zhí)行密集型數(shù)據(jù)分析應用程序的Hadoop集群的擴展

結(jié)果更快,響應時間更短

通常,大數(shù)據(jù)應用程序被認為是昂貴且難以使用的。Joyent正試圖通過提供更便宜,更快速的解決方案來改變這種狀況。Joyent 為實時Web和移動應用程序提供公共和混合云基礎架構(gòu)。其客戶包括LinkedIn和Voxer等知名人士。

Qubole

對于大數(shù)據(jù)項目,Qubole提供了一個Hadoop集群,內(nèi)置數(shù)據(jù)連接器和圖形編輯器。這樣可以利用MySQL,MongoDB和Oracle 等各種數(shù)據(jù)庫,并將Hadoop集群設置為自動駕駛。它為Hive,Pig和MapReduce提供了一個查詢編輯器。

Qubole提供一切即服務,包括:

Hive,Pig和MapReduce的查詢編輯器

表達評估員

利用率儀表板

提取轉(zhuǎn)換加載(ETL)和數(shù)據(jù)管道構(gòu)建器

其功能包括:

運行速度比Amazon EMR快

易于使用的GUI,內(nèi)置連接器和無縫彈性云基礎架構(gòu)

資源分配和管理的優(yōu)化由QDS Hadoop引擎通過使用守護進程完成,提供先進的Hadoop引擎以獲得更好的性能

為了加快查詢速度,I / O針對S3存儲進行了優(yōu)化。S3安全可靠。Qubole數(shù)據(jù)服務在S3中對數(shù)據(jù)的執(zhí)行速度提高了5倍。

無需為未使用的功能和應用程序付費

云集成 - Qubole Data Service不需要更改當前的基礎架構(gòu),這意味著它可以靈活地與任何平臺配合使用。QDS連接器支持導入和導出云數(shù)據(jù)庫MongoDB,Oracle,PostgresSQL和Google Analytics等資源。

使用Qubole數(shù)據(jù)服務進行集群生命周期管理,可在幾分鐘內(nèi)配置集群,根據(jù)需求進行擴展,并在環(huán)境中運行,以便輕松管理大數(shù)據(jù)評估

彈性MapReduce

Amazon Elastic MapReduce(EMR)提供了一個托管Hadoop框架,用于簡化大數(shù)據(jù)處理。分發(fā)和處理大量數(shù)據(jù)非常簡單且經(jīng)濟高效。

其他分布式框架(如Spark和Presto)也可以在Amazon EMR中運行,以與Amazon S3和DynamoDB中的數(shù)據(jù)進行交互。EMR可靠地處理這些用例:

網(wǎng)絡索引

機器學習

科學模擬

數(shù)據(jù)倉庫

日志分析

生物信息學

其客戶包括Yelp,諾基亞,Getty Images,Reddit等。它的一些功能是:

靈活地在每個實例中使用root訪問權(quán)限,支持多個Hadoop發(fā)行版和應用程序。可以輕松自定義每個群集并安裝其他應用程序。

安裝Amazon EMR集群很容易。

足夠可靠,可以減少監(jiān)控集群的時間; 重試失敗的任務并自動替換性能不佳的實例。

安全,因為它自動配置Amazon EC2防火墻設置以控制對實例的網(wǎng)絡訪問

使用Amazon EMR以任何規(guī)模處理數(shù)據(jù)??梢匀菀椎卦黾雍蜏p少實例的數(shù)量。

低成本定價,無隱藏成本; 每小時支付一次。例如,以每小時0.15美元的價格啟動一個10節(jié)點的Hadoop集群。

它用于分析點擊流數(shù)據(jù)以了解用戶首選項。廣告商可以分析點擊流和廣告印象日志。

它還可用于有效處理大量基因組數(shù)據(jù)和大數(shù)據(jù)集。研究人員可以免費訪問AWS上托管的基因組數(shù)據(jù)。

Amazon EMR可用于日志處理,并幫助他們將數(shù)PB的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為有用的見解。

砂漿

Mortar是一個高級數(shù)據(jù)科學平臺,基于Amazon Web Services云構(gòu)建。它基于Elastic MapReduce(EMR)構(gòu)建,以啟動Hadoop集群。Mortar由K. Young,Jeremy Kam和Doug Daniels于2011年創(chuàng)建,旨在消除耗時,困難的任務。這樣做是為了讓科學家們花時間做其他重要的工作。

它運行在Java,Jython,Hadoop等上,以最大限度地減少用戶投入的時間,并讓他們專注于數(shù)據(jù)科學。

它具有以下功能:

它使您的團隊從繁瑣且耗時的安裝和維護中解放出來。

通過在短時間內(nèi)將解決方案投入運營來節(jié)省時間。

自動向用戶發(fā)出技術(shù)和應用程序中的任何故障警報,以確保他們獲得準確和實時的信息。

砂漿平臺的應用:

為了部署功能強大,可擴展的推薦引擎,最快的平臺是Mortar。

Mortar是完全自動化的,因為它只用一個命令從頭到尾運行推薦引擎。

它使用行業(yè)標準版本控制,有助于輕松適應和定制。

為了進行分析,可以輕松地將多個數(shù)據(jù)源連接到數(shù)據(jù)倉庫。

它通過處理基礎架構(gòu),部署和其他操作來節(jié)省團隊的工作時間。

使用您已有的數(shù)據(jù)預測分析。Mortar支持線性回歸和分析分類等方法。

支持領(lǐng)先的機器學習技術(shù),如R,Pig和Python,為復雜的工作提供輕松的并行化。

99.9%的正常運行時間和戰(zhàn)略警報可確保用戶的信任和一次又一次的分析管道交付。

預測算法用于發(fā)展業(yè)務,如預測需求和識別高價值客戶。

無論是標記化,詞干化,LDA還是n-gram,都可以輕松分析大量文本。

目前有許多大數(shù)據(jù)應用程序可用,并且在未來毫無疑問會為用戶提供更快,更便宜的解決方案。此外,服務提供商將提出更好的解決方案,使安裝和維護更少擴展。


免責聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。