您的位置: 首頁 >互聯(lián)網(wǎng) >

網(wǎng)絡(luò)資訊:Hadoop框架是什么

2022-08-08 07:09:20 編輯:路真楓 來源:
導(dǎo)讀 今天來說一下Hadoop框架是什么這方面的一些訊息,不少朋友對Hadoop框架是什么這方面的一些訊息頗感興趣的,小編今天就整理了一些信息,希望...

今天來說一下Hadoop框架是什么這方面的一些訊息,不少朋友對Hadoop框架是什么這方面的一些訊息頗感興趣的,小編今天就整理了一些信息,希望對有需要的朋友有所幫助。

Hadoop是一個開源軟件框架,用于在商用硬件集群上存儲數(shù)據(jù)和運行應(yīng)用程序。它為任何類型的數(shù)據(jù)提供海量存儲,巨大的處理能力以及處理幾乎無限的并發(fā)任務(wù)或作業(yè)的能力。

Hadoop 是一個開源軟件框架,用于在商用硬件集群上存儲數(shù)據(jù)和運行應(yīng)用程序。它為任何類型的數(shù)據(jù)提供海量存儲,巨大的處理能力以及處理幾乎無限的并發(fā)任務(wù)或作業(yè)的能力。

隨著萬維網(wǎng)在 20 世紀(jì)后期和 21 世紀(jì)初的發(fā)展,創(chuàng)建了搜索引擎和索引,以幫助在基于文本的內(nèi)容中定位相關(guān)信息。在早期,搜索結(jié)果由人類返回。但隨著網(wǎng)絡(luò)從幾十頁增長到數(shù)百萬頁,需要自動化。創(chuàng)建了網(wǎng)絡(luò)爬蟲,其中許多是大學(xué)主導(dǎo)的研究項目,搜索引擎初創(chuàng)公司起飛(雅虎,AltaVista 等)。

其中一個項目是一個名為 Nutch 的開源網(wǎng)絡(luò)搜索引擎 – Doug Cutting 和 Mike Cafarella 的創(chuàng)意。他們希望通過在不同計算機(jī)之間分配數(shù)據(jù)和計算來更快地返回 Web 搜索結(jié)果,從而可以同時完成多個任務(wù)。在此期間,另一個名為 Google 的搜索引擎項目正在進(jìn)行中。它基于相同的概念 – 以分布式,自動化的方式存儲和處理數(shù)據(jù),以便更快地返回相關(guān)的 Web 搜索結(jié)果。

2006 年,Cutting 加入了雅虎并帶來了 Nutch 項目以及基于谷歌早期工作的想法,自動化分布式數(shù)據(jù)存儲和處理。Nutch 項目被劃分 – 網(wǎng)絡(luò)爬蟲部分仍然是 Nutch,分布式計算和處理部分變成了 Hadoop(以 Cutting 的兒子的玩具大象命名)。2008 年,雅虎發(fā)布了 Hadoop 作為開源項目。今天,Hadoop 的框架和技術(shù)生態(tài)系統(tǒng)由非盈利的 Apache 軟件基金會(ASF)管理和維護(hù),ASF 是一個由軟件開發(fā)人員和貢獻(xiàn)者組成的全球社區(qū)。

為什么 Hadoop 很重要?

能夠快速存儲和處理大量任何類型的數(shù)據(jù)。隨著數(shù)據(jù)量和品種的不斷增加,特別是來自社交媒體和物聯(lián)網(wǎng)(IoT),這是一個關(guān)鍵考慮因素。

計算能力。Hadoop 的分布式計算模型可以快速處理大數(shù)據(jù)。您使用的計算節(jié)點越多,您擁有的處理能力就越強(qiáng)。

容錯。數(shù)據(jù)和應(yīng)用程序處理可防止硬件故障。如果節(jié)點發(fā)生故障,作業(yè)將自動重定向到其他節(jié)點,以確保分布式計算不會失敗。自動存儲所有數(shù)據(jù)的多個副本。

靈活性。與傳統(tǒng)的關(guān)系數(shù)據(jù)庫不同,您不必在存儲數(shù)據(jù)之前對其進(jìn)行預(yù)處理。您可以根據(jù)需要存儲盡可能多的數(shù)據(jù),并決定以后如何使用它。這包括非結(jié)構(gòu)化數(shù)據(jù),如文本,圖像和視頻。

低成本。開源框架是免費的,使用商用硬件來存儲大量數(shù)據(jù)。

可擴(kuò)展性。只需添加節(jié)點,您就可以輕松擴(kuò)展系統(tǒng)以處理更多數(shù)據(jù)。需要很少的管理。

Hadoop 有哪些挑戰(zhàn)?

MapReduce 編程并不適合所有問題。這對于簡單的信息請求和可以分成獨立單元的問題是有益的,但對迭代和交互式分析任務(wù)來說效率不高。MapReduce 是文件密集型的。由于除了通過排序和混洗之外,節(jié)點不相互通信,因此迭代算法需要多個 map-shuffle / sort-reduce 階段才能完成。這會在 MapReduce 階段之間創(chuàng)建多個文件,對于高級分析計算來說效率很低。

有一個廣為人知的人才缺口。很難找到具有足夠 Java 技能的入門級程序員,以便通過 MapReduce 提高工作效率。這就是分銷商正在競相將關(guān)系(SQL)技術(shù)置于 Hadoop 之上的原因之一。找到具有 SQL 技能而不是 MapReduce 技能的程序員要容易得多。而且,Hadoop 管理似乎是部分藝術(shù)和部分科學(xué),需要對操作系統(tǒng),硬件和 Hadoop 內(nèi)核設(shè)置的低級知識。

數(shù)據(jù)安全。另一個挑戰(zhàn)是圍繞分散的數(shù)據(jù)安全問題,盡管新的工具和技術(shù)正在浮出水面。Kerberos 身份驗證協(xié)議是使 Hadoop 環(huán)境安全的重要一步。

完善的數(shù)據(jù)管理和治理。Hadoop 沒有易于使用的全功能工具來進(jìn)行數(shù)據(jù)管理,數(shù)據(jù)清理,治理和元數(shù)據(jù)。特別缺乏的是數(shù)據(jù)質(zhì)量和標(biāo)準(zhǔn)化的工具。

一個有趣的事實:“Hadoop”是一個黃色玩具大象的名字,由其一位發(fā)明家的兒子擁有。

以上就是關(guān)于Hadoop框架是什么對比這方面的一些信息了 小編整理的這些訊息希望對童鞋們有所幫助。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。