網(wǎng)絡(luò)資訊：Hadoop框架是什么

2022-08-08 07:09:20 編輯：路真楓來(lái)源：

導(dǎo)讀今天來(lái)說(shuō)一下Hadoop框架是什么這方面的一些訊息，不少朋友對(duì)Hadoop框架是什么這方面的一些訊息頗感興趣的，小編今天就整理了一些信息，希望...

今天來(lái)說(shuō)一下Hadoop框架是什么這方面的一些訊息，不少朋友對(duì)Hadoop框架是什么這方面的一些訊息頗感興趣的，小編今天就整理了一些信息，希望對(duì)有需要的朋友有所幫助。

Hadoop是一個(gè)開(kāi)源軟件框架，用于在商用硬件集群上存儲(chǔ)數(shù)據(jù)和運(yùn)行應(yīng)用程序。它為任何類(lèi)型的數(shù)據(jù)提供海量存儲(chǔ)，巨大的處理能力以及處理幾乎無(wú)限的并發(fā)任務(wù)或作業(yè)的能力。

Hadoop 是一個(gè)開(kāi)源軟件框架，用于在商用硬件集群上存儲(chǔ)數(shù)據(jù)和運(yùn)行應(yīng)用程序。它為任何類(lèi)型的數(shù)據(jù)提供海量存儲(chǔ)，巨大的處理能力以及處理幾乎無(wú)限的并發(fā)任務(wù)或作業(yè)的能力。

隨著萬(wàn)維網(wǎng)在 20 世紀(jì)后期和 21 世紀(jì)初的發(fā)展，創(chuàng)建了搜索引擎和索引，以幫助在基于文本的內(nèi)容中定位相關(guān)信息。在早期，搜索結(jié)果由人類(lèi)返回。但隨著網(wǎng)絡(luò)從幾十頁(yè)增長(zhǎng)到數(shù)百萬(wàn)頁(yè)，需要自動(dòng)化。創(chuàng)建了網(wǎng)絡(luò)爬蟲(chóng)，其中許多是大學(xué)主導(dǎo)的研究項(xiàng)目，搜索引擎初創(chuàng)公司起飛(雅虎，AltaVista 等)。

其中一個(gè)項(xiàng)目是一個(gè)名為 Nutch 的開(kāi)源網(wǎng)絡(luò)搜索引擎 – Doug Cutting 和 Mike Cafarella 的創(chuàng)意。他們希望通過(guò)在不同計(jì)算機(jī)之間分配數(shù)據(jù)和計(jì)算來(lái)更快地返回 Web 搜索結(jié)果，從而可以同時(shí)完成多個(gè)任務(wù)。在此期間，另一個(gè)名為 Google 的搜索引擎項(xiàng)目正在進(jìn)行中。它基于相同的概念 – 以分布式，自動(dòng)化的方式存儲(chǔ)和處理數(shù)據(jù)，以便更快地返回相關(guān)的 Web 搜索結(jié)果。

2006 年，Cutting 加入了雅虎并帶來(lái)了 Nutch 項(xiàng)目以及基于谷歌早期工作的想法，自動(dòng)化分布式數(shù)據(jù)存儲(chǔ)和處理。Nutch 項(xiàng)目被劃分 – 網(wǎng)絡(luò)爬蟲(chóng)部分仍然是 Nutch，分布式計(jì)算和處理部分變成了 Hadoop(以 Cutting 的兒子的玩具大象命名)。2008 年，雅虎發(fā)布了 Hadoop 作為開(kāi)源項(xiàng)目。今天，Hadoop 的框架和技術(shù)生態(tài)系統(tǒng)由非盈利的 Apache 軟件基金會(huì)(ASF)管理和維護(hù)，ASF 是一個(gè)由軟件開(kāi)發(fā)人員和貢獻(xiàn)者組成的全球社區(qū)。

為什么 Hadoop 很重要?

能夠快速存儲(chǔ)和處理大量任何類(lèi)型的數(shù)據(jù)。隨著數(shù)據(jù)量和品種的不斷增加，特別是來(lái)自社交媒體和物聯(lián)網(wǎng)(IoT)，這是一個(gè)關(guān)鍵考慮因素。

計(jì)算能力。Hadoop 的分布式計(jì)算模型可以快速處理大數(shù)據(jù)。您使用的計(jì)算節(jié)點(diǎn)越多，您擁有的處理能力就越強(qiáng)。

容錯(cuò)。數(shù)據(jù)和應(yīng)用程序處理可防止硬件故障。如果節(jié)點(diǎn)發(fā)生故障，作業(yè)將自動(dòng)重定向到其他節(jié)點(diǎn)，以確保分布式計(jì)算不會(huì)失敗。自動(dòng)存儲(chǔ)所有數(shù)據(jù)的多個(gè)副本。

靈活性。與傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)不同，您不必在存儲(chǔ)數(shù)據(jù)之前對(duì)其進(jìn)行預(yù)處理。您可以根據(jù)需要存儲(chǔ)盡可能多的數(shù)據(jù)，并決定以后如何使用它。這包括非結(jié)構(gòu)化數(shù)據(jù)，如文本，圖像和視頻。

低成本。開(kāi)源框架是免費(fèi)的，使用商用硬件來(lái)存儲(chǔ)大量數(shù)據(jù)。

可擴(kuò)展性。只需添加節(jié)點(diǎn)，您就可以輕松擴(kuò)展系統(tǒng)以處理更多數(shù)據(jù)。需要很少的管理。

Hadoop 有哪些挑戰(zhàn)?

MapReduce 編程并不適合所有問(wèn)題。這對(duì)于簡(jiǎn)單的信息請(qǐng)求和可以分成獨(dú)立單元的問(wèn)題是有益的，但對(duì)迭代和交互式分析任務(wù)來(lái)說(shuō)效率不高。MapReduce 是文件密集型的。由于除了通過(guò)排序和混洗之外，節(jié)點(diǎn)不相互通信，因此迭代算法需要多個(gè) map-shuffle / sort-reduce 階段才能完成。這會(huì)在 MapReduce 階段之間創(chuàng)建多個(gè)文件，對(duì)于高級(jí)分析計(jì)算來(lái)說(shuō)效率很低。

有一個(gè)廣為人知的人才缺口。很難找到具有足夠 Java 技能的入門(mén)級(jí)程序員，以便通過(guò) MapReduce 提高工作效率。這就是分銷(xiāo)商正在競(jìng)相將關(guān)系(SQL)技術(shù)置于 Hadoop 之上的原因之一。找到具有 SQL 技能而不是 MapReduce 技能的程序員要容易得多。而且，Hadoop 管理似乎是部分藝術(shù)和部分科學(xué)，需要對(duì)操作系統(tǒng)，硬件和 Hadoop 內(nèi)核設(shè)置的低級(jí)知識(shí)。

數(shù)據(jù)安全。另一個(gè)挑戰(zhàn)是圍繞分散的數(shù)據(jù)安全問(wèn)題，盡管新的工具和技術(shù)正在浮出水面。Kerberos 身份驗(yàn)證協(xié)議是使 Hadoop 環(huán)境安全的重要一步。

完善的數(shù)據(jù)管理和治理。Hadoop 沒(méi)有易于使用的全功能工具來(lái)進(jìn)行數(shù)據(jù)管理，數(shù)據(jù)清理，治理和元數(shù)據(jù)。特別缺乏的是數(shù)據(jù)質(zhì)量和標(biāo)準(zhǔn)化的工具。

一個(gè)有趣的事實(shí)：“Hadoop”是一個(gè)黃色玩具大象的名字，由其一位發(fā)明家的兒子擁有。

以上就是關(guān)于Hadoop框架是什么對(duì)比這方面的一些信息了小編整理的這些訊息希望對(duì)童鞋們有所幫助。

標(biāo)簽：

免責(zé)聲明：本文由用戶(hù)上傳，如有侵權(quán)請(qǐng)聯(lián)系刪除！