Apache Hadoop是一款支援數據密集型分佈式應用程式並以Apache 2.0許可協定發佈的開源軟件框架,有助於使用許多電腦組成的網絡來解決數據、計算密集型的問題。基於MapReduce計算模型,它為大數據分散式儲存與處理提供了一個軟件框架。所有的Hadoop模組都有一個基本假設,即硬件故障是常見情況,應該由框架自動處理[3]

Apache Hadoop
Hadoop Logo
原作者Doug Cutting, Mike Cafarella
開發者Apache軟件基金會
首次釋出2006年4月1日,​18年前​(2006-04-01[1]
目前版本
  • 3.4.0(2024年3月17日)[2]
編輯維基數據連結
原始碼庫 編輯維基數據連結
程式語言Java
作業系統跨平台
類型大數據分佈式系統
特許條款Apache特許條款 2.0
網站hadoop.apache.org

Apache Hadoop的核心模組分為儲存和計算模組,前者被稱為Hadoop分散式檔案系統(HDFS),後者即MapReduce計算模型。Hadoop框架先將檔案分成數據塊並分散式地儲存在叢集的計算節點中,接着將負責計算任務的代碼傳送給各節點,讓其能夠並列地處理數據。這種方法有效利用了數據局部性,令各節點分別處理其能夠訪問的數據。與傳統的超級電腦架構相比,這使得數據集的處理速度更快、效率更高[4][5]

Apache Hadoop框架由以下基本模組構成:

  • Hadoop Common – 包含了其他Hadoop 模組所需的庫和實用程式;
  • Hadoop Distributed File System (HDFS) – 一種將數據儲存在叢集中多個節點中的分散式檔案系統,能夠提供很高的頻寬;
  • Hadoop YARN – (於2012年引入) 一個負責管理叢集中計算資源,並實現用戶程式排程的平台[6][7]
  • Hadoop MapReduce – 用於大規模數據處理的MapReduce計算模型實現;
  • Hadoop Ozone – (於2020年引入) Hadoop的對象儲存。

Hadoop 一詞通常代指其基本模組和子模組以及生態系統[8],或可以安裝在 Hadoop 之上的軟件套件的集合,例如Apache PigApache HiveApache HBaseApache PhoenixApache SparkApache ZooKeeperCloudera ImpalaApache FlumeApache SqoopApache OozieApache Storm[9]

Apache Hadoop的MapReduce和HDFS模組的靈感來源於GoogleMapReduceGoogle File System論文[10]

Hadoop 框架本身主要是用Java程式語言編寫的,也包括了一些C語言編寫的本機代碼和Shell指令碼編寫的命令列實用程式。儘管MapReduce Java代碼很常見,但任何程式語言都可以與Hadoop Streaming一起使用來實現用戶程式的map和reduce部分[11]。Hadoop 生態系統中的其他專案實現了更為豐富的用戶介面。

主要子專案

編輯
 
Hadoop小電腦叢集用Cubieboard電腦。
  • Hadoop Common:在0.20及以前的版本中,包含HDFS、MapReduce和其他專案公共內容,從0.21開始HDFS和MapReduce被分離為獨立的子專案,其餘內容為Hadoop Common
  • HDFS:Hadoop分佈式檔案系統(Distributed File System)-HDFS(Hadoop Distributed File System)
  • MapReduce:平行計算框架,0.20前使用org.apache.hadoop.mapred舊介面,0.20版本開始引入org.apache.hadoop.mapreduce的新API

相關專案

編輯

知名用戶

編輯

Hadoop在Yahoo!的應用

編輯

2008年2月19日,雅虎使用10,000個微處理器核心的Linux電腦叢集運行一個Hadoop應用程式。[12]

其他用戶

編輯

其他知名用戶包括[13]

Hadoop與Sun Grid Engine

編輯

昇陽電腦的Sun Grid Engine可以用來排程Hadoop Job。[14][15]

Hadoop與Condor

編輯

威斯康辛大學麥迪遜分校的Condor計算機叢集軟件也可以用作Hadoop Job的排程。[16]

參見

編輯

參考文獻

編輯
  1. ^ Hadoop Releases. apache.org. Apache Software Foundation. [2019-04-28]. (原始內容存檔於2019-04-28). 
  2. ^ Release 3.4.0 available. [2024年4月10日]. 
  3. ^ Welcome to Apache Hadoop!. hadoop.apache.org. [2016-08-25]. (原始內容存檔於2017-09-23). 
  4. ^ Malak, Michael. Data Locality: HPC vs. Hadoop vs. Spark. datascienceassn.org. Data Science Association. 2014-09-19 [2014-10-30]. (原始內容存檔於2017-09-10). 
  5. ^ Wang, Yandong; Goldstone, Robin; Yu, Weikuan; Wang, Teng. Characterization and Optimization of Memory-Resident MapReduce on HPC Systems. 2014 IEEE 28th International Parallel and Distributed Processing Symposium. IEEE. October 2014: 799–808. ISBN 978-1-4799-3800-1. S2CID 11157612. doi:10.1109/IPDPS.2014.87. 
  6. ^ Resource (Apache Hadoop Main 2.5.1 API). apache.org. Apache Software Foundation. 2014-09-12 [2014-09-30]. (原始內容存檔於2014-10-06). 
  7. ^ Murthy, Arun. Apache Hadoop YARN – Concepts and Applications. hortonworks.com. Hortonworks. 2012-08-15 [2014-09-30]. (原始內容存檔於2017-09-11). 
  8. ^ Continuuity Raises $10 Million Series A Round to Ignite Big Data Application Development Within the Hadoop Ecosystem. finance.yahoo.com. Marketwired. 2012-11-14 [2014-10-30]. (原始內容存檔於2017-09-10). 
  9. ^ Hadoop-related projects at. Hadoop.apache.org. [2013-10-17]. (原始內容存檔於2017-09-23). 
  10. ^ Data Science and Big Data Analytics: Discovering, Analyzing, Visualizing and Presenting Data. John Wiley & Sons. 2014-12-19: 300 [2015-01-29]. ISBN 9781118876220. 
  11. ^ nlpatumd; Adventures with Hadoop and Perl. Mail-archive.com. 2010-05-02 [2013-04-05]. (原始內容存檔於2017-08-14). 
  12. ^ Yahoo! Launches World's Largest Hadoop Production Application (Hadoop and Distributed Computing at Yahoo!). [2008-09-04]. (原始內容存檔於2008-05-14). 
  13. ^ PoweredBy. [2008-09-07]. (原始內容存檔於2012-11-29). 
  14. ^ Creating Hadoop pe under SGE. Sun Microsystems. 2008-01-16 [2008-09-04]. (原始內容存檔於2008-09-12). 
  15. ^ HDFS-Aware Scheduling With Grid Engine (PDF). Sun Microsystems. 2009-09-10. [永久失效連結]
  16. ^ Condor integrated with Hadoop's Map Reduce (PDF). 威斯康辛大學麥迪遜分校. 2010-04-15 [2011-03-15]. (原始內容存檔 (PDF)於2011-04-01). 

外部連結

編輯