hadoop-logo Apache Hadoop

Apache® Hadoop® 專案開發可靠、可擴充、分散式運算的開源軟體。

Apache Hadoop 軟體函式庫是一個架構,允許使用簡單的程式設計模型,在電腦叢集上分散處理大型資料集。它設計為可從單一伺服器擴充至數千台機器,每台機器提供本機運算和儲存。它並非仰賴硬體提供高可用性,而是由函式庫本身設計為在應用程式層面偵測和處理故障,因此可在電腦叢集上提供高可用性服務,而叢集中的每台電腦都可能發生故障。

深入了解 » 下載 » 開始使用 »

最新消息

已推出 3.4.0 版 2024 年 3 月 17 日

這是 Apache Hadoop 3.4 系列的第一個版本。它包含自 3.3 版以來 2888 個錯誤修正、改進和增強功能。

建議使用者閱讀 重大變更概觀。如需詳細資訊,請查看 版本說明變更日誌

版本 3.3.6 已推出 2023 年 6 月 23 日

這是 Apache Hadoop 3.3 系列的版本。

它包含自 3.3.5 以來 117 個錯誤修正、改進和增強功能。Apache Hadoop 3.3.5 及更早版本使用者應升級到此版本。

功能重點

SBOM 工件

從此版本開始,Hadoop 使用 CycloneDX Maven 外掛程式發佈軟體材料清單 (SBOM)。如需有關 SBOM 的更多資訊,請前往 SBOM

HDFS RBF:基於 RDBMS 的權杖儲存支援

HDFS 路由器到路由器基於聯邦現在支援在 MySQL 上儲存委派權杖,HADOOP-18535,這透過原始的基於 Zookeeper 的實作來改善權杖操作。

新的檔案系統 API

HADOOP-18671 將多個 HDFS 專用 API 移至 Hadoop Common,讓某些依賴 HDFS 語意的應用程式可以在其他相容 Hadoop 的檔案系統上執行。

特別是,recoverLease() 和 isFileClosed() 是透過 LeaseRecoverable 介面公開的,而 setSafeMode() 則透過 SafeMode 介面公開。

建議使用者閱讀自 3.3.5 版本以來的 主要變更概觀。如需自前一個 3.3.5 版本以來的 117 個錯誤修正、改進和其他增強功能的詳細資訊,請查看 版本說明變更日誌

版本 3.3.5 已推出 2023 年 3 月 22 日

這是 Apache Hadoop 3.3 系列的版本。

主要變更包括

  • 大幅更新相依性,以嘗試控制傳遞式 CVE 的報告,包括真實和誤報。
  • 針對 ABFS 輸入串流預先擷取進行重大修正,以進行正確讀取。
  • 所有 FSDataInputStream 實作的向量化 IO API,針對 file:// 和 s3a:// 檔案系統提供高性能版本。file:// 透過 Java 原生 IO s3a:// 平行 GET 要求。
  • Arm64 二進位檔。請注意,由於 arm64 版本在不同的平台上,jar 檔案可能與 x86 版本不匹配,因此 maven 工件也不匹配。
  • Hadoop 自有程式碼中的安全性修正。

Apache Hadoop 3.3.4 及更早版本的用户应升级到此版本。

鼓励所有用户阅读自 3.3.4 版本发布以来的主要变更概览

有关自上一个 3.3.4 版本发布以来的错误修复、改进和其他增强功能的详细信息,请查看发行说明变更日志

Azure ABFS:关键流预取修复

ABFS 连接器有一个关键错误修复https://issues.apache.org/jira/browse/HADOOP-18546ABFS。禁用在 abfs 流 close() 中清除正在进行的读取列表。

所有在 Hadoop 版本 3.3.2+ 中使用 abfs 连接器用户必须升级到此版本,或通过将 fs.azure.readaheadqueue.depth 设置为 0 来禁用预取。

版本 3.3.4 可用 2022 年 8 月 8 日

這是 Apache Hadoop 3.3 系列的版本。

它包含自 3.3.3 以来少量安全和关键集成修复。

Apache Hadoop 3.3.3 的用户应升级到此版本。

Hadoop 2.x 和 hadoop 3.2 的用户也应升级到 3.3.x 分支。除了功能增强之外,这也是目前唯一接收除关键安全/数据完整性问题之外所有修复的唯一分支。

鼓励用户阅读自 3.3.3 版本发布以来的主要变更概览。有关自上一个 3.3.3 版本发布以来的错误修复、改进和其他增强功能的详细信息,请查看发行说明变更日志

版本 3.2.4 可用 2022 年 7 月 22 日

这是 Apache Hadoop 3.2 分支的第三个稳定版本。

它包含自 3.2.3 以来 153 个错误修复、改进和增强功能。

鼓励用户阅读自 3.2.3 以来主要变更概览。有关自上一个 3.2.3 版本发布以来的 153 个错误修复、改进和其他增强功能的详细信息,请查看发行说明变更日志

模块

该项目包含以下模块

  • Hadoop Common:支持其他 Hadoop 模块的通用实用程序。
  • Hadoop 分布式文件系统 (HDFS™):一个分布式文件系统,提供对应用程序数据的高吞吐量访问。
  • Hadoop YARN:一个用于作业调度和集群资源管理的框架。
  • Hadoop MapReduce:一個基於 YARN 的系統,用於平行處理大型資料集。

誰在使用 Hadoop?

各種公司和組織都在使用 Hadoop 進行研究和生產。使用者應加入 Hadoop PoweredBy wiki 頁面

相關專案

Apache 中的其他 Hadoop 相關專案包括

  • Ambari™:一個用於配置、管理和監控 Apache Hadoop 群集的網路工具,其中包括對 Hadoop HDFS、Hadoop MapReduce、Hive、HCatalog、HBase、ZooKeeper、Oozie、Pig 和 Sqoop 的支援。Ambari 還提供一個儀表板,用於查看群集健康狀況,例如熱圖,以及以視覺化方式查看 MapReduce、Pig 和 Hive 應用程式的功能,以及以使用者友善的方式診斷其效能特性的功能。
  • Avro™:一個資料序列化系統。
  • Cassandra™:一個可擴充的多主機資料庫,沒有單點故障。
  • Chukwa™:一個用於管理大型分散式系統的資料收集系統。
  • HBase™:一個可擴充的分散式資料庫,支援大型資料表的結構化資料儲存。
  • Hive™:一個資料倉儲基礎架構,提供資料摘要和臨時查詢。
  • Mahout™:一個可擴充的機器學習和資料探勘程式庫。
  • Ozone™:一個可擴充、冗餘且分散的 Hadoop 物件儲存。
  • Pig™:一個平行運算的高階資料流程語言和執行架構。
  • Spark™:一個快速且通用的 Hadoop 資料運算引擎。Spark 提供一個簡單且具有表達力的程式設計模型,支援廣泛的應用程式,包括 ETL、機器學習、串流處理和圖形運算。
  • Submarine:一個統一的 AI 平台,允許工程師和資料科學家在分散式群集中執行機器學習和深度學習工作負載。
  • Tez™:一個廣義的資料流程程式設計架構,建構於 Hadoop YARN 之上,它提供一個強大且彈性的引擎,用於執行任意 DAG 的工作,以處理批次和互動式使用案例的資料。Tez 已被 Hadoop 生態系統中的 Hive™、Pig™ 和其他架構採用,也已由其他商業軟體(例如 ETL 工具)採用,以取代 Hadoop™ MapReduce 作為基礎執行引擎。
  • ZooKeeper™:一種針對分散式應用程式的效能協調服務。