Google 分別在 2003 年及 2004 年發表了兩篇的論文 “The Google File System” 和 “MapReduce: Simplified Data Processing on Large Clusters”。隨後 Apache 開源基金會作出 DFS (Distributed File System) 以及 MapReduce 的開源解決方案,也就是今天的 Hadoop 平台的雛型。
Hadoop 是由 Java 編寫的開源軟體框架 (Open-source Software Framework),Hadoop 提供分散式檔案系統 (Distributed File System) 及以 MapReduce 框架進行分散式運算 (Distributed computing)。Hadoop 被視為其中一個處理和分析大數據的熱門方案。
由於處理和分析大數據的技術相當獨特,所謂萬事起頭難,在初次學習大數據技術難免遇到不同程度的障礙。本基礎課程旨在有系統地,透過具針對性的實戰例子教授學員處理和分析大數據的必要概念及技術,當中包括安裝 Hadoop、操作HDFS (Hadoop Distributed File System) 和使用 MapReduce 進行大數據分析等。了解相關大數據技術後就會探討 Hadoop 在商業環境中的應用情況等。
由於操作 HDFS (Hadoop Distributed File System) 和使用 MapReduce 進行大數據分析均會使用 Java 程式語言,故此建議學員在報讀本課程前需要具備 “Java EE 程式編寫基礎課程 (主要教授 JSP, Servlet, JSTL 和 EL)” 中第 4 課 [Java 語言 (基礎語法)]、第 5 課 [Java 語言 (物件導向概念)] 及第 6 課 [Java 語言 (常用類別)] 的知識。亦由於導師會將 Hadoop 安裝在 Linux 上進行示範,故此建議學員在報讀本課程前需要具備基本的 Linux 操作知識。