Hadoop 研究筆記 隨手記

0.前言
http://azure.microsoft.com/zh-tw/solutions/hadoop/
備份下來:

Hadoop 簡史
Hadoop 在 2005 年由 Mike Cafarella 和 Doug Cutting 建立 (以他小孩的玩具象命名),最初是針對 Web 相關的搜尋資料而設計。現在是 Apache 軟體基金會裡的一個開放原始碼、社群建置的專案,由各種組織和產業廣為採用。Microsoft 是投入此社群開發的積極參與者。

專為大型資料、日常伺服器而打造
Hadoop 受歡迎的一個理由就是其經濟誘因。以前處理大型資料集需要超級電腦和其他昂貴的特殊硬體。Hadoop 可在業界標準伺服器上實現可靠、可擴充的分散式運算,讓您以較低的預算處理數 PB 以上的資料。Hadoop 的設計還可以從單一伺服器擴充到數以千計的機器,並偵測和處理應用程式層的失敗來提高可靠性。

洞察所有類型的資料
經過估計,組織目前處理的資料,有將近 80% 並不是單純以欄和列來包裝而已。反而是一大堆凌亂不堪的電子郵件、社交媒體動態消息、衛星影像、GPS 訊號、伺服器記錄及其他非結構化、非關聯式的資料。Hadoop 幾乎可以處理任何檔案或格式 (這是另外的重要優點),所以組織可以提出他們以前認為不可能的問題。

1. 先看看基本原理吧!
網路上滿多資料的, 但一下子講太多了, 沒fu
先看看這篇文章, 大致上講了核心價值
http://www.dotblogs.com.tw/rickyteng/archive/2012/12/11/85556.aspx

備份下來:

[bigdata]小象幫幫忙,Hadoop 能幫什麼忙?

Hadoop 文獻探討

微軟巨量資料策略轉向,全面支援Hadoop
http://www.ithome.com.tw/itadm/article.php?c=77576
微軟表示,全面支援 Apache Hadoop,這消息說明了:

Hadoop 夠熱門,讓微軟無法抵擋。俗話說:「打不動,就加入」,現在微軟就加入了。 
這不是第一個微軟採納的開放軟體。jQuery,在2008年加入微軟的 visual studio。 
並且 ASP .NET MVC, ASP .NET AJAX 都將採用 jQuery 的技術。(舊消息)

最近熱門關鍵字,從雲端,換成 Big Data,有翻譯成「巨量資料」、有翻譯成「海量資料」, 
到底這是什麼東西?為什麼幾乎每個介紹文章都會講到 Hadoop ?為什麼講雲端的時候有的也會提到 Hadoop?說來話長。

何謂Big Data?這問題目前沒辦法正面回答,因為個人認為現在這東西還在成長變化中, 
也不是一個標準,所以無法用文字嚴格定義。網路上多數的文章會這麼說:

「因為雲端時代的來臨,資料量增加的速度非常快,所以需要一些新方法來應付這些資料。 
巨量資料的特性有 3V,Volume(資料量大),Volecity(產生速度快),Variety(資料多樣性高) 
在合理時間及資源下,巨量資料的技術才能夠應付這些需求。」

其實,這還是很模糊的描述。所以,只能知道,巨量資料並不是突然跑出來的東西。但「巨量資料」這個名詞是為了方便討論某些情況下,使用某些技術而產生的新名詞。巨量資料並不是每一個人或每一個企業都會面臨到的,有能力產生上面描述的 3V 的資料,才會有需要使用到巨量資料的技術。

因此,接下來,我們反過來,從被微軟納入解決方案核心的 Hadoop 來看。看 Hadoop 能夠解決什麼問題,至少可以了解,巨量資料大概是什麼東西。

Hadoop 提供的核心功能有二,名字叫 HDFS 以及 MapReduce。HDFS 是 Hadoop Distributed File System 的縮寫。MapReduce 則是 Hadoop 採用分散式計算的技術。也就是,它基本上要解決的問題有兩個,一個是儲存,一個是計算。

在 HDFS 的設計概念是這樣的。在一群電腦裡面,找一台電腦當老大,叫做 Master Node。它必須負責管理所有的電腦(包含自己)的資料的存放狀態、控制讀寫動作。所以裝了一個程式叫 Name Node 來做管理這件事。也裝了一個 Data Node 的程式來放資料。其他的電腦,叫做 Worker Node,裝了一個 Data Node 的程式來放資料。放資料的規則是,先把一個檔案,切成數個小塊(block),每塊為 64 MB,然後, Name Node 會讓檔案塊,分散到各個不同的 Data Node 去,而且,還會讓整個電腦叢集裡,每一個檔案塊,都有三份。若是 Name Node 發現檔案塊遺失或損壞,會開始尋找其他的 Data Node 上的副本來複製,使得整個電腦叢集維持每個檔案塊的數量都有三份。

從以上的設計慨念裡,可以知道:(1)它不怕單一資料存放區的硬體壞掉,壞掉照常工作,並自動回復、(2)它不怕單一檔案的大小超過一個磁碟區的大小、(3)資料存放區的大小,可以動態增加。(註1)

註1:http://www.classcloud.org/cloud/wiki/Hadoop_Lab8

要講 MapReduce 的設計概念,先講解一下,MapReduce 是什麼。在 functional language 裡面可常見到這個字。它其實是兩個英文字連起來的。也就是 Map 及 Reduce。 
Map 是一種具有某種行為特色的函數,三言兩語說不清,我舉一個例子來說明。假設我有一個數列A,1~10,我想要得到另一個數列B,它裡面的數字是數列A的每個數字的 2 倍,相當於B = f(A),f(x): y=2x。撇開數學式不看。寫程式會這樣寫(C#):

int[] A = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 }; 
int[] B = { 0, 0, 0, 0, 0, 0, 0, 0, 0, 0 }; //初值化的數列 
static int f(int x) { return 2 * x; }

for (int i = 0; i < A.Length; i++) 
{ 
    B[i] = f(A[i]); 
}

這程式裡面看到,數列A、數列B,還有函數 f。剩下來的是那個迴圈,它的動作是把每個數列A的數值,經過函數 f 得到的值,放到數列B 對應的位置。只要是可以完成這一類事情的函數,就叫做 Map 函數。這種函數的特色就是可以平行運算。以上述的例子,把 map 函數寫出來,程式再改寫一下會成為:

int[] A = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 }; 
int[] B = { 0, 0, 0, 0, 0, 0, 0, 0, 0, 0 }; //初值化的數列 
static int f(int x) { return 2 * x; }
static int[] map(Func _func, int[] _a) 
{ 
    int[] _b = new int[_a.Length]; 
    for (int i = 0; i < _a.Length; i++) 
    { 
        _b[i] = _func(_a[i]); 
    } 
    return _b; 
}

B = map( f, A) 

Reduce 也是一種具備某種行為特色的函數。也是要舉一個例子來說明。假設一個數列A,1~10,要計算從 1 加到 10,程式會寫成:

int f2(int x, int y){ return x + y; } 
int[] A = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 }; 
int C = 0; 
for (int i = 0; i < A.Length; i++) 
{ 
    C = f2(C, A[i]); 
}

其中,把迴圈部份依然可以改寫成函數,整個程式變成:

int f2(int x, int y){ return x + y; } 
static int reduce(Func _func, int[] _a) 
{ 
    int _c = 0; 
    for (int i = 0; i < _a.Length; i++) 
    { 
        _c = _func(_c, _a[i]); 
    } 
    return _c; 
}

int[] A = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 }; 
int C = 0; 
C = reduce(f2, A);

凡是可以完成這一類工作的函數,都叫做 Reduce 函數。

所以,MapReduce 的技術,是已經在 Hadoop 中準備好可供分散式計算呼叫的 Map,以及 Reduce 的函數。而使用的人,要把計算的函數,寫成可被 Map 或 Reduce 呼叫。如此就可以利用分散式運算來縮短運算時間。例如,最簡單的分散式運算版的 Map,就不用迴圈,改成分給 10 個 Node 各自運算,等全部得到值,放入數列,再回傳數列,依照 Map 的概念來寫程式,就不怕平行化運算時會出問題了。

了解了 MapReduce 的意思之後,就可以看懂介紹 MapReduce 的示意圖了。要用 MapReduce 技術來計算,首先要把程式,寫成可被 Map,Reduce 使用的樣子。在叢集中,Master Node 還是當老大,負責管理所有的 Job,所以安裝一個叫 Job Tracker 的程式,而 Task Tracker 程式,則是裝在所有可以當計算的電腦裡。當運算開始,Master Node 分配 Map 函數要做的 Task 給 Worker Node,分配時會盡量交給資料在附近的 Node,如此會減少資料傳輸時間。Map 函數計算完的結果會存下來。等到的 Map 程式的結果出來,Reduce 程式可緊接著執行,即可將最終結果算出來。

總和來看,Hadoop 核心所提供的兩個功能,解決了檔案存放的問題、解決了系統擴張的問題、解決了系統備援的問題、解決了分散式運算的問題。依此來推測, Hadoop 可以被大家接受成為巨量資料的主流技術,巨量資料的主要需求及適用範圍即是這些東西。但是巨量資料的所有難題,用 Hadoop 就可以解決了嗎?其實並沒有。HDFS 與 MapReduce 只解決了基本的問題,我們可以從Apache 基金會 Hadoop 相關的其他專案的功能來了解 Hadoop 本身做不到的事。

(1) HBase,是專門用在 Hadoop 檔案系統上的資料庫系統。以此推知,Hadoop 沒有資料庫系統。

(2) Hive,是建置在 HDFS 上的分散式資料倉儲系統,可讓使用者以慣用的 SQL 語法,存取檔案中的大型資料集。以此推知,Hadoop 沒有 SQL 語法查詢功能。

(3) Pig,是 Script 語言,可用來撰寫 MapReduce 程式,不懂 Java 也可以使用這個語言開發 MapReduce 程式。以此推知,MapReduce 程式在 Hadoop 系統是用 Java 撰寫,要效能好,就要用 Java 來寫。

(4) ZooKeeper,是監控和協調 Hadoop 分散式運作的集中式服務,提供各個伺服器的配置和運作狀態資訊,用於提供不同 Hadoop 系統角色之間的工作協調。

(5) Mahout,立即可用的 MapReduce 函式庫,常見的數值分析方法,業集分類和篩選方法,都有對應的函數可以呼叫。

這些專案的功能,可以來解決巨量資料的其他需求,而這些需求,不是每個人都需要,所以不在核心功能之中。也可以想見巨量資料的需求,還是因人而異,而且差異很大。

希望這篇有把 Hadoop 能做什麼說清楚,也希望有把巨量資料的其中一個面向說清楚。

2. 看看這個投影片吧!
超用心整理 Hadoop 的故事, 與架構演進過程

3. 練習各種實作囉..

Crawlzilla 安裝與 Demo 方法 (來源)

發表迴響