2009年12月19日土曜日

Hadoop動作確認

ざっとHadoopの動作確認のことを書いておきます。

Hadoop-0.20の基本(HDFSとMapReduce)動作の確認です。

1. 正常動作の確認

1-1. Web UIから概要確認

1-1-1. HDFS

http://ネームノード:50070/を閲覧して以下を確認します。

・http://ネームノード:50070/dfshealth.jspへリダイレクトされること。
・トップページの内容を確認
 - 一行目が「NameNode 'ネームノード名:ネームノードのポート'」であること。
 - ポートは、core-site.xmlのfs.default.nameのポート
  例 「NameNode 'nm01:8020'」
 - Started:, Version: が、適切な値であること。
 - "Browse the filesystem"のリンクをたどって、次のページが、「Contents of directory /」で、正常に表示されること。
 - Cluster Summaryで、
  - Live Nodesの数が適切(データノードの数)であること。
  - Dead Nodesが0であること。
 - Live Nodesのリンクをたどって、次のページが、データノード一覧が正しいか確認。
 - NameNode Storageが、期待通りであること。
  - TypeがIMAGE_AND_EDITSであること。
  - StateがActiveであること

1-1-2. MapReduce

http://ネームノード:50070/を閲覧して、以下を確認します。

・http://ネームノード:50070/jobtracker.jspへリダイレクトされること。
・トップページの内容を確認
 - 一行目が「ネームノード名 Hadoop Map/Reduce Administration」であること。
  例 「nm01 Hadoop Map/Reduce Administration」
 - StateがRUNNINGであること。
 - Started:, Version: が、適切な値であること。
 - Cluster Summaryで、Nodesの数が適切(タスクトラッカーのノードの数)であること。
 - Nodes数のリンクをたどって、次のページが、タスクトラッカーのノード一覧が正しこと。

1-2. CLIから、サーバー内の様子を確認

・各ノードでhadoop関連のjavaのサービス起動状況を確認(jpsコマンド)
・各ログを確認
・マスターノードのデータを確認:セカンダリーマスターによるログの切り捨て
・セカンダリーマスターノードのデータを確認:マスターからデータがコピーされていること

1-3. CLIからテストを実行

・HDFSで、フォルダを追加する、削除する、ファイルを置く、見る、削除する
・MapReduceでサンプルを実行し結果を確認する。
 - 計算規模を設定できるサンプルで全ノードの動作テスト(pi計算など)
 - 明示的にHDFS上に置いたファイルを使ったテスト(wordcountなど)

--

0 件のコメント:

コメントを投稿