2010年8月21日土曜日

CDH3

CDH3は、Cloudera社によるHadoopパッケージのバージョン3に相当するもので、2011春頃にリリース版、夏にリリースupdate1版がでました。(2010年、春頃にβ、夏(8月)にβ2、秋(10月)にβ3)。CDH(Cloudera’s Distribution for Hadoop)は、cloudera社によるHadoopのパッケージ(rpm, deb)で、インストール・更新を簡単に行うことができます。

CDH3では、前のCDH2から、大きく中身が変わったところがありますので、内容を、おさらいしておきます。きちんとした情報は、Cloudera社のブログ(CDH3beta2, CDH3, CDH3u1の記事)を見ましょう。

・Hadoop Core(HDFS, MapReduce)は、Hadoopの中心となる機能で、分散ファイルシステムのHDFSと、分散の計算のためのしくみのMapReduceが、入っています。初期のCDH(CDH1と呼ばれる前のCDH1)から入っていた機能で、パッケージとしてのブラッシュアップも重ねられてきています。Hadoopを実際に利用する(お仕事にも個人が手軽に試すにも)のに適していると思います。

・Pig, Hiveは、MapReduceを手軽に利用するためのフロントエンドのしくみです。MapReduce利用が目的の方も、一度、検討する価値があると思います。これらのパッケージも、初期のCDHから、存在しています。

・Sqoopは、2009秋ごろからあるHadoopとDBとでデータをやり取りするためのしくみです。Cloudera社製です。

・HBaseは、分散DB(KVS)の仕組みです。パッケージも、2009秋ごろからあります(CDH2のcontrib扱い)が、きちんとCDHに統合されたのは、CDH3からです。CDH3では、同時にZooKeeperのパッケージも再整理されたようです。

・ZooKeeperの単独パッケージは、CDH3からだと思います。CDH2では、HBaseのおまけパッケージでした。

・HUE(Hadoop User Experience)は、2009年秋頃に出たCloudera Desktopの新しいもののようです。Hadoopを便利に使うためのGUIのフロントエンドです。HUEの名前では、CDH3からです。また、CDH3からは、HUE上のアプリケーションとして、HiveのGUIフロンとエンドが追加されました。

・fuse(Mountable HDFS)もパッケージになっています。HDFSをマウントして利用するためのものです。一般的にあまり勧められないもののようですが、マウントできるのは、やっぱり便利かなあ、とも。

新しくパッケージに追加されたのは、以下の二つです。

・Flumeは、分散ログ収集のしくみです。他よりHadoopとの結びつきは薄いかもしれません。いろいろなサーバーからログを収集して、HDFSに集めることができます。集め先は、HDFSに限りませんが、たくさんのログを集めるなら、Flume+HDFSの組み合わせは検討に値するかと思います。

・Oozieは、Hadoopのワークフローのしくみです。MapReduce, Pig, Hiveなどの複数のプロセスをつないで記述してワークフローとして、それらを管理/実行するプラットフォームのようです。

このブログは、CDHを地味においかけてメモしています。CDH1用に書いた2009年ごろに書いた古い記事も、ぼちぼち最新の内容(CDH3)に更新してあります。書き始めた頃に比べてCDHの利用がポピュラーになったので、まじめに使う人は、他のいい記事を読むのがおすすめです。(2011年夏)

CDH3でHadoopを試す記事

Hadoop(1台構成)HBase,Hive,Pig,HUE,Oozie等(1台構成)Hadoop(複数台構成)
CentOSこちらHBase,Hive,Pig, HUE(旧Cloudera Desktop), Oozieこちら
UbuntuこちらHBase,Hive,Pig,HUE(旧Cloudera Desktop)

--
以上

0 件のコメント:

コメントを投稿