CDH3では、前のCDH2から、大きく中身が変わったところがありますので、内容を、おさらいしておきます。きちんとした情報は、Cloudera社のブログ(CDH3beta2, CDH3, CDH3u1の記事)を見ましょう。
・Hadoop Core(HDFS, MapReduce)は、Hadoopの中心となる機能で、分散ファイルシステムのHDFSと、分散の計算のためのしくみのMapReduceが、入っています。初期のCDH(CDH1と呼ばれる前のCDH1)から入っていた機能で、パッケージとしてのブラッシュアップも重ねられてきています。Hadoopを実際に利用する(お仕事にも個人が手軽に試すにも)のに適していると思います。
・Pig, Hiveは、MapReduceを手軽に利用するためのフロントエンドのしくみです。MapReduce利用が目的の方も、一度、検討する価値があると思います。これらのパッケージも、初期のCDHから、存在しています。
・Sqoopは、2009秋ごろからあるHadoopとDBとでデータをやり取りするためのしくみです。Cloudera社製です。
・HBaseは、分散DB(KVS)の仕組みです。パッケージも、2009秋ごろからあります(CDH2のcontrib扱い)が、きちんとCDHに統合されたのは、CDH3からです。CDH3では、同時にZooKeeperのパッケージも再整理されたようです。
・ZooKeeperの単独パッケージは、CDH3からだと思います。CDH2では、HBaseのおまけパッケージでした。
・HUE(Hadoop User Experience)は、2009年秋頃に出たCloudera Desktopの新しいもののようです。Hadoopを便利に使うためのGUIのフロントエンドです。HUEの名前では、CDH3からです。また、CDH3からは、HUE上のアプリケーションとして、HiveのGUIフロンとエンドが追加されました。
・fuse(Mountable HDFS)もパッケージになっています。HDFSをマウントして利用するためのものです。一般的にあまり勧められないもののようですが、マウントできるのは、やっぱり便利かなあ、とも。
新しくパッケージに追加されたのは、以下の二つです。
・Flumeは、分散ログ収集のしくみです。他よりHadoopとの結びつきは薄いかもしれません。いろいろなサーバーからログを収集して、HDFSに集めることができます。集め先は、HDFSに限りませんが、たくさんのログを集めるなら、Flume+HDFSの組み合わせは検討に値するかと思います。
・Oozieは、Hadoopのワークフローのしくみです。MapReduce, Pig, Hiveなどの複数のプロセスをつないで記述してワークフローとして、それらを管理/実行するプラットフォームのようです。
このブログは、CDHを地味においかけてメモしています。CDH1用に書いた2009年ごろに書いた古い記事も、ぼちぼち最新の内容(CDH3)に更新してあります。書き始めた頃に比べてCDHの利用がポピュラーになったので、まじめに使う人は、他のいい記事を読むのがおすすめです。(2011年夏)
Hadoop(1台構成) | HBase,Hive,Pig,HUE,Oozie等(1台構成) | Hadoop(複数台構成) | |
CentOS | こちら | HBase,Hive,Pig, HUE(旧Cloudera Desktop), Oozie | こちら |
---|---|---|---|
Ubuntu | こちら | HBase,Hive,Pig,HUE(旧Cloudera Desktop) |
--
以上
0 件のコメント:
コメントを投稿