2014年3月24日月曜日

CDH4を使ってのHadoop + HIVE インストール備忘録(Ubuntu 12.10)

新しいモジュールでDistributed Computingの授業があるので、UbuntuにHadoopとHiveを入れておこうと思って始めたのですが、不慣れでかなり手間取ってしまい、丸一日潰してしまいました。。。こういうインフラ系のことって本当に難しいんですね・・・

また同じことはできないと思うので、忘れないように残しておきます。

参考にしたブログや記事です。本当に助かりました。ありがとうございます。


  • https://gist.github.com/YoshihitoAso/9444292
  • http://kakakikikeke.blogspot.jp/search?q=hive



上記を見ながら、「動かない!!なぜだ!??」と試行錯誤しながら、ようやく動くまでに至った経緯です。正直、Hadoopがどうやって動いているのか、hiveがどうして動いているのかわかっていませんが、自分がやったことは以下のとおりです。


まず、インストールするOSですが、Ubuntu12.10の64bitです。

Javaのインストール
$ sudo add-apt-repository ppa:webupd8team/java
$ sudo apt-get update
$ sudo apt-get install oracle-java7-installer
インストールが済んだら、以下のコマンドを叩いてバージョンを確認します。
$ java -version
java version "1.7.0_51"
Java(TM) SE Runtime Environment (build 1.7.0_51-b13)
Java HotSpot(TM) 64-Bit Server VM (build 24.51-b03, mixed mode)
続いて、JAVA_HOMEを設定します。homeにある隠しファイル「.bashrc」を開いて、以下をファイルの末尾に入力し保存します。
export JAVA_HOME=/usr/lib/jvm/java-7-oracle
export PATH=$PATH:$JAVA_HOME/bin
これをやったら、一度ログアウトして、JAVA_HOMEの変更を反映させるのを忘れないように!(それをやらずに、この後のCDHをインストールしたところ、エラー!って怒られました・・・)

CDH4をインストールします。
$ sudo dpkg -i cdh4-repository_1.0_all.deb
$ curl -s http://archive.cloudera.com/cdh4/ubuntu/precise/amd64/cdh/archive.key | sudo apt-key add -
$ sudo apt-get update
$ sudo apt-get install hadoop-conf-pseudo
どうやら、インストールしたときに、hdfsユーザーというものが作られているようです。そこで、ここからはhdfsユーザーで作業をします。
$ sudo su hdfs
コマンドラインが、「hdfs@」で始まるようになります。
そして、以下のコマンドを叩いて、Namenodeをフォーマットします。
$hdfs namenode -format
そしたら、コマンドラインに「exit」と入力してhdfsユーザーから抜けます。
続いて、以下のコマンドをターミナルに入力して、HDFSを起動します。ちなみに止めるときはstartの代わりにstopです。
for service in /etc/init.d/hadoop-hdfs-*
do
sudo $service start (止めるときは、ここのstartをstopに変える)
done
startingほにゃららみたいなメッセージが何回か現れると思います。 それを見届けてから、何も考えずに以下を打ち込みます。
$ sudo su - hdfs
$ hadoop fs -mkdir /tmp 
$ hadoop fs -chmod -R 1777 /tmp
$ hadoop fs -mkdir /var/log/hadoop-yarn
$ hadoop fs -chown yarn:mapred /var/log/hadoop-yarn
$ hadoop fs -mkdir /tmp/hadoop-yarn/staging
$ hadoop fs -chmod -R 1777 /tmp/hadoop-yarn/staging
$ hadoop fs -mkdir /tmp/hadoop-yarn/staging/history/done_intermediate
$ hadoop fs -chmod -R 1777 /tmp/hadoop-yarn/staging/history/done_intermediate
$ hadoop fs -mkdir /user/$USER
$ hadoop fs -chown hdfs /user/$USER
そして、HIVEを使うために、/userの権限を変更します。(これをやらなかったために、HIVEを起動して、テーブル作ったときに、Permission Deniedのエラーが出てハマりました。。。。)
$sudo -u hdfs hadoop dfs -chmod 777 /user
上記がうまくの権限変更がうまく行っているか、確認します。
$sudo su hdfs (改めてhdfsでログイン)
$ hadoop fs -ls /
Found 3 items
drwxrwxrwt   - hdfs supergroup          0 2014-03-23 22:13 /tmp
drwxrwxrwx   - hdfs supergroup          0 2014-03-23 22:02 /user
drwxr-xr-x   - hdfs supergroup          0 2014-03-23 18:26 /var
続いて、YARNを起動してみます。
sudo service hadoop-yarn-resourcemanager start
sudo service hadoop-yarn-nodemanager start
sudo service hadoop-mapreduce-historyserver start

そして、HIVEをインストールします。
※これはhdfsユーザーではなくrootユーザーでやります。
$ wget http://mirror.tcpdiag.net/apache/hive/stable/hive-0.11.0.tar.gz
$ tar xzf hive-0.11.0.tar.gz
$ mkdir /usr/local/hive
そしたら、hive-0.11.0の中身を新しく作った/usr/local/hiveに移します。
次に、環境変数を設定します。また、homeにある隠しファイル「.bashrc」を開いて以下をファイルの末尾に追加して保存します。
export HIVE_HOME=/usr/local/hive
export PATH=$HIVE_HOME/bin:$PATH
また、一度ログアウトし、再度ログイン。ターミナルで、$echo $HIVE_HOMEを叩いて、ちゃんと反映されているか確認。続いて、/hive/confに入っている各種テンプレートを本番用に変更します。
$cd $HIVE_HOME
$mkdir logs
$cd /usr/local/hive/conf
$mv hive-log4j.properties.template log4j.properties
$mv hive-env.sh.template hive-env.sh
$chmod 755 hive-env.sh
$mv hive-exec-log4j.properties.template hive-exec-log4j.properties
$mv hive-default.xml.template hive-site.xml
これで、最後にhiveが動くかどうか・・・・
$hive (これはrootユーザーです)
それで、hive>となったら、まずはshow databases;を叩いてみます。

hive> show databases;
OK
default
test
Time taken: 3.108 seconds, Fetched: 2 row(s)
で、create tableなど試してみて、きちんと動いているようであれば、無事インストール終了です。

0 件のコメント:

コメントを投稿