Hadoopメモ（主にScala利用）

Hadoopの導入（CDH3系および0.20利用）

Hadoopとはどんなものかをぼんやりと説明

1台構成の擬似分散モードの導入手順

4台構成でNameNodeとDataNodeを動かした際の手順

4台構成でJobTrackerとTaskTrackerを動かした際の手順

Clouderaが後悔しているVMイメージを使ってVirtualBox上で動かしてみる

Impalaを試す目的で、impala-shellからいろいろコマンドを打ち込んで結果を見てみる。

Eclise、Maven、Scalaを使ったMapReduce開発の環境構築とか

CDH3、Scala、Kuromojiで形態素解析しつつ日本語WordCount

LuceneのTokenizerやFilterでテキストを整形してから単語を取り扱ってみる

Mapperのメモリ上で集約するin-mamper combining

Mapperでやるとずれるからカウントして後で計算するみたいな

分散はさせずローカルモードでHBaseを導入、シェルで利用

Scalaを利用してHBaseへのデータの投入や抽出等を行う

hbase rest startで起動したサーバを利用してみる

hadoop fs -lsなどのHDFS操作用のシェルコマンドについて

TextやVLongWritableなどの情報やArrayWritableやMapWritableのサンプルコード

MapperやReducerにログを埋め込んだ際の出力先について

高速で低圧縮率な圧縮ライブラリ、SnappyをCDH3で利用したメモ