Hadoopの導入(CDH3系および0.20利用)
Hadoopとは
Hadoopとはどんなものかをぼんやりと説明
擬似分散モードのHadoop導入
1台構成の擬似分散モードの導入手順
完全分散モードのHadoop導入(NameNode編)
4台構成でNameNodeとDataNodeを動かした際の手順
完全分散モードのHadoop導入(JobTracker編)
4台構成でJobTrackerとTaskTrackerを動かした際の手順
Hadoopの導入(CDH4系利用)
VirtualBoxでCDH4を動かしてみる
Clouderaが後悔しているVMイメージを使ってVirtualBox上で動かしてみる
impala-shellを使ってみる
Impalaを試す目的で、impala-shellからいろいろコマンドを打ち込んで結果を見てみる。
MapReduce
ScalaでMapReduce(導入編)
Eclise、Maven、Scalaを使ったMapReduce開発の環境構築とか
Kuromojiで日本語WordCountしてみる
CDH3、Scala、Kuromojiで形態素解析しつつ日本語WordCount
LuceneのTokenizerを使ってテキストを扱う
LuceneのTokenizerやFilterでテキストを整形してから単語を取り扱ってみる
in-mapper combining
Mapperのメモリ上で集約するin-mamper combining
平均値の計算
Mapperでやるとずれるからカウントして後で計算するみたいな
HBase
HBaseの導入(ローカルモード)
分散はさせずローカルモードでHBaseを導入、シェルで利用
ScalaからHBaseを操作する
Scalaを利用してHBaseへのデータの投入や抽出等を行う
HBaseをRESTで操作する
hbase rest startで起動したサーバを利用してみる
その他
HDFSシェルコマンド一覧
hadoop fs -lsなどのHDFS操作用のシェルコマンドについて
Hadoop0.20のWritableに関するメモ
TextやVLongWritableなどの情報やArrayWritableやMapWritableのサンプルコード
MapReduceのログに関するメモ
MapperやReducerにログを埋め込んだ際の出力先について
Snappyを使ってみたメモ
高速で低圧縮率な圧縮ライブラリ、SnappyをCDH3で利用したメモ