形態素解析
Mecab、mecab-ruby、IAP、NAIST、UniDic辞書のインストール手順と簡単なサンプル
MeCabをコマンドラインから実行した際に指定できる引数と、その実行サンプル一覧
日本テレビ東京というどこで分けるか判別し辛い言葉を使って、コスト計算について解説
MeCabの辞書に単語を追加したり再学習してコスト調整する方法等
複数の辞書による解析結果を並べて表示します。どの辞書を使うか悩んだ時などにお使いください
Igoのインストールと軽く使ってみた感想などを
辞書内包でLuceneでもSolrでも使える便利なライブラリ
SearchモードがおしゃれなKuromojiを利用したメモ
mecab-python3で形態素解析する
言語資源
Wikimediaが公開しているDBのダンプ等のデータファイルの入手方法と、内容の説明
Solrサーバを立ててWikipediaのデータを登録する
対象を絞ったIME辞書は良い教師になってくれるかもしれない
不自然言語資源の宝庫であるTwitterからTwitter4JでTweetを集めてみる
その他
WikipediaのデータとLuceneの類似検索を使って文書のカテゴリ分類をしてみる
K平均法でクラスタリングされていく過程をJavaScriptで書いてみた
レーベンシュタイン距離が辿る編集過程をJavascriptで実演してみた
対象文字列が平仮名かカタカナか漢字かなどを判定する(サンプルコードはJava)
オープンソースのWeb検索システムでクローラ機能も持ってる、Nutchについて
気分的にHadoopについても取り扱ってます