形態素解析
LinuxにMecabとmecab-rubyをインストールする
Mecab、mecab-ruby、IAP、NAIST、UniDic辞書のインストール手順と簡単なサンプル
MeCabのコマンドライン引数一覧とその実行例
MeCabをコマンドラインから実行した際に指定できる引数と、その実行サンプル一覧
日本テレビ東京で学ぶMecabのコスト計算
日本テレビ東京というどこで分けるか判別し辛い言葉を使って、コスト計算について解説
MeCabの辞書をカスタマイズする
MeCabの辞書に単語を追加したり再学習してコスト調整する方法等
IPA、NAIST、UniDic、JUMANの辞書実演比較
複数の辞書による解析結果を並べて表示します。どの辞書を使うか悩んだ時などにお使いください
Java製形態素解析エンジン「Igo」を試してみる
Igoのインストールと軽く使ってみた感想などを
Java製形態素解析ライブラリ「lucene-gosen」を試してみる
辞書内包でLuceneでもSolrでも使える便利なライブラリ
Java製形態素解析ライブラリ「Kuromoji」を試してみる
SearchモードがおしゃれなKuromojiを利用したメモ
PythonでMeCab + mecab-ipadic-neologdを使うまで
mecab-python3で形態素解析する
言語資源
Wikipediaから得られるデータファイル一覧
Wikimediaが公開しているDBのダンプ等のデータファイルの入手方法と、内容の説明
WikipediaをSolrで検索できるようにする
Solrサーバを立ててWikipediaのデータを登録する
フリーのIME・ATOKユーザ辞書リンク集
対象を絞ったIME辞書は良い教師になってくれるかもしれない
Twitter4JでTweetを収集してみる
不自然言語資源の宝庫であるTwitterからTwitter4JでTweetを集めてみる
その他
WikipediaとLuceneを使ったカテゴリ分類
WikipediaのデータとLuceneの類似検索を使って文書のカテゴリ分類をしてみる
JavaScriptでK平均法の実演
K平均法でクラスタリングされていく過程をJavaScriptで書いてみた
JavaScriptでレーベンシュタイン距離の実演
レーベンシュタイン距離が辿る編集過程をJavascriptで実演してみた
Unicodeの文字ブロックについて
対象文字列が平仮名かカタカナか漢字かなどを判定する(サンプルコードはJava)
Nutch調査録
オープンソースのWeb検索システムでクローラ機能も持ってる、Nutchについて
Hadoopメモ
気分的にHadoopについても取り扱ってます