Wikipediaデータ利用参考サイトリンク集

データインポート関連

Wikipediaの本文やページタイトルを含んだ情報をダウンロードできます。形式はSQLのダンプファイルやXMLです。

ダウンロードした情報を格納するテーブルの構成を説明してます。

Wikipediaに書かれているダウンロードデータの取り扱いにに関する説明ページ。

importDump.phpを使用したデータのインポート手順を解説しています。

jawiki-latest-pages-meta-current.xml.bz2をxml2sqlを使用してインポートする際の手順が書いてあります。

Hadoop使ってMapReduceでWikipediaのデータを取り扱っている人のページ。

tf-idfでpages-articles.xml.bz2の内容を解析して、特徴語を出しています。perlのソースも載っています。

Wikipediaのデータをプレーンテキストに変換し、一定のサイズに分割するアプリケーション。

Wikipediaのデータから言葉の上位下位を抽出するRubyのソース。箇条書きなどのルールがありそうな場所から取得するようです。

FreePWINGを利用してJIS X 4081形式に変換する手順が書いてあります。これを使ってザウルスでWikipediaが見れるようにしている人もいるようです。

Wikipediaのデータからシソーラス辞書を構築した際の手法・結果などが書かれた論文。