データインポート関連
本家ダウンロードサイト
Wikipediaの本文やページタイトルを含んだ情報をダウンロードできます。形式はSQLのダンプファイルやXMLです。
本家データ構造説明ページ
ダウンロードした情報を格納するテーブルの構成を説明してます。
データベースダウンロード(Wikipediaの記事)
Wikipediaに書かれているダウンロードデータの取り扱いにに関する説明ページ。
Wikipediaデータの利用方法について
importDump.phpを使用したデータのインポート手順を解説しています。
wikipediaのダウンロード&データベースにインポート
jawiki-latest-pages-meta-current.xml.bz2をxml2sqlを使用してインポートする際の手順が書いてあります。
WikipediaのデータをImportする
jawiki-latest-pages-meta-current.xml.bz2をxml2sqlを使用してインポートする際の手順が書いてあります。
データ利用関連
TDU_CDL_mori_index
Hadoop使ってMapReduceでWikipediaのデータを取り扱っている人のページ。
TFIDFを使ってwikipediaの各キーワードの特徴量を抽出
tf-idfでpages-articles.xml.bz2の内容を解析して、特徴語を出しています。perlのソースも載っています。
WP2TXT 0.3.0 公開
Wikipediaのデータをプレーンテキストに変換し、一定のサイズに分割するアプリケーション。
上位下位関係抽出ツール: Hyponymy extraction tool
Wikipediaのデータから言葉の上位下位を抽出するRubyのソース。箇条書きなどのルールがありそうな場所から取得するようです。
wikipedia-fpw
FreePWINGを利用してJIS X 4081形式に変換する手順が書いてあります。これを使ってザウルスでWikipediaが見れるようにしている人もいるようです。
Wikipediaマイニングによるシソーラス辞書の構築手法
Wikipediaのデータからシソーラス辞書を構築した際の手法・結果などが書かれた論文。