一般的によく使われている漢字を知りたかったので(使用頻度の低い文字を足切りしたかった)、Wikipediaの記事内とTwitterの手持ちのデータをざっくりとカウントして、出現数上位3000を出してみた。
ググれば「漢字出現頻度表」とか普通に出てくるので、一般的にはそちらを参考にした方が良いかもしれない。
Wikipediaは毎度お馴染みのjawiki-latest-pages-articles.xmlを利用。2012年6月のデータ。
Twitterは2010年11月〜2011年5月の間に収集した日本語Tweet(日本語判定条件:平仮名か片仮名を含む)、4億件ほどを利用。ちょっと古い。
実行前にNFKCで正規化している。
漢字判定はざっくりとUnicodeBlockが「CJK」で始まるもの(記号を除く)を取っている。
Scalaでこんな感じで判定。
UnicodeBlock.of( c ).toString().startsWith("CJK") && Character.isLetter( c )
ちょっと粗い判定。変なものはTOP3000には入らないだろうと信じてる(未検証)。
せっかくなので軽く内容を見比べてみる。
まずはTOP10について。Wikipediaはこんな感じ。
Wikipediaの出現漢字TOP10 年 13833424 日 8811831 月 6576821 大 4980632 本 4643262 学 4197028 人 3960287 国 3546062 中 3202836 一 2996436
文書の性質上、「年月日」が多く出現している。
次にTwitter。
Twitterの出現漢字TOP10 日 67625404 人 44935992 今 37328820 大 31233516 見 27927061 気 27336321 出 25985786 一 25881205 時 25793888 本 24967852
「見」「出」などの動詞が出現している。
WikipediaのTOP100に入ってるのに、TwitterのTOP300以内に出現しない漢字を出してみる。
Wikipediaの特徴的な漢字 駅 和 町 号 村 設
確かにこの辺は百科事典特有という感じもしなくもない。
次にTwitterのTOP100に入っているのに、WikipediaのTOP300以内に出現しない漢字はこちら。
Twitterの特徴的な漢字 今 思 笑 私 何 感 食 寝 好 良 様 買 味 聞 俺 先 仕
動詞が多い。逆に言えばWikipediaはこれらの動詞の出現頻度が低い。
常用漢字(2136文字)をこのページから引っ張ってきて、ここに含まれていないけど使用頻度が高い文字を見てみる。
WikipediaのTOP1000にいる常用漢字外文字 々 伊 之 彦 弘 阿 也 龍 頁 智 幌
人名漢字が多い。
次にTwitter。
TwitterのTOP1000にいる常用漢字外文字 々 嬉 萌 伊 綺 嘘 菅 貰 縺 繋 呟 也
だいたい有名どころが並んでいる。
「々」はCJK_SYMBOLS_AND_PUNCTUATIONに含まれてて分類的には漢字ではないけど、機械的に扱う場合は漢字としてしまった方が何かと便利なので入れておく。
次にTOP1001〜2000にいる常用漢字じゃない文字について見てみる。
WikipediaのTOP1001〜2000にいる常用漢字外文字 浩 澤 昌 宏 笠 菱 幡 栗 筑 庄 吾 祐 旭 李 嘉 輔 乃 嶋 桂 牡 柏 淳 篇 菅 洲 蓮 柴 蘭 綾 桐 國 梁 薩 哉 篠 磐 辰 翔 亮 堺 蒲 斐 鷹 蘇 竣 函 雀 晃 禄 圭 劉 瑞 辻 敦 萩 駿 磯 繋 晋 靖 芦 牝 牌 琉 狼 卿 秦 倶 宋 槻 應 笹 猪 鴨 橘 聡 藝 曰 魏 學 巳 鳳 淵 烏 湘 萌 俣 斯 淀 讃 紗 播 諏 於 牟 廣 條 鷲 嶺 蒼 祀 樽 鳩 夷 胡 楊 楠 叩 眞 纂 杏 萬 叢 鐵 遼 湊 梶 揃 朋 栖 庵 霞 站 毅 玲 窪 菩 哨 帖 牽 釧 渕 耶 逢 隼 噂 稀 獅 槍 遥 砦 荻 畠 蝶 樋 陀 灘 邑 稔 殆 茅 洛 隈 厩 爾 癌 馴 郁 葵 鞍 讐 苑 趙 杜 燕 佑 寅 樺 巴 圓 濱 喧 舘 喰 冨 蒙 粟 箕 杵 輌 櫻 讀 剥
辞書という性格上か、日常的には使用しなさそうな言葉もちらほら見られる。
TwitterのTOP1001〜2000にいる常用漢字外文字 彡 龍 垢 艸 叩 巳 喋 阿 之 智 揃 晒 幌 厨 呑 噂 彦 溜 噌 噛 澤 惚 只 浩 綾 翔 曝 繧 勿 騙 蓮 覗 逢 乃 糞 云 喰 喧 雀 輔 栗 嶋 嘩 馴 繝 杏 柏 餃 濡 舐 溢 叶 揉 吾 鳩 蒼 弘 贅 咳 煽 柴 悶 儲 撫 宏 掴 剥 倶 蘭 醤 雛 飴 兎 祐 殆 呆 淳 鷹 牡 敦 笠 亮 罠 桐 哉 櫻 狼 胡 〆 猥 篠 禿 洒 磯 鯖 姦 磐 愕 猪 辻 炒 斐 歪 珈 琲 尖 迄 絆 遥 湘 怯 爺 叱 惹 旭 頬 蘇 紗 圭 莉 菱 舘 蕎 國 萩 篇 馳 痒 遽 烏 幡 鯛 曰 蟹 凛 李 桂 吊 佑 鴨 洲 薇 痺 薔 淹 辿 姐 喘 葵 澪 函 蝶 檎 玲 眩 梶 霞 苺 昌 筑 姜 筈 此 屍 詫 丿 椿 苑 柚 蒲 撒 狐
彡とか艸は顔文字に使われている文字だと思われる。
常用漢字だけど上位2500に入ってない文字を出してみる。まずはWikipediaから。
Wikipediaの低出現常用漢字 畏 萎 畝 謁 凹 臆 虞 苛 禍 寡 蚊 楷 諧 劾 慨 嚇 渇 且 堪 款 憾 毀 糾 嗅 矯 斤 謹 憬 倹 繭 錮 乞 拷 傲 墾 采 搾 刹 蚕 恣 摯 諮 璽 𠮟 酌 羞 醜 遵 宵 詔 拭 芯 薪 裾 斥 拙 窃 栓 煎 羨 詮 箋 漸 繕 塑 痩 遜 唾 惰 怠 濯 緻 衷 酎 弔 嘲 捗 朕 逓 迭 塡 痘 謄 凸 貪 罵 陪 剝 箸 氾 煩 頒 罷 訃 賦 侮 憤 陛 塀 弊 蔽 頰 喩 愉 沃 酪 辣 濫 痢 慄 瞭 厘 賂
苛烈の「苛」、謹慎の「謹」等、割と使いそうな文字も入っている。
Twitterの低出現常用漢字 畏 咽 姻 畝 謁 旺 翁 虞 禍 寡 楷 諧 劾 嚇 褐 款 憾 汽 毀 糾 斤 憬 倹 繭 舷 弧 錮 勾 坑 侯 墾 采 柵 桟 蚕 恣 諮 璽 𠮟 儒 淑 殉 遵 抄 肖 硝 詔 礁 嘱 薪 帥 斥 脊 漸 租 塑 踪 堆 緻 嫡 衷 鋳 弔 勅 朕 逓 迭 塡 痘 謄 屯 陪 剝 舶 氾 汎 畔 斑 頒 碑 罷 賓 訃 賦 墳 丙 塀 哺 俸 倣 剖 紡 頰 岬 冶 喩 庸 窯 沃 酪 辣 濫 吏 硫 侶 瞭 厘 賂 麓
酪農の「酪」とか比喩の「喩」とか、割と使いそうな文字も入っている。
じゃ、上位3000にも入ってないものを出してみよう。
Wikipedia 萎 楷 諧 慨 嚇 憾 憬 倹 錮 恣 摯 𠮟 酌 拙 羨 箋 塑 唾 惰 衷 嘲 捗 朕 塡 痘 謄 貪 剝 頰 辣 厘 賂
Twitter 畝 謁 虞 楷 諧 劾 倹 舷 錮 墾 桟 蚕 諮 璽 𠮟 儒 詔 嘱 斥 租 塑 嫡 衷 朕 逓 塡 痘 謄 陪 剝 罷 丙 頰 沃 吏 厘
まぁ、確かにこの辺はほとんど使わないか。拙攻の「拙」とか儒教の「儒」とかは使う気もするけど。
上の結果を見て上位3000じゃ足りない気もしてきたので上位5000も出しておく。
にしても漢字は種類が多い。ニュースピークも悪くないかもと思えるくらい種類が多い。