本を読む

読書やコンピュータなどに関するメモ

日本語テキストで使われている単語を辞書順にリストアップするワンライナー

テキストがUTF-8でMeCabがEUC-JP仕様の場合。

$ nkf -e text.txt | mecab -O chasen | grep -v '^EOS$' | nkf -w | sort -f -k 2,2 | cut -f 1 | uniq > wordlist.txt

校正とかの補助に。例えば、「Android」と「Anrdoid」、「すべて」と「全て」、「コンピュータ」と「コンピューター」が近くに並ぶ。

コメント

コメントの投稿

管理者にだけ表示を許可する

トラックバック

http://emasaka.blog65.fc2.com/tb.php/1042-c4faec75

 | HOME | 

Categories

Recent Entries

Recent Comments

Recent Trackbacks

Appendix

emasaka

emasaka

フリーター。
連絡先はこのへん

Monthly


FC2Ad