Segtagは簡体字中国語のテキストを単語単位に分割するツールです。
用途は?と聞かれると困りますが、処理後のテキストが読みやすくなるのは確かです。[ダウンロード]
- インストールとアンインストール
インストールは適当なフォルダに解凍するだけ、アンインストールはそのフォルダを削除するだけです。
- 使い方
まず、処理対象となる中国語テキストですが、segtagは簡体字中国語しか処理できません。文字コードはUnicode(UTF-16:リトルエンディアン)にして下さい。GB2312のファイルやUTF-8のファイルは扱えません(もちろんシフトJISも)。なお、現在α版であるため、処理対象のテキストは5000文字までに制限しています。それ以上は無視します。このツール自体はコマンドラインから使います。segtagをインストールしたフォルダに移動して、次のように入力下さい。
segtag.exe hoge.txt
※hoge.txtの部分は、処理対象のテキストに置き換えて下さい。
処理が終了すると、segtagのインストールされたフォルダにsegtag.logが作成されます。このファイルに単語分割後のテキストが出力されています。適当なエディタで開いて下さい。なお、segtag.logの文字コードもUTF-16です。
- 処理結果について
完全に単語を分割することは出来ません。辞書に未登録の単語は、間違いなく分割できません。そのほかにも文法的に分割が難しいもの、処理方法の関係でうまく分割できない単語があります。
- 著作権など
本ツールの著作権は作者竹内が所有しています。
※現在、このツールの更新は停止しています。
Post a Comment