ctrans.org

中国語単語分割ツール Segtag

Segtagは簡体字中国語のテキストを単語単位に分割するツールです。
用途は?と聞かれると困りますが、処理後のテキストが読みやすくなるのは確かです。[ダウンロード

  1. インストールとアンインストール
    インストールは適当なフォルダに解凍するだけ、アンインストールはそのフォルダを削除するだけです。
  2. 使い方
    まず、処理対象となる中国語テキストですが、segtagは簡体字中国語しか処理できません。文字コードはUnicode(UTF-16:リトルエンディアン)にして下さい。GB2312のファイルやUTF-8のファイルは扱えません(もちろんシフトJISも)。なお、現在α版であるため、処理対象のテキストは5000文字までに制限しています。それ以上は無視します。このツール自体はコマンドラインから使います。segtagをインストールしたフォルダに移動して、次のように入力下さい。
    segtag.exe hoge.txt
    ※hoge.txtの部分は、処理対象のテキストに置き換えて下さい。
    処理が終了すると、segtagのインストールされたフォルダにsegtag.logが作成されます。このファイルに単語分割後のテキストが出力されています。適当なエディタで開いて下さい。なお、segtag.logの文字コードもUTF-16です。
  3. 処理結果について
    完全に単語を分割することは出来ません。辞書に未登録の単語は、間違いなく分割できません。そのほかにも文法的に分割が難しいもの、処理方法の関係でうまく分割できない単語があります。
  4. 著作権など
    本ツールの著作権は作者竹内が所有しています。

※現在、このツールの更新は停止しています。

2005-07-04 12:32:41
permalink | Software

←Palm用中国語辞書 | top | PDIC用中国語辞書→

Post a Comment

HTMLタグは適用されません。不適切と判断されたコメントはブロックされます。

:

:

: