ctrans.org

PDIC用の辞書を作成する

Unicode版のPDICが登場したことで、電脳上で中国語辞書を構築することが非常に容易になりました。自作の単語帳やインターネット上で公開されている各種用語集など、PDIC形式の辞書に変換しておけば、用語の一元管理が可能となり、翻訳作業や中国語の学習を進める上で非常に便利です。ここでは、インターネット上の各種用語集をPDIC用に変換する手順を紹介したいと思います。

はじめに

これまでPDICを使用したことがない方は、用語集を作成する前にその便利さを体験し、操作に慣れておくことをおすすめします。筆者はこちらのページでPDIC用簡易中国語辞書を公開しています。PDICとこの辞書をダウンロードし、まずは辞書環境を構築した上で、以下を閲覧下さい。

  1. PDIC用中国語辞書
  2. PDIC/Unicode

用意するもの

ネット上で公開されている用語集などは、そのままではPDIC用の辞書とすることが出来ません。データを指定された形式に編集、整形する必要があります。また、Unicode版のPDICにデータを登録するには、そのデータの文字コードがUnicodeでなくてはなりません。こうした条件をクリアするために、まずはUnicodeファイルの読み書きが出来るエディタを用意しましょう。筆者のおすすめはEmEditorですが、以下のページでもいくつかUnicode対応のテキストエディタを紹介していますので、参照の上、気に入ったものをインストールして下さい。(なお、MS-Wordで加工する方法も紹介しますのでWordユーザはそちらもご覧下さい)

各種エディタ紹介

もとになるデータをダウンロードする

さて、準備が整ったら練習用のデータをダウンロードしてきましょう。上述した筆者が公開している辞書は、収録語数が40000語に満たないささやかなものです。業務や学習で使用するには頼りないので、辞書グループに大規模辞書を追加して、PDICをフル活用したいと思います。

ネット上には中国語と英語が対訳になっているファイルが多数公開されています。筆者の知る限り、そうした各種ファイルの中で収録語数がもっとも多いのがLDCが公開している「Chinese-to-English Wordlist (version 2.0) 」です。収録語数計12万語の何とも頼もしい中英辞書ファイルです。同じページ内には英中辞書ファイルもありますので、両方を上手く加工すれば市販の「快译通」のような環境を無料で構築することが可能です。

Chinese-to-English Wordlist (version 2.0) [from LDC]

このファイルは右クリックから「対象をファイルに保存」を実行してダウンロードしてください。ダウンロードしたファイルをわかりやすい場所に解凍してください。出来たらいよいよ加工に入ります

データの整形

まずは落としてきたデータを開いてみましょう。エディタなどで開く場合は、文字コードに注意してください。LDCの辞書ファイルは、GB2312という簡体字用の文字コードで書かれています。ファイルを開くときは、文字コードにGB2312を指定して開いてください。

このファイルの辞書形式は、見出し語と英訳をタブ(空白)で区切ったシンプルなものです。訳語の前後にはなぜかスラッシュ(/)が挿入されており、見出し語に複数の訳語が当てはまる場合も、スラッシュで単語間を区切ってあります。

催泪 [tab] /lachrymosity/lacrimation/

今回はこのファイルをPDIC用の「一行テキスト形式」という形式に整形します。面倒ではありますが、辞書というものは一定の書式を備えていないと、検索や登録が出来ないものです。大した手間ではありませんので、ちょちょいと片づけてしまいましょう。PDICの「一行テキスト形式」は以下の通りです。

一行テキスト形式は、見出語、訳語、用例が一行で表される形式です。

例:見出語 /// 訳語 / 用例

見出語部と訳語部の区切りは" /// "(半角スペース+スラッシュ3つ+半角スペース)です。訳語部と用例部の区切りはPDICテキスト形式と同じ、" / "(半角スペース+スラッシュ1つ+半角スペース)です。訳語部、用例部には改行コードを含めることが出来ます。改行コードは" "(半角スペース+円マーク+半角スペース)です。

つまり、LDCのファイルをPDIC用の一行テキスト形式に整形するには、

  1. 見出し語と英訳部分の間に挿入されているタブを「 /// 」に置換する
  2. 英訳部分の「/」が邪魔なので「.(ピリオド)」に置換する
  3. すべてのスラッシュをピリオドに置換すると、訳語の前後に置かれたスラッシュも変換してしまうので、その部分を直す。

と、このような手順を踏む必要があります。ただし、順番としては2、3、1の順番で行います。先にタブを「 /// 」に変換してしまうと、残りの処理が面倒ですからね。それでは始めましょう。

エディタの置換メニューを実行してします。ダイアログが表示されたら、検索する文字列に「/」置換する文字列に「.」を入力します。入力できたら、全て置換を実行してください。以下は筆者が使用しているEmEditorの画面です。

次に余分なピリオドを削除します。検索する文字列に「\t.」置換する文字列に「\t」

を入力します。これはもともと英訳部分の先頭についていたスラッシュが、手順1でピリオドになったものを削除する処理です。ちなみに「\t」はタブを表すエスケープシーケンスです。入力できたら同じく全て置換を実行します。

次も余分なピリオドの削除です。検索する文字列に「.\n」置換する文字列に「\n」を入力します。これはもともと英訳部分の最後についていたスラッシュが、手順1でピリオドになったものを削除する処理です。入力できたら同じく全て置換を実行します。

最後にタブを「 /// 」に変換します。検索する文字列に「\t」置換する文字列に「 /// 」を入力します。

以上で整形処理は終了です。とても大きなファイルに対する処理なので、置換にも時間がかかるかもしれません(場合によってはハングアップするかも知れません)。スクリプトなどの知識がある方は、こうした処理を一括で行ってくれる簡単な文字列処理用スクリプトを作っておくと便利だと思います。最後にメニューから「名前を付けて保存」を実行し、文字コードを「Unicode」に変更し、適当な名前を付けて保存します。ファイル名はなんでも構いませんが、文字コードを「Unicode」にすることだけはお忘れなく。

辞書の変換

さて、面倒な整形処理が終わったら、辞書への変換処理です。今度は私達は何もする必要がありません。PDICが全てやってくれます。

PDICを起動し、メニューの「Tools」から「辞書の変換」を実行してください。

上の画面の様に「転送元辞書」のファイル形式を「一行テキスト形式」とし、転送先辞書の形式を「PDIC形式」とします。ファイル名のところは、先ほど整形したファイル名を入力します。転送先辞書名のところは、任意の名前を入力して構いません。筆者はとりあえず「ldc.dic」としました。最下部で重複入力されている単語の処理方法が選択できます。ここでは「区切り文字を挿入して付け加える」方式を選んでいます。

準備が出来たら「OK」を押すだけです。単語がどんどん吸い上げられていく様子はなかなか快感です。完成した辞書は、転送先ファイルのところで指定したパスに出力されています。これでPDIC用辞書の完成です。

辞書グループへの登録

最後に出来上がった辞書を、PDICの辞書グループに登録します。PDICの「ファイル」メニューから「辞書グループの編集」を実行してください。

下方にある「辞書追加」ボタンを押します。

上のように追加する辞書を選択するためのダイアログが表示されます。先ほど作成した辞書を選択してOKを押します。

「辞書グループの編集」ダイアログの画面左側「使用辞書」の欄に、自作辞書が登録されていれば成功です。「OK」ボタンを押して作業終了。お疲れさまでした。さっそく適当な中国語を入力して、追加した辞書が上手く検索できるか試してみてください。

今回はLDCの辞書ファイルを加工しましたが、ネット上に公開されている各種用語集も、PDICの一行テキスト形式にさえ加工すれば、どんなファイルでも辞書に出来ます。そうしたテキスト加工に際し、この文章が少しでも参考になれば幸いです。翻訳者にとって、辞書ファイルの整備はとても大切な作業です。素晴らしいツールがあるわけですから、大いに活用したいですね。

2005-07-04 14:01:28
permalink | Tips

←PDIC用中国語辞書 | top | 中国語変換ツール PinConv+→

Post a Comment

HTMLタグは適用されません。不適切と判断されたコメントはブロックされます。

:

:

: