パワーポイントからテキストを抽出したいことがたまにあります。そういうときは、パワーポイントやPDFなどからテキストを抽出してくれる「xdoc2txt」が大変便利なのですが、凝ったレイアウトのパワーポイントなどを処理させると、文章の順番がおかしくなったり、テキストボックス内の文章が抽出できなかったりします*1。
これまではテキスト抽出をあきらめるか、PPTファイルからひとつずつコピペするかしていたのですが、PPTファイルをPDF化すれば上手く処理できることに気づきました。
PDF化にはPrimoPDFを使っています。このツールは仮想プリンタとして動作しますので、テキストを抽出したいPPTファイルを開き、ファイルメニューの「印刷」でプリンタに「PrimoPDF」を選択し、お好みで「単純白黒印刷」をチェックしてから「OK」を押すだけでファイルをPDF化することができます。

出来上がったPDFファイル上で、「すべて選択」→「コピー」して、テキストエディタに張り付ければ、テキストの抽出完了です。なお、PrimoPDFの「PDF Settings」を「Screen」で実行したところ、文字化けが起きましたので、「Print」にしておくのが吉だと思います。
関連:パワーポイントに含まれる全ての文字を、テキストファイルとして取り出すことはできるのでしょうか?
関連:フォント埋め込み機能を備えたフリーのPDF文書作成ソフト「PrimoPDF」
*1:RTF形式で保存しても同様です。ワードの文字数カウント機能もテキストボックス内の文字数がカウントできないので非常に不便です。MSがなんとかしてくれるといいんですけど。
JCountならパワーポイントだけでなく、エクセル、ワードファイルでもテキストボックス、オートシェイプ内の文字を簡単に抽出できます。文字コードはUnicode(UTF-8)なので、言語を選びません。
Posted by bgworker at 2006-10-29 19:23:37
bgworker様:
情報ありがとうございました。
早速使わせていただきます:-)
Posted by ctrans at 2007-01-28 20:15:43
HTMLタグは適用されません。不適切と判断されたコメントはブロックされます。