PDF、Word、一太郎などのバイナリ文書から、テキストデータを抜く

 いろいろなバイナリファイルからテキストデータを抜けるツールxdoc2txtで遊んでみました。これは、from EBシリーズ via Orbium保護されたPDFからテキストを抜き出すで知りました。これはスゴい!


ポイントは2つ。


  1. PDF、WORD、EXCEL、一太郎などの各種バイナリ文書から、テキスト要素を抽出する汎用テキストコンバータ。高速&強力ナリ
  2. 追加DLL(同サイトにあり)を併用することでパスワード無しで暗号化されたPDFから抜くことも可能


続きを読む "PDF、Word、一太郎などのバイナリ文書から、テキストデータを抜く"

| | コメント (0) | トラックバック (0)