« ラウンドアップレディ | トップページ | ボク個人としては割烹着はどうかと思っていました »

PDF、Word、一太郎などのバイナリ文書から、テキストデータを抜く

 いろいろなバイナリファイルからテキストデータを抜けるツールxdoc2txtで遊んでみました。これは、from EBシリーズ via Orbium保護されたPDFからテキストを抜き出すで知りました。これはスゴい!


ポイントは2つ。


  1. PDF、WORD、EXCEL、一太郎などの各種バイナリ文書から、テキスト要素を抽出する汎用テキストコンバータ。高速&強力ナリ
  2. 追加DLL(同サイトにあり)を併用することでパスワード無しで暗号化されたPDFから抜くことも可能


いちばんスゴかったのは、Rational Rose モデリングデータ(拡張子mdl)からテキストを抜き出せたこと。どれどれ…



  • UseCase/UseCaseView
  • stereotype
  • superclasses
  • relationshiplist
  • quid , quidu (たぶんRoseモデル内のID)
  • visible/invisible
  • Attribute
  • name:value …などなど

( ´,_ゝ`) プッ まるみえじゃん …

… … …
… …

Σ(・o・;) ハッ!

い、いかん!悪いことしか考えていないぞ→オレ
…と、とにかく著作権法に気をつけて使いましょうね
--

このエントリーをはてなブックマークに追加

|

« ラウンドアップレディ | トップページ | ボク個人としては割烹着はどうかと思っていました »

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック


この記事へのトラックバック一覧です: PDF、Word、一太郎などのバイナリ文書から、テキストデータを抜く:

« ラウンドアップレディ | トップページ | ボク個人としては割烹着はどうかと思っていました »