PDF、Word、一太郎などのバイナリ文書から、テキストデータを抜く
いろいろなバイナリファイルからテキストデータを抜けるツールxdoc2txtで遊んでみました。これは、from EBシリーズ via Orbium保護されたPDFからテキストを抜き出すで知りました。これはスゴい!
ポイントは2つ。
- PDF、WORD、EXCEL、一太郎などの各種バイナリ文書から、テキスト要素を抽出する汎用テキストコンバータ。高速&強力ナリ
- 追加DLL(同サイトにあり)を併用することでパスワード無しで暗号化されたPDFから抜くことも可能
いちばんスゴかったのは、Rational Rose モデリングデータ(拡張子mdl)からテキストを抜き出せたこと。どれどれ…
- UseCase/UseCaseView
- stereotype
- superclasses
- relationshiplist
- quid , quidu (たぶんRoseモデル内のID)
- visible/invisible
- Attribute
- name:value …などなど
( ´,_ゝ`) プッ まるみえじゃん …
… … …
… …
…
Σ(・o・;) ハッ!
い、いかん!悪いことしか考えていないぞ→オレ
…と、とにかく著作権法に気をつけて使いましょうね
--

| 固定リンク
コメント