電子文書化 その1

目標

あらゆる文書を電子化し、コンピュータで検索可能な情報として取り扱えることを目指す。

目標達成のための方法・手段

すでにネットに流れている情報ならそれを保存すれば良いのだが、これ以外の情報。例えば、

  • ネットに掲載されない新聞・雑誌記事
  • 送られてきた手紙・FAX
  • デジタルカメラで撮影した文字情報

これらを、透明テキスト付きPDFにする、というのがポイント。

  • スキャナで読み取る
  • OCRで文字を認識する
  • 認識した文字は、読み取った文書の画像の上に、透明なテキストとして配置して検索可能にする
  • OCRで認識した文字には誤認識がまだあるため、通常は、Adobe Acrobat Viewerで、文書の画像を見たり読んだりする
  • オリジナルの紙の文書は廃棄可能。オリジナルの文書も保管することを考えたが、電子文書とオリジナルと2つを管理することになり労力が倍になってしまう。労力削減の目的とは逆の結果になる。あるいは、オリジナルの紙の文書は、整理・分類せずに段ボールなどに大雑把に入れておくという方法。さらに、例えば1年後には廃棄する、とかの方針をとるのでも良いだろう。