目標
あらゆる文書を電子化し、コンピュータで検索可能な情報として取り扱えることを目指す。
目標達成のための方法・手段
すでにネットに流れている情報ならそれを保存すれば良いのだが、これ以外の情報。例えば、
- ネットに掲載されない新聞・雑誌記事
- 送られてきた手紙・FAX
- 本
- デジタルカメラで撮影した文字情報
これらを、透明テキスト付きPDFにする、というのがポイント。
- スキャナで読み取る
- OCRで文字を認識する
- 認識した文字は、読み取った文書の画像の上に、透明なテキストとして配置して検索可能にする
- OCRで認識した文字には誤認識がまだあるため、通常は、Adobe Acrobat Viewerで、文書の画像を見たり読んだりする
- オリジナルの紙の文書は廃棄可能。オリジナルの文書も保管することを考えたが、電子文書とオリジナルと2つを管理することになり労力が倍になってしまう。労力削減の目的とは逆の結果になる。あるいは、オリジナルの紙の文書は、整理・分類せずに段ボールなどに大雑把に入れておくという方法。さらに、例えば1年後には廃棄する、とかの方針をとるのでも良いだろう。