14 лет назад из-под тонких пальчиков профессиональной машинистки выскочили 219 страничек моей диссертации. Как водится, первый экземпляр перекочевал к научному руководителю, второй — на кафедру, третий — в Ленинскую библиотеку в архивный отдел, а вот четвертый я зажал на память. Все эти годы я периодически возвращался к этим желтым и жухлым страничкам и всякий раз убеждался, что они — лучшее, что я создал в этой жизни. Вполне естественно, что желание перевести свою диссертацию в электронный вид не покидало меня ни на одно мгновение. Я набрасывался на всякий новый пакет OCR, но вот что из этого получалось, я вам сейчас продемонстрирую.

Перед вами типичный образец оригинального текста:

По большому счету, ничего тут героического нет: ну бледненько все, ну буквы неравномерно отбились — эка невидаль! Машинистка у меня была профессиональная — брала по восемьдесят копеечек за страницу, поэтому опечаток и замазок — самая малость. Не тут-то было! Этот «исходник» оказался не по зубам всем OCR без исключения.

То, как распознал этот отрывок FineReader предыдущей версии (4.64 Professional), достойно музея Гугенхайма:

Я насчитал только пять правильно распознанных слов (из двадцати девяти). Сами понимаете, «оцифровывание» моей диссертации пришлось отложить до лучших времен — проще все по новой перепечатать.

Приблизительно таким же был результат у CuneiForm 96 и CuneiForm 97, и CuneiForm 98… В какой-то момент я окончательно решил, что — не судьба. Как вдруг на свет появился CuneiForm 2000. Прорыв налицо:



6 из 46