(1) Журнал «Компьютерра» №35 от 28 сентября 2005 года :: Читать книгу онлайн на loveread.online

Строго говоря, работу Тайгера и его команды нельзя назвать истинно новаторской, поскольку она в значительной степени опирается на опубликованные в прошлом году результаты исследований двух специалистов IBM, Дмитрия Асонова и Ракеша Агравала (см.

В основу оптимизации было заложено несколько упрощающее задачу (но абсолютно справедливое) допущение о том, что вводимая в компьютер информация представляет собой обычный англоязычный текст. По особенностям издаваемых звуков (зависящих главным образом от расположения кнопок на клавиатуре) похоже звучащие кнопки объединялись в классы. После чего, отталкиваясь от известных статистических закономерностей английского языка (частоты встречаемости букв и того, например, что после «th» обычно идет "e" и крайне редко "q"), экспериментаторы присваивали каждому звуку вероятное априорное значение буквы с учетом опознания класса. Уже такой нехитрый алгоритм позволил правильно распознать 60% вводимых букв, однако на уровне слов этот показатель составил всего лишь 20%.

Добавление автоматической проверки орфографии и грамматики радикально (больше чем на 50%) улучшило распознавание слов, хотя и не оказало заметного влияния на процент распознавания букв. Но когда полученный результат был введен в качестве обратной связи для дополнительного обучения алгоритма-классификатора нажатий клавиш, правильность распознавания ощутимо возросла. Три цикла пересчета позволили выбранному алгоритму довести процент опознания звуков клавиш до 92, а в некоторых случаях даже до 96. Как и при аналогичной по сути задаче вскрытия шифров замены, аккуратность метода прямо зависит от объема имеющегося материала. Если количество знаков в анализируемом образце уменьшается с трех до полутора тысяч (при среднестатистической «профессиональной» скорости ввода триста знаков в минуту это означает уменьшение длительности записи с десяти минут до пяти), процент распознавания остается чуть больше 80%.

23 из 108