Двадцать лет спустя

Недавно «зарелизился» самый, наверное, ожидаемый проект-долгострой, связанный с искусственным интеллектом, - открытая база знаний OpenCyc.

Именинник относится к классу «баз знаний здравого смысла» (common sense knowledge base). Они содержат массу понятий (от «кошки» до «синхрофазотрона»), организованных в иерархическую онтологию (группы понятий) и связанных различными утверждениями («кошка является млекопитающим»; «для любого млекопитающего существует животное женского пола, которое связано отношением мать» и т. п.). Такого рода базы знаний имеют множество полезных применений - например, очень помогают при переводе или распознавании речи (позволяют отбросить некорректные с точки зрения здравого смысла варианты перевода/распознавания) или для автоматизированного общения («умные» боты, которых используют не только спамеры, но и, скажем, техподдержка).

OpenCyc является «младшим братом» коммерческой системы Cyc, обе разрабатываются одной и той же Cycorp в течение 21 (!) года (потрачено 750 человеко-лет, 75 млн. долларов). Большую часть этого времени, естественно, заняла не разработка «движка» (формата хранения знаний и запросов к базе), а наполнение базы знаниями. По утверждению Cycorp, на текущий момент объем данных достиг предела, за которым ввод новых знаний экспертами на специализированном языке уже менее эффективен, чем анализ обычных естественно-языковых текстов (объем знаний, которые при текущих темпах эксперты ввели бы за тысячу лет, планируется набрать за десять лет путем «чтения» текстов и «общения» с пользователями). По-видимому, это и есть одна из причин, заставивших Cycorp наконец-то выпустить открытую версию: компания пытается залучить энтузиастов-добровольцев для ускорения пополнения базы знаний.



11 из 119