(1) Журнал "Компьютерра" №711 :: Читать книгу онлайн на loveread.online

количестве материала, схожего по содержанию с реальным. В качестве источника "живых" комментариев Ортиц выбрал популярный сайт YouTube, изобилующий как вполне вразумительными, так и откровенно дурашливыми репликами; осталось лишь произвести ранжирование полученного сырья по степени "неправильности". Всего Ортиц стянул больше двухсот тысяч комментариев, так что без привлечения добровольцев ему, очевидно, не обойтись. Помимо статистического анализа фильтр будет оценивать комментарии по внешним признакам, характерным для легкомысленных текстов: орфографическим ошибкам и многократному повторению символов, несоблюдению пунктуации, неоправданному использованию заглавных букв, злоупотреблению сокращениями (LOL и иже с ним) и пр.

Отзывы интернетчиков, за сознательность которых так радеет инициатор проекта, принесли ему немало критики. Действительно, критерии, по которым StupidFilter вычисляет разумность комментария, весьма сомнительны, ведь суждение о глубине мысли по ее оформлению далеко не всегда даст правильный результат (впрочем, по словам Ортица, парочка "лолок" в длинном сообщении не будет расцениваться как признак невменяемости автора). Пользователь, сочинивший текст, не соответствующий требованиям системы (фильтр, как планируется, будет встраиваться в движки сайтов), получит предложение сформулировать свои соображение иначе, но вот станет ли сообщение от такой косметической обработки умнее - большой вопрос.

Если эксперимент окажется удачным, Ортиц обещает реализовать свою систему в виде надстройки для Firefox, которая будет вырезать бестолковые комментарии из просматриваемых пользователем страниц. Однако основной упор, как сообщил "Компьютерре" сам разработчик, делается все-таки на пресечение публикации нежелательных высказываний на интернет-ресурсах. Альфа-версия открытого исходного кода StupidFilter должна появиться в декабре, а работа по подготовке "свода глупости" английского языка завершится во втором квартале следующего года. Затем, по словам Ортица, планируется адаптация фильтра к другим языкам, благо текста, на котором система может тренироваться распознавать бессмыслицу, интернетчики заготовили предостаточно. ИК

17 из 118