Когда я впервые задался целью рассмотреть представленные на
российском рынке лингвистические системы, у меня возникло ощущение, что таких
разработок практически нет…
Конечно же, это не совсем правда, и лингвистикой, особенно
ее приложениями в области автоматизации обработки текстов в нашей стране
занимаются и довольно активно, однако до конечных продуктов (или, хотя бы,
инструментов для разработчиков) доходят далеко не все разработки. Возможно, это
связанно с определенной узостью ниши для лингвистических пакетов на рынке, а
также высокой стоимостью их разработки.
Как бы то ни было, такие компании и продукты есть, и о
некоторых из них, выпускающих продукты для разработчиков, мне хотелось бы
упомянуть.
Russian Context Optimizer, RCO (http://www.rco.ru/)
– торговая марка компании «Гарант-Парк-Интернет»,
под которой выпускается огромный спектр лингвистических продуктов и решений.
Разработчик может здесь найти:
● Модули
полнотекстового поиска с учетом русской морфологии для OracleText, MicrosoftIndexingService (а также всех
продуктов, использующих интерфейсы IFilters для обработки текстов)
● Морфологические
библиотеки для разработчиков систем поиска, позволяющие привести слова к
нормальной форме или наоборот, получить любую требуемую словоформу.
● Библиотеки
для анализа текста на предмет поиска различных специализированных конструкций
по шаблону, например, адресов, номеров телефонов…
● Библиотеки
для выделения различных семантических сущностей и их характеристик, таких как
персоны, организации, предметы - позволяющие
решать задачи автоматической классификации и аннотирования текстов.
МедиаЛингва (http://www.medialingua.ru/) – известный
разработчик словарей и поисковых систем. Разработчикам предлагаются SDK для:
● Морфологической
обработки текста;
● Расширения
поисковых запросов за счет использования синонимов и родственных слов;
● Автоматического
аннотирования текстов;
● Классификации
и поиска;
Информатик (http://www.informatic.ru/) – компания,
известная такими своими продуктами как ОРФО и КОНТЕКСТ, а также решениями для
проверки правописания в продуктах из пакета Microsoft Office. Разработчики смогут здесь найти модули для:
● Проверки
орфографии и грамматики русского (и не только русского!) языка;
● Морфологического
разбора – построения нормальной и любых заданных форм слов;
● Работы
с тезаурусом, для получения синонимов, антонимов и родственных слов;
● Расстановки
переносов;
● Поиска
по текстам в службах полнотекстового поиска Microsoft и Oracle
Автоматическая
Обработка Текста, AOT (http://www.aot.ru/)
– ресурс, созданный и поддерживаемый группой выпускников факультета лингвистики
Российского государственного гуманитарного университета. Здесь можно найти:
● Графематические
(для выделения отдельных предложений, устойчивых форм, таких как числа и даты,
…) и морфологические модули;
● Синтаксические
модули, для построение дерева предложений;
● Тезаурусы,
семантические словари.
Интересной особенностью ресурса является то, что многие
словари и программы доступны под лицензией LGPL.
Если Вам знакомы и другие интересные продукты или проекты,
напишите об этом, вдруг ваша информация кому-нибудь пригодится…