Журнал о системах электронного документооборота (СЭД)
Разные задачи в ECM

Прикладная лингвистика, где ты?

  0 комментариев Добавить в закладки

Когда я впервые задался целью рассмотреть представленные на российском рынке лингвистические системы, у меня возникло ощущение, что таких разработок практически нет…

Конечно же, это не совсем правда, и лингвистикой, особенно ее приложениями в области автоматизации обработки текстов в нашей стране занимаются и довольно активно, однако до конечных продуктов (или, хотя бы, инструментов для разработчиков) доходят далеко не все разработки. Возможно, это связанно с определенной узостью ниши для лингвистических пакетов на рынке, а также высокой стоимостью их разработки.

Как бы то ни было, такие компании и продукты есть, и о некоторых из них, выпускающих продукты для разработчиков, мне хотелось бы упомянуть.

 

Russian Context Optimizer, RCO (http://www.rco.ru/) – торговая марка компании «Гарант-Парк-Интернет», под которой выпускается огромный спектр лингвистических продуктов и решений. Разработчик может здесь найти:

●     Модули полнотекстового поиска с учетом русской морфологии для OracleText, MicrosoftIndexingService (а также всех продуктов, использующих интерфейсы IFilters для обработки текстов)

●     Морфологические библиотеки для разработчиков систем поиска, позволяющие привести слова к нормальной форме или наоборот, получить любую требуемую словоформу.

●     Библиотеки для анализа текста на предмет поиска различных специализированных конструкций по шаблону, например, адресов, номеров телефонов…

●     Библиотеки для выделения различных семантических сущностей и их характеристик, таких как персоны, организации, предметы -  позволяющие решать задачи автоматической классификации и аннотирования текстов.

 

МедиаЛингва (http://www.medialingua.ru/) – известный разработчик словарей и поисковых систем. Разработчикам предлагаются SDK для:

●     Морфологической обработки текста;

●     Расширения поисковых запросов за счет использования синонимов и родственных слов;

●     Автоматического аннотирования текстов;

●     Классификации и поиска;

 

Информатик (http://www.informatic.ru/) – компания, известная такими своими продуктами как ОРФО и КОНТЕКСТ, а также решениями для проверки правописания в продуктах из пакета Microsoft Office. Разработчики смогут здесь найти модули для:

●     Проверки орфографии и грамматики русского (и не только русского!) языка;

●     Морфологического разбора – построения нормальной и любых заданных форм слов;

●     Работы с тезаурусом, для получения синонимов, антонимов и родственных слов;

●     Расстановки переносов;

●     Поиска по текстам в службах полнотекстового поиска Microsoft и Oracle

 

Автоматическая Обработка Текста, AOT (http://www.aot.ru/) – ресурс, созданный и поддерживаемый группой выпускников факультета лингвистики Российского государственного гуманитарного университета. Здесь можно найти:

●     Графематические (для выделения отдельных предложений, устойчивых форм, таких как числа и даты, …) и морфологические модули;

●     Синтаксические модули, для построение дерева предложений;

●     Тезаурусы, семантические словари.

Интересной особенностью ресурса является то, что многие словари и программы доступны под лицензией LGPL.

 

Если Вам знакомы и другие интересные продукты или проекты, напишите об этом, вдруг ваша информация кому-нибудь пригодится…

Ещё материалы автора
Похожие записи
Комментарии (0)
Сейчас обсуждают
Больше комментариев