Прикладная лингвистика, где ты?
Небольшая коллекция ссылок на интересные лингвистические ресурсы и продукты.
Когда я впервые задался целью рассмотреть представленные на российском рынке лингвистические системы, у меня возникло ощущение, что таких разработок практически нет…
Конечно же, это не совсем правда, и лингвистикой, особенно ее приложениями в области автоматизации обработки текстов в нашей стране занимаются и довольно активно, однако до конечных продуктов (или, хотя бы, инструментов для разработчиков) доходят далеко не все разработки. Возможно, это связанно с определенной узостью ниши для лингвистических пакетов на рынке, а также высокой стоимостью их разработки.
Как бы то ни было, такие компании и продукты есть, и о некоторых из них, выпускающих продукты для разработчиков, мне хотелось бы упомянуть.
Russian Context Optimizer, RCO (https://www.rco.ru/) – торговая марка компании «Гарант-Парк-Интернет», под которой выпускается огромный спектр лингвистических продуктов и решений. Разработчик может здесь найти:
● Модули полнотекстового поиска с учетом русской морфологии для OracleText, MicrosoftIndexingService (а также всех продуктов, использующих интерфейсы IFilters для обработки текстов)
● Морфологические библиотеки для разработчиков систем поиска, позволяющие привести слова к нормальной форме или наоборот, получить любую требуемую словоформу.
● Библиотеки для анализа текста на предмет поиска различных специализированных конструкций по шаблону, например, адресов, номеров телефонов…
● Библиотеки для выделения различных семантических сущностей и их характеристик, таких как персоны, организации, предметы - позволяющие решать задачи автоматической классификации и аннотирования текстов.
МедиаЛингва (https://www.medialingua.ru/) – известный разработчик словарей и поисковых систем. Разработчикам предлагаются SDK для:
● Морфологической обработки текста;
● Расширения поисковых запросов за счет использования синонимов и родственных слов;
● Автоматического аннотирования текстов;
● Классификации и поиска;
Информатик (https://www.informatic.ru/) – компания, известная такими своими продуктами как ОРФО и КОНТЕКСТ, а также решениями для проверки правописания в продуктах из пакета Microsoft Office. Разработчики смогут здесь найти модули для:
● Проверки орфографии и грамматики русского (и не только русского!) языка;
● Морфологического разбора – построения нормальной и любых заданных форм слов;
● Работы с тезаурусом, для получения синонимов, антонимов и родственных слов;
● Расстановки переносов;
● Поиска по текстам в службах полнотекстового поиска Microsoft и Oracle
Автоматическая Обработка Текста, AOT (https://www.aot.ru/) – ресурс, созданный и поддерживаемый группой выпускников факультета лингвистики Российского государственного гуманитарного университета. Здесь можно найти:
● Графематические (для выделения отдельных предложений, устойчивых форм, таких как числа и даты, …) и морфологические модули;
● Синтаксические модули, для построение дерева предложений;
● Тезаурусы, семантические словари.
Интересной особенностью ресурса является то, что многие словари и программы доступны под лицензией LGPL.
Если Вам знакомы и другие интересные продукты или проекты, напишите об этом, вдруг ваша информация кому-нибудь пригодится…
Комментарии 0