Дмитрий Романов 25 сентября 2014

Зачем нам нужны технологии поиска и анализа неструктурированной информации?

Архив

Время чтения: 10 минут

Данная статья будет посвящена вопросам экономической эффективности технологий поиска и анализа неструктурированной информации.

Как оценить экономический эффект?

И первое, с чего хотелось бы начать,– определить предмет обсуждения. Если с системами электронного документооборота и электронными архивами большинство читателей уже давно и хорошо знакомы (в т. ч. и на личном опыте), то технологии поиска и анализа неструктурированной информации по-прежнему остаются для многих terra incognita. Разнообразие и сложность решаемых задач приводят не только к появлению широкого семейства технологий, но и к многочисленным названиям данного семейства.

Семантические технологии, текстовая аналитика, Text Minning, Content Intelligence – вот далеко не полный перечень названий, которые встречаются в публикациях. К сожалению, начавшаяся пару лет назад и набравшая силу в последнее время маркетинговая шумиха по продвижению тематики BigData не проясняет, а скорее запутывает и затрудняет понимание этих вопросов.

Определимся с предметом обсуждения

Итак, что же это такое – анализ неструктурированной информации? «Это ведь просто полнотекстовый поиск? Так он давно у нас есть в СЭД, в архиве, да и просто на локальном компьютере я тоже могу искать нужные файлы по ключевым словам...», – примерно такие вопросы и рассуждения вполне типичны, когда речь заходит о технологиях анализа неструктурированной информации. Да, технология полнотекстового поиска исторически является одним из первых примеров тех технологий, вопросам экономической эффективности которых и посвящена данная статья. Благодаря широкому распространению поисковых сервисов в Интернете она стала доступной и хорошо известной. Но полнотекстовый поиск по неструктурированной информации – далеко не единственная из возможных технологий и, более того, далеко не самая выгодная в части экономического эффекта, получаемого при корпоративном применении. Попробуем разобраться, что же еще входит в спектр современных технологий для анализа неструктурированной информации.

Для упрощения под неструктурированной информацией далее в данной статье будем понимать прежде всего текстовую информацию – тексты документов, сообщения электронной почты, публикации в блогах и социальных сетях и т. п. Прочие виды неструктурированной информации – изображения, звук, видео и технологии для их анализа – оставим для отдельного рассмотрения в последующих публикациях.

В целом можно сказать, что исследователи и разработчики, создающие программы для анализа неструктурированной информации, двигаются по пути создания искусственного интеллекта. Однако научить компьютер понимать смысл текстовой информации далеко не так просто, как может показаться на первый взгляд. Даже простые человеческие языки значительно более сложны, чем самые сложные языки программирования.

Очевидно, что общение между людьми несравнимо богаче, ярче, эмоциональнее, чем передача информации между компьютерами.

В текстах существует множество особенностей и исключений из правил, умолчаний и неоднозначностей, тонких намеков и нюансов, легко воспринимаемых и осознаваемых любым человеком, но крайне сложных для понимания компьютером. Тем не менее, в последние годы на этом пути достигнуты значительные успехи.

Анализ, по определению, это разложение целого на составные части. Составными частями текста являются слова и предложения. Первое, что потребуется нам для разделения текста на составные части, – технология, позволяющая извлекать текст из множества различных источников корпоративной неструктурированной информации и понимать разнообразные и многочисленные файловые форматы, в которых сохраняют информацию используемые в организациях программные продукты.

Насколько объемным будет множество источников неструктурированной информации и насколько многочисленными окажутся файловые форматы в конкретной организации?

Это зависит от размера организации и специфики ее деятельности, но в большинстве средних и крупных российских компаний можно смело рассчитывать на десятки (если не сотни) форматов файлов с текстовой информацией и не меньшее количество источников различных типов (от обычных файловых папок и реляционных баз данных до проприетарных форматов хранения текста в справочных правовых системах, CAD-системах, на серверах MS Exchange и SharePoint, в базах данных Lotus Domino и т. п.). Большинство производителей решений для анализа неструктурированной текстовой информации реализуют средства для извлечения текста из различных корпоративных источников в виде специальных модулей – программных адаптеров, которые настраиваются на применяемые в организации информационные системы и извлекают из них текст для последующего морфологического анализа.

Выделение информационных объектов

Морфологический и синтаксический анализ текста

Морфологический анализ текста позволяет для каждого встретившегося слова (специалисты используют термин «лексема») определить, к какой части речи относится данное слово, в какой грамматической форме оно употреблено в заданном контексте, и привести слово к его начальной форме. Если разработка адаптеров для выделения текстовой информации из разных источников – в значительной степени техническая, инженерная задача, то определение, настройка и программирование правил работы морфологического анализатора требует глубоких знаний в области компьютерной лингвистики.

Обычно для морфологического анализа используются сочетания нескольких подходов: большая часть слов описывается с помощью словаря с перечнем базовых словоформ и способов словообразования, а для сложных случаев и исключений применяются специальные алгоритмы и наборы эвристических правил.

Синтаксический анализ – следующий этап в анализе текстовой информации. Разобравшись с частями речи на предыдущем этапе, можно переходить к более сложной задаче и выяснить, как эти слова соотносятся друг с другом и какими членами предложения они являются.

Синтаксический анализ позволяет выделить в предложении подлежащее, сказуемое, обстоятельства, дополнения, причастные и деепричастные обороты.

Технологии семантического анализа и определения значимости. Таксономия

Конечная цель многочисленных исследований и разработок, проводящихся в данной области, – приблизиться к пониманию компьютером смысла анализируемого текста. Здесь уже приходится прибегать к помощи следующего этапа в анализе неструктурированной информации – технологии семантического анализа.

На этом уровне необходимо учитывать взаимосвязи между терминами и понятиями предметной области, работать с синонимами, анализировать не только отдельные предложения, но и весь текст целиком.

Важной как самой по себе, так и крайне необходимой для корректной работы других способов обработки неструктурированной текстовой информации является технология определения значимости лексических и семантических единиц.

Реализация данной технологии означает способность присваивать терминам определенный вес и тем самым отделять общеупотребительные слова и словосочетания от тех, которые описывают важные смысловые понятия и нужны для выражения экспертных знаний и компетенций. Накопление статистических данных о том, насколько часто те или иные значимые слова или словосочетания оказываются расположенными близко друг к другу в текстах документов, позволяет строить семантические сети и таксономии (иерархические классификаторы).

Таксономия – учение о принципах и практике классификации и систематизации.

В текстах документов, новостных лентах, публикациях в социальных сетях и других источниках неструктурированной информации часто упоминаются фамилии, имена и отчества людей, их должности и звания, названия организаций и их структурных подразделений, географические объекты (страны, города, реки, моря и т. д.), адреса зданий, сооружений и других объектов недвижимости, номера телефонов, адреса веб-сайтов и электронной почты, торговые марки и названия товаров, ссылки на нормативные правовые акты, даты и временные интервалы и множество других информационных объектов.

Технология, выделяющая из текста все упоминания информационных объектов

Для множества практических применений крайне необходима технология, выделяющая из текста все упоминания информационных объектов. Фактически данная технология позволяет частично структурировать неструктурированный текст.

Выделение некоторых информационных объектов осуществляется на основе специальных словарей (например, словарей названий географических объектов), для других приходится применять сложные эвристические правила (такими являются названия организаций). Иногда приходится комбинировать несколько подходов (без этого сложно реализовать выделение упоминаний физических лиц). Основная проблема при решении данной задачи заключается даже не столько в непосредственном выделении упоминаний информационного объекта из текста отдельного документа или сообщения, сколько в принятии алгоритмом решения об их отождествлении, т. е. объединении нескольких объектов в один. У организаций могут быть полные, официальные и краткие, жаргонные наименования. Среди сотрудников организации вполне возможны однофамильцы и даже полные тезки.

Например, если в одном документе встретится «Романов Д.А.», а в другом «Романов Дмитрий Александрович», то можно ли считать, что речь идет об одном и том же человеке? А если в третьем документе появится «Романов Денис Алексеевич»? Даже понимание того, идет ли речь о мужчине или о женщине, может вызывать проблемы (Женя Криворучко – это кто?).

Тут на помощь приходит синтаксический анализ конкретного контекста употребления информационного объекта, анализ дополнительных свойств объекта (например, должности), анализ статистики совместно упоминаемых терминов и другие более сложные методы. Но даже при обилии информации и применении мощного математического аппарата всегда существует вероятность ошибки. Впрочем, люди также неидеальны, часто ошибаются и принимают одного человека за другого.

Выделение взаимосвязи между объектами

Технологии обработки и выделения фактографической информации

Научившись выделять информационные объекты, можно переходить к более сложной задаче и выделять взаимосвязи между объектами.

Иногда такие взаимосвязи пытаются представить в виде некоторого факта – определенного действия, совершенного тем или иным субъектом над каким-то объектом или по отношению к другому субъекту. Лучше всего технологии обработки и выделения фактографической информации работают в тех задачах, в которых обеспечивается достаточно высокая степень формализации и однородности исходных информационных потоков.

Такими задачами, например, являются обработка сообщений из новостных лент или сводок о происшествиях и чрезвычайных ситуациях.

Технология определения степени похожести между текстами

Следующей технологией, о которой нужно рассказать, является технология определения степени похожести между текстами.

Расстояние между географическими объектами измеряют в метрах и километрах, а в каких единицах можно измерить расстояние между документами? Существует множество определений того, что считать степенью похожести и как эту похожесть измерять.

Например, два текста могут считаться похожими друг на друга, если они содержат большую долю одинаковых и значимых слов и словосочетаний.

Понятно, что общеупотребительная лексика и тем более стоп-слова не должны оказывать заметного влияния на расчет степени похожести.

Другой вариант – считать тексты похожими, если они описывают один и тот же (или близкий) набор фактов. Такой подход применяется при агрегации новостных потоков и позволяет группировать различные описания одних и тех же событий. Наконец, можно считать тексты похожими, если в них много одинаковых предложений, совпадающих с точностью до каждого отдельного символа. Похожий способ используется поисковыми серверами при нахождении дублирующихся страниц в Интернете для сокращения за счет этого количества страниц, предоставляемых пользователю в ответ на его запрос.

Наверняка многим читателям приходилось встречать примерно такое сообщение: «Мы нашли еще NNNN страниц, очень похожих на те, которые вы уже видели...».

Мы публикуем статью с сокращениями. Более подробно о технологиях классификации документов, анализа эмоциональной окраски и выделения мнений, аннотировании текстов и подготовке кратких рефератов, технологии для анализа социальных сетей и о многом другом вы узнаете в №9 2014 журнала "Современные технологии документооборота и делопроизводства"

Область деятельности, связанная с анализом неструктурированной информации, очень широка и разнопланова, поэтому, к сожалению, многие интересные технологии остались за рамками данной статьи.

Источник: sekretariat.ru

Чтобы прочитать эту статью до конца,
или

основы

Зачем нам нужны технологии поиска и анализа неструктурированной информации?

Комментарии 0

Похожие статьи

Хочу электронный архив. А какой?

Нужны ли копии электронному документу

Российский рынок документооборота глазами вендоров