Журнал о системах электронного документооборота (СЭД)
Разные задачи в ECM

Эксперты "похоронили" традиционный поиск в СЭД

  1 комментариев Добавить в закладки

Михаил Демидов

Изменения, произошедшие за последние 15 лет в ИТ-отрасли, связанные с ростом обрабатываемой информации и изменением ее типов, повлияли на появление новых концепций поиска для преодоления его ограниченности. В результате этого обычный «традиционный» поиск в рамках одной СЭД начал дополняться специализированными решениями, которые часто всего называют «умным» поиском. Российские эксперты положительно относятся к «смерти» обычного поиска и ожидают появления таких систем в России.

Западные эксперты, анализируя развитие поисковых технологий за последние полтора десятилетия, приходят к выводу, что традиционное отношение к поиску в современных СЭД должно быть пересмотрено. В статье «Search is dead, long live search!» («Поиск мертв, да здравствует поиск!») Йоханнес Штольц, директор по развитию компании ZyLAB, отмечает пять основных признаков того, что обычный полнотекстовый поиск «умер». С его точки зрения, объем обрабатываемых данных за 15 лет вырос не менее, чем в 1024 раза, и тенденция роста будет сохраняться и дальше; средства аналитики и так называемый «многогранный поиск» (faceted search) внесли большой вклад в развитие поисковых интерфейсов, которые особо не изменялись за эти 15 лет; сейчас стала возможной расширенная визуализация данных; поиск по мультимедиа стал реальностью для корпоративных систем; приложения для контент-аналитики появились в составе различных модулей ECM/СЭД, отвечающих за аудит информации. Российские эксперты рынка СЭД отмечают, что указанные положения действительно соответствуют изменившейся реальности и с определенными ограничениями могут быть перенесены на отечественный опыт организации электронного документооборота.

Елена Иванова, начальник отдела маркетинга ЭОС, считает, что указанные тезисы актуальны как для Запада, так и для России, с той разницей, что спрос на подобные технологии к отечественным вендорам придет с опозданием. Она уверена, что сейчас уже недостаточно простого поиска по контексту, и это касается всех корпоративных систем (ECM, СЭД, ERP и др.), поэтому возникает необходимость в поиске по мультимедиа-данным, по звуковым, аудио- и другим материалам. С ее точки зрения, этот процесс будет только прогрессировать, потому что в процессе работы и хранения люди используют все больше данных различных форматов, видов, типов информации, которые развиваются гораздо быстрее, чем возможности поиска в корпоративных системах. Ее мысль продолжает Виктор Сенкевич, управляющий директор Paybot: «С одной стороны, действительно, функцию поиска вполне можно воспринимать как дополнительную к другим, основным функциям ECM, с другой стороны, уже назрела потребность в новом функциональном поиске, отличном от полнотекстового поиска, которым, собственно, и ограничиваются возможности существующих систем. Мир ждет появления систем, способных точно отвечать на запросы, а не выдавать пользователю кучу мусора с редкими вкраплениями нужной информации». По его мнению, сколь бы не были важны возможности обработки неструктурированной информации, пропагандируемые как ключевые для многих систем автоматизации документооборота, реализация наиболее эффективных технологий обработки возможна только для структурированной информации, тем более что критически важные данные (по сути дела – любая информация в документообороте предприятия, по мысли господина Сенкевича), которые необходимо хранить и извлекать со 100%-ной достоверностью, должны быть представлены только в структурированной форме. Эксперт полагает, что разумным подходом к решению проблемы является разработка технологии создания структурированных, готовых к обработке данных, а не «изощренных методов обработки хаотичной неструктурированной информации». Сергей Курьянов, директор по развитию Docsvision, отмечает, что нельзя противопоставлять встроенные средства поиска и специализированные поисковые системы, поскольку в итоге будут существовать и те, и другие. Тенденцией последнего времени, по его мнению, является открытие доступа к встроенному в СЭД поисковому сервису по модели SOA, так чтобы поддержать интегрированный поиск, при этом это наблюдается и в российских продуктах СЭД.

Сергей Якимчук, руководитель центра компетенции MS SharePoint компании TerraLink, полагает, что указанные в статье тезисы применимы к российской действительности, особенно если СЭД отображаются как или являются частью корпоративного портала. Однако он отмечает, что западный эксперт не затронул темы социализации, современных возможностей обучения поискового механизма в процессе работы и практически революции, которая произошла в поиске людей с определенной компетенцией.

По мнению Эрика Галстяна, коммерческого директора «Корус Консалтинг», сейчас уже неактуальны разговоры о поиске в отдельно взятой системе электронного документооборота или электронном архиве компании - ключевым понятием становится поиск корпоративного контента, некий «корпоративный Google», то есть более широкое понятие, подразумевающее поиск данных во всех информационных системах предприятия (внутренний портал, учетная система, система документооборота, почтовые программы и их архивы, средства групповой работы, архивы документации и пр.), а также в социальных сетях, файлохранилищах и пр. По этой причине, отмечает эксперт, прежняя концепция поиска (отдельный поиск по каждой из информационных систем в отдельности, необходимость знать, что именно ищется и где должен находиться этот документ), уже утратила свои позиции и в России, и в мире. В качестве примера новой поисковой системы господин Галстян приводит в пример «умную» поисковую систему, которая знает о пользователе чуть больше (например, учитывает его должность, права доступа к данным и географию нахождения), за счет чего выдает именно тот очищенный результат, который требуется конкретному человеку (например, разные результаты по запросу «договор» для юриста и бухгалтера). Точку зрения Эрика Галстяна разделяет Роман Иванов, заместитель директора департамента технологий информационного менеджмента компании «АйТи». По его словам, еще совсем недавно системы электронного документооборота (СЭД) в связи с недостатком места для хранения больших объемов информации и несовершенством алгоритмов распознавания информации, хранили в основном атрибутивную часть и требования к поиску были соответствующие — эксперт говорит о том, что, как правило, задавался только атрибут документа и по этому параметру система пыталась найти нужную информацию. «Однако уже сейчас ситуация в корне изменилась — существенно удешевилась стоимость хранения информации, на рынке появились продукты, позволяющие качественно и быстро «распознавать» документы. Все это привело к выдвижению новых требований к самой функции поиска, который сейчас осуществляется как минимум по нескольким параметрам, в том числе по атрибутам, по контексту, по содержанию, - констатирует он. - При этом важно понимать, что сегодня практически в каждой организации используется несколько разных информационных систем и поиск необходимо проводить централизовано. Для этого нужен единый интерфейс, позволяющий искать информацию по всем доступным источникам с учетом любых необходимых параметров, например, как это реализовано в интернет-поисковиках». Вадим Ипатов, заместитель генерального директора компании «ИнтерТраст» по развитию бизнеса, резюмирует эту идею так: сейчас от поисковых инструментов заказчики ждут не только способности точного предоставления нужной информации, но и элементов систематизации и анализа контента в интересах формирования бизнес-решений на основе документированных фактов.

Григорий Липич, генеральный директор компании ABBYY Россия, согласен с тем, что сегодня существует слишком много интерфейсов для поиска, но все они дают ограниченные возможности. «Это происходит из-за того, что текущие поисковые технологии предоставляют релевантные результаты только по тому контенту, который предварительно был хорошо проиндексирован и атрибутирован. Пользователи ленятся атрибутировать контент, а автоматические технологии пока не созданы. В итоге часто в результате поиска пользователи получают много нерелевантной информации», - объясняет он. Тем не менее, он замечает, что сегодня уже ведутся разработки в направлении проведения, к примеру, семантического анализа текстов и осуществления поиска с учетом смысловых связей между объектами или субъектами текста или определения на картинках и видео наличия конкретных объектов и персонажей. Эксперт полагает, что в ближайшие 3-5 лет стоит ожидать качественных изменений в деле «умного поиска» и постепенного появления таких возможностей в СЭД-решениях, в том числе и в российских. Евгений Кочуров, ИТ-аналитик Directum, отмечает, что российские СЭД, имеющие богатую практику внедрения, никогда не делали ставку на полнотекстовый поиск, как главную технологию поиска: он всегда рассматривался как дополнение. На практике, по его словам, самыми выигрышными методами доставки релевантной информации были классификация контента и его тесная связь с бизнес-процессами. «Когда документация упорядочена в соответствии с целями конкретной организации, для каждого документа можно увидеть все связанные с ним процессы, а для каждого процесса видны все связанные с ним документы - потребность в дополнительных средствах поиска резко снижается, хотя и не исчезает полностью», - замечает он. По его прогнозам, наиболее реалистичным для России на данном этапе выглядит акцент не на технологических особенностях поиска, а приспособленности его к решению конкретных бизнес-задач.

 

Источник: CNews, 3 сентября 2010

Ещё материалы автора
Похожие записи
Комментарии (1)
Наталья Храмцовская 09 сентября 2010 г. 23:11  

Когда о поиске в СЭД говорят ИТ-специалисты, они порой упускают главное. Главное же заключается в том, что часто нужно быстро найти все материалы определенного дела или досье - не какие-то, не большинство, а все. Система поиска гарантированно обеспечить это не может. Для этого, как и в бумажном делопроизводстве, документы должны быть аккуратно разложены по делам или папкам, а те, в свою очередь, - по рубрикам (например, в соответствии с номенклатурой дел). Таким образом, должна быть построена классификационная схема документации организации, в которой и должны сразу же в нужных местах размещаться вновь вводимые в систему документы. Хорошо продуманная классификационная схема для многих пользователей является главным и наиболее эффективным инструментом поиска.

Что касается "обычного" полнотекстового поиска, то, по моим наблюдениям, лишь единицы умеют им правильно и эффективно пользоваться. Людей надо лучше обучать, а не пытаться подсунуть им более сложные - а, следовательно, ещё менее эффективные в неопытных руках, - продвинутые поисковые средства. Кроме того, эффективность обычного поиска может сильно повысить продуманная система метаданных/реквизитов документа.

Слухи о смерти традиционного поиска IMHO сильно преувеличены - он пока не усел ещё даже простудиться. А вообще, новые средства поиска можно только приветствовать :)

Сейчас обсуждают
Больше комментариев