Максим Кайнер 4 апреля 2014

Тенденции в области технологий поиска в СЭД

Время чтения: 2 минуты

Что сегодня является основной тенденцией в области технологий поиска и «находимости» данных? На что следуют обращать внимание заказчикам сегодня, чтобы корпоративные системы были готовы к требованиям пользователей завтра?

Инструменты поиска структурированной информации уже сильно развиты. Но значимая часть данных приходит на вход в ECM-систему в неструктурированном, произвольном виде. Часто эта информация избыточна и практически всегда лишена ссылок, автономна.

Большое количество усилий требуют одинаково как подготовка данных к хранению в структурированном виде, так и поиск по неструктурированным данным. Можно смело сказать, что чем меньше затрат придётся на первый пункт, тем больше на второй, и наоборот. Очевидно, нужна некая точка равновесия. Не только для разных отраслей, но и для нужд каждого конкретного заказчика позиция этой балансной точки индивидуальна.

Различные технологии обработки данных и извлечения из них информации и, впоследствии, знаний помогают облегчить выбор. Например, непрерывно улучшающая свои показатели технология поиска на естественном языке — один из вариантов решения озвученной проблемы. Чем мощнее эта технология в целом и конкретный продукт, её реализующий, тем меньше затрат потребует ввод информации в ECM-систему.

Или, например, набирает вес такое направление как Data Governance, подразумевающее управление информацией на уровне всего предприятия и введение соответствующих исполнителей внутри организации. В данном случае информация расценивается как имущество организации, её актив. Роль, выполняющая функцию управления информацией на высоком уровне, может быть централизованной, но рекомендуется распределять её, «размазывать» по всей организации. Положительный результат данной практики — в том, что информация непрерывно проходит очистку, а новые данные связываются с уже имеющимися, составляя, таким образом, огромную сеть. Повышается эффективность поиска. Это даёт прямой экономический эффект.

Читайте также Поиск в ECM;

Источник: DOCFLOW

Чтобы прочитать эту статью до конца,
или

поиск электронный архив

Комментарии 10

Андрей Подкин 7 апреля 2014

Например, непрерывно улучшающая свои показатели технология поиска на естественном языке — один из вариантов решения озвученной проблемы. Чем мощнее эта технология в целом и конкретный продукт, её реализующий, тем меньше затрат потребует ввод информации в ECM-систему.

Вопрос в том, что подразумевать под "естественным языком". Посмотрите, как работают Яндекс или Google, которые в технологиях поиска намного лет опередили все СЭД вместе взятые. Если вбить в поисковую строку тезисы (набор слов), то результат будет ничуть не хуже, чем по полной фразе на естественном языке. Но, с другой стороны, для каждого слова из набора проводится орфографический, синтаксический и семантический анализ, результаты которого очень существенно помогают искать.

Отредактировано 9 апреля 2014

Михаил Романов 7 апреля 2014

Максим, ну к чему эта очередная статья с кучей общих слов и отсутсвием какой-либо конкретики?

Но значимая часть данных приходит на вход в ECM-систему в неструктурированном, произвольном виде

А это точно проблема? Например, если вся эта неструкткрированная информация не требует никакой машинной обработки, то так ли уж нужно её структурировать? Мало того, практически любой значимый документ (договор, приказ, служебка, ...), вносимый в СЭД, снабжается весьма приличным ворохом вполне себе структурированных атрибутов.

Вот если бы вы взяли какой-то конкретный тип документа, и последовательно выписали:

Информацию, которая является значимой в документе, и которая может быть использована для его обработки и/или поиска
Та же информация, но не содержащаяся в документе
Инфорамция, из первых 2-х пунктов, которая, как правило (можете взять стандартную разработку 1-2 популярных СЭД), хранится вместе с документов в виде метаданных.

Вот после этого и появится предмет для обсуждения:

на сколько существенно различаются вводимая в качестве метаданных информация и информация, которая реально необходима
на сколько велики трудозатараты на извлечение этих метаданных вручную, и стоит ли в принципе заморачиваться вопросом ввода этих метаданных в автоматическом режиме
какие из существующих ныне (или находящиеся в активной разработке, т.е. не являющиеся Proof Of Concept) технологий могут какую-либо дополнительную полезную информацию из документа извлечь

Например, непрерывно улучшающая свои показатели технология поиска на естественном языке — один из вариантов решения озвученной проблемы

Хм, а вот не далее месяца назад ваш коллега Артем утверждал (и достаточно, на мой взгляд, аргументированно), что данные технологии сами по себе ничем принципиально пользователю СЭД помочь не могут. Кому верить?

Положительный результат данной практики — в том, что информация непрерывно проходит очистку, а новые данные связываются с уже имеющимися, составляя, таким образом, огромную сеть. Повышается эффективность поиска. Это даёт прямой экономический эффект.

Я вот не специалист в Data Governance и мне откровенно не ясно из вашего описания, чем этот подход (технология/красивое название/...) принципиально нов и в чем выражается его потрясающий эффект.

Что такое "очистка"? В чем это выражается? А что значит "связываться с уже имеющимися"? Разве не это же происходит, когда вы связываете документы со справочной информацией?

Отредактировано 9 апреля 2014

Максим Кайнер 7 апреля 2014

Здравствуйте, товарищи!

Андрей,

Если вбить в поисковую строку тезисы (набор слов), то результат будет ничуть не хуже,

Результат будет хуже, по крайней мере, по мнению поискового робота, а я с ним в последнее время все больше согласен. =)

К естественным запросам предъявляются бОльшие требования, по ним труднее продвигать сайты, нежели по ставшим притчей во языцех запросам, вроде, «пластиковые окна купить москва». В бОльшей степени это касается коммерческих запросов, но и к ликбезным имеет отношение. Если в запросе «система электронного документооборота» поменять местами слова, то выдача гугла будет меняться даже на первой странице, а что там в глубине будет твориться, даже не хочется выяснять.

Кроме того, поиск на естественном языке интересен сейчас еще потому, что поисковые системы будут менять сценарии взаимодействия с пользователем. Пресловутые Google Glass не оставят варианта «вбить в поисковую строку тезисы (набор слов)», управление будет голосовым, запросы проще будет формулировать на естественном языке.

Собственно, под «естественным» здесь и понимается язык, на котором разговаривают.

Михаил,

Но значимая часть данных приходит на вход в ECM-систему в неструктурированном, произвольном виде

А это точно проблема?

Это данность.

Кому верить?

Артем в первом же абзаце написал: "Сценарии нужно рассматривать шире, а проблему глубжеПодробнее:http://ecm-journal.ru/post/NLQA-v-ECM-Na-primere-7164c27e-6da5-48a3-a63c-9f1b05fe6668.aspx ".

В моем блоге говорится: "один из вариантов решения озвученной проблемыПодробнее:http://ecm-journal.ru/post/Tendencii-v-oblasti-tekhnologijj-poiska-v-SEhD.aspx ".

Не вижу противоречий. В будущем технология может стать более интересной.

чем этот подход (технология/красивое название/...) принципиально нов и в чем выражается его потрясающий эффект

Это дополнительный акцент на ценности информации. Нового по сравнению с временами, когда Ротшильдом было декларировано "Кто владеет информацией, тот владеет миром", может, и не много, но интересно, что для закрытия такой с первого взгляда простой и тривиальной задачи сейчас компании готовы выделять ресурс целого подразделения. Мне пока кажется инициатива полезной и оправданной, так как поток данных вокруг нас все интенсивней, и управлять им в компаниях резонно поручить специалистам, которые будут нести ответственность за качество корпоративного (и не только) контента.

Про очистку, к примеру, как с картошкой... Я нашел в интернете White Paper с парой интересных для моего отдела сентенций, хочу сохранить пдф в системе. Логично при этом удалить из документа 8 ненужных страниц, оставив только одну, содержащую те самые сентенции? Думаю, да.

Про связывание - тоже, продолжая пример. При занесении в систему страницы пдф с нужными сентенциями, я могу ограничиться просто сохранением документа в своей папке, могу поместить ссылку на документ в папку своего отдела, а могу настроить связь со своей презентацией, которую читал по данной теме месяц назад. В последнем случае, когда коллеги станут обращаться к презентации, они увидят, что к ней сейчас присоединен еще один документ, вероятность, что они к нему обратятся, стала выше.

И тут хорошо, чтобы в компании были специалисты, которые разрабатывают правила связывания документов, отслеживают, чтобы пользователи правилами не пренебрегали. Опять появляется Data Governance в каком-то виде.

Отредактировано 9 апреля 2014

Андрей Подкин 7 апреля 2014

Ох уж этот юношеский максимализм.

Раз и два. Чем первый результат хуже второго?

Или вот пример на английском: тезисный запрос дает искомый результат четвертой строкой (или третьей, если не считать ссылку на картики), а запрос на естественном языке - седьмой (так, что не на каждом мониторе ее будет видно сразу без скроллинга).

Я уж молчу про запросы гугл на тему программирования. Там просто нужно искать тезисно.

PS. Топ-менеджмент Яндекса (например, директор по распространению технологий) также неоднократно заявлял, что тезисный поиск работает не хуже, чем поиск на естественном языке. Но кто ж ему поверит, он же не робот, да.

Отредактировано 9 апреля 2014

Андрей Подкин 7 апреля 2014

Я нашел в интернете White Paper с парой интересных для моего отдела сентенций, хочу сохранить пдф в системе. Логично при этом удалить из документа 8 ненужных страниц, оставив только одну, содержащую те самые сентенции? Думаю, да.

Серьезно?! А как насчет ответить перед судом за нарушение авторских прав? Не любая лицензия разрешает модифицировать документ.

Отредактировано 9 апреля 2014

Виктор Золотов 8 апреля 2014

Вот таки это интересно однозначно: http://www.cnews.ru/top/2014/04/09/abbyy_vypustila_pervye_resheniya_na_osnove_tehnologii_kotoruyu_razrabatyvala_19_let_567483

И по теме:

Если вбить в поисковую строку тезисы (набор слов), то результат будет ничуть не хуже, чем по полной фразе на естественном языке.

хорошо сказано: "Задача поиска в интернете на сегодняшний день решена довольно неплохо во многом благодаря модели краудсорсинга. То есть выдача, которую делают современные поисковые системы в интернете, базируется на ранжировании, обеспеченном «кликами» людей, уже просматривавших данные страницы."

В ECM действительно нет такой массы пользователей, что бы просто статистически вычислить что надо показать. И придется "понимать" как то текст... И вот вам Compreno...

Отредактировано 9 апреля 2014

Вячеслав Смирнов 9 апреля 2014

А как насчет ответить перед судом за нарушение авторских прав? Не любая лицензия разрешает модифицировать документ.

В Российской Федерации это не запрещено, есть статья 1274 Гражданского кодекса РФ, или описание в Википедии, которое можно трактовать как разрешение возможности сохранить несколько страниц текста (текста под любой лицензией), чтобы сделать текст частью подборки или обзора.

К таким случаям относятся использование произведения в информационных, научных, учебных или культурных целях.

Объём использования определяется целью такого использования.

К формам использования произведения в информационных, научных, учебных или культурных целях относятся:

воспроизведение или сообщение для всеобщего сведения в обзорах текущих событий средствами фотографии, кинематографии, путем сообщения в эфире или по кабелю произведений, которые становятся увиденными или услышанными в ходе таких событий;

Не являюсь экспертом в области авторского права, руководствуюсь здравым смыслом.

Отредактировано 9 апреля 2014

Андрей Подкин 9 апреля 2014

И как это спасет от иска? Будете уже в суде доказывать, что у вас цель такая была.

Но я бы вообще не рекомендовал столь легкомысленно относиться к свободным лицензиям. Противостояние Miranda и Mail.ru Group уже показало, что даже в России со свободными лицензиями лучше не шутить.

Вячеслав Смирнов 9 апреля 2014

И как это спасет от иска? Будете уже в суде доказывать, что у вас цель такая была.

На статью 1274 ГК РФ не распространяется презумпция вины. Полагаю, распространяется презумпция невиновности, и доказывать не придётся. Если будут претензии, то схожу послушаю доводы. Слушать людей, разбирающихся в законах, следить за ходом ясной мысли - завораживающий процесс.

Про противостояние Miranda и Mail.ru Group не в курсе, спасибо. Mail.ru Group не обанкротились пока, новость и противостоянии прибавляет (в текущий момент) интерес к ним. Всё нормально.

Андрей Подкин 9 апреля 2014

Если будут претензии, подкрепленные какими-либо доказательствами, то придется не слушать, а как-раз таки доказывать свою невиновность (т.е. что-то предоставить в ответ). При молчаливом слушании суд вполне может принять доказательства вины, представленные истцом.

Такое бахвальство "пусть докажут, что я виноват" обычно заканчивается даже не в суде, а до него. Именно так и было с Mail.ru.

Компания испугалась суда и урегулировала все претензии во внесудебном порядке.

Mail.ru Group не обанкротились пока

Слава, может быть хватит паясничать? Если я докажу в суде, что ты нанес мне ущерб на 100 р., тебя обязуют возместить этот ущерб (возможно, еще и судебные издержки). Но это тебя не обанкротит. Но и не сделает невиновным.

новость и противостоянии прибавляет (в текущий момент) интерес к ним.

Это было несколько лет назад. Как это может подогревать интерес к ним сейчас?

Чтобы прокомментировать, или

Тенденции в области технологий поиска в СЭД

Комментарии 10

Похожие статьи

Бумага или двоичный код. Испытание на прочность

Как безопасно объединить локальные и облачные сервисы хранилищ

Перед гиперпрыжком в облако не забудь про план "Б"