Тенденции в области технологий поиска в СЭД
На что следуют обращать внимание заказчикам сегодня, чтобы корпоративные системы были готовы к требованиям пользователей завтра?
Что сегодня является основной тенденцией в области технологий поиска и «находимости» данных? На что следуют обращать внимание заказчикам сегодня, чтобы корпоративные системы были готовы к требованиям пользователей завтра?
Инструменты поиска структурированной информации уже сильно развиты. Но значимая часть данных приходит на вход в ECM-систему в неструктурированном, произвольном виде. Часто эта информация избыточна и практически всегда лишена ссылок, автономна.
Большое количество усилий требуют одинаково как подготовка данных к хранению в структурированном виде, так и поиск по неструктурированным данным. Можно смело сказать, что чем меньше затрат придётся на первый пункт, тем больше на второй, и наоборот. Очевидно, нужна некая точка равновесия. Не только для разных отраслей, но и для нужд каждого конкретного заказчика позиция этой балансной точки индивидуальна.
Различные технологии обработки данных и извлечения из них информации и, впоследствии, знаний помогают облегчить выбор. Например, непрерывно улучшающая свои показатели технология поиска на естественном языке — один из вариантов решения озвученной проблемы. Чем мощнее эта технология в целом и конкретный продукт, её реализующий, тем меньше затрат потребует ввод информации в ECM-систему.
Или, например, набирает вес такое направление как Data Governance, подразумевающее управление информацией на уровне всего предприятия и введение соответствующих исполнителей внутри организации. В данном случае информация расценивается как имущество организации, её актив. Роль, выполняющая функцию управления информацией на высоком уровне, может быть централизованной, но рекомендуется распределять её, «размазывать» по всей организации. Положительный результат данной практики — в том, что информация непрерывно проходит очистку, а новые данные связываются с уже имеющимися, составляя, таким образом, огромную сеть. Повышается эффективность поиска. Это даёт прямой экономический эффект.
Читайте также Поиск в ECM;
Источник: DOCFLOW
Комментарии 10
Вопрос в том, что подразумевать под "естественным языком". Посмотрите, как работают Яндекс или Google, которые в технологиях поиска намного лет опередили все СЭД вместе взятые. Если вбить в поисковую строку тезисы (набор слов), то результат будет ничуть не хуже, чем по полной фразе на естественном языке. Но, с другой стороны, для каждого слова из набора проводится орфографический, синтаксический и семантический анализ, результаты которого очень существенно помогают искать.
Максим, ну к чему эта очередная статья с кучей общих слов и отсутсвием какой-либо конкретики?
А это точно проблема? Например, если вся эта неструкткрированная информация не требует никакой машинной обработки, то так ли уж нужно её структурировать? Мало того, практически любой значимый документ (договор, приказ, служебка, ...), вносимый в СЭД, снабжается весьма приличным ворохом вполне себе структурированных атрибутов.
Вот если бы вы взяли какой-то конкретный тип документа, и последовательно выписали:
Вот после этого и появится предмет для обсуждения:
Хм, а вот не далее месяца назад ваш коллега Артем утверждал (и достаточно, на мой взгляд, аргументированно), что данные технологии сами по себе ничем принципиально пользователю СЭД помочь не могут. Кому верить?
Я вот не специалист в Data Governance и мне откровенно не ясно из вашего описания, чем этот подход (технология/красивое название/...) принципиально нов и в чем выражается его потрясающий эффект.
Что такое "очистка"? В чем это выражается? А что значит "связываться с уже имеющимися"? Разве не это же происходит, когда вы связываете документы со справочной информацией?
Здравствуйте, товарищи!
Андрей,
Если вбить в поисковую строку тезисы (набор слов), то результат будет ничуть не хуже,
Результат будет хуже, по крайней мере, по мнению поискового робота, а я с ним в последнее время все больше согласен. =)
К естественным запросам предъявляются бОльшие требования, по ним труднее продвигать сайты, нежели по ставшим притчей во языцех запросам, вроде, «пластиковые окна купить москва». В бОльшей степени это касается коммерческих запросов, но и к ликбезным имеет отношение. Если в запросе «система электронного документооборота» поменять местами слова, то выдача гугла будет меняться даже на первой странице, а что там в глубине будет твориться, даже не хочется выяснять.
Кроме того, поиск на естественном языке интересен сейчас еще потому, что поисковые системы будут менять сценарии взаимодействия с пользователем. Пресловутые Google Glass не оставят варианта «вбить в поисковую строку тезисы (набор слов)», управление будет голосовым, запросы проще будет формулировать на естественном языке.
Собственно, под «естественным» здесь и понимается язык, на котором разговаривают.
Это данность.
Артем в первом же абзаце написал: "Сценарии нужно рассматривать шире, а проблему глубжеПодробнее:http://ecm-journal.ru/post/NLQA-v-ECM-Na-primere-7164c27e-6da5-48a3-a63c-9f1b05fe6668.aspx ".
В моем блоге говорится: "один из вариантов решения озвученной проблемыПодробнее:http://ecm-journal.ru/post/Tendencii-v-oblasti-tekhnologijj-poiska-v-SEhD.aspx ".
Не вижу противоречий. В будущем технология может стать более интересной.
Это дополнительный акцент на ценности информации. Нового по сравнению с временами, когда Ротшильдом было декларировано "Кто владеет информацией, тот владеет миром", может, и не много, но интересно, что для закрытия такой с первого взгляда простой и тривиальной задачи сейчас компании готовы выделять ресурс целого подразделения. Мне пока кажется инициатива полезной и оправданной, так как поток данных вокруг нас все интенсивней, и управлять им в компаниях резонно поручить специалистам, которые будут нести ответственность за качество корпоративного (и не только) контента.
Про очистку, к примеру, как с картошкой... Я нашел в интернете White Paper с парой интересных для моего отдела сентенций, хочу сохранить пдф в системе. Логично при этом удалить из документа 8 ненужных страниц, оставив только одну, содержащую те самые сентенции? Думаю, да.
Про связывание - тоже, продолжая пример. При занесении в систему страницы пдф с нужными сентенциями, я могу ограничиться просто сохранением документа в своей папке, могу поместить ссылку на документ в папку своего отдела, а могу настроить связь со своей презентацией, которую читал по данной теме месяц назад. В последнем случае, когда коллеги станут обращаться к презентации, они увидят, что к ней сейчас присоединен еще один документ, вероятность, что они к нему обратятся, стала выше.
И тут хорошо, чтобы в компании были специалисты, которые разрабатывают правила связывания документов, отслеживают, чтобы пользователи правилами не пренебрегали. Опять появляется Data Governance в каком-то виде.
Ох уж этот юношеский максимализм.
Раз и два. Чем первый результат хуже второго?
Или вот пример на английском: тезисный запрос дает искомый результат четвертой строкой (или третьей, если не считать ссылку на картики), а запрос на естественном языке - седьмой (так, что не на каждом мониторе ее будет видно сразу без скроллинга).
Серьезно?! А как насчет ответить перед судом за нарушение авторских прав? Не любая лицензия разрешает модифицировать документ.
Вот таки это интересно однозначно: http://www.cnews.ru/top/2014/04/09/abbyy_vypustila_pervye_resheniya_na_osnove_tehnologii_kotoruyu_razrabatyvala_19_let_567483
И по теме:
хорошо сказано: "Задача поиска в интернете на сегодняшний день решена довольно неплохо во многом благодаря модели краудсорсинга. То есть выдача, которую делают современные поисковые системы в интернете, базируется на ранжировании, обеспеченном «кликами» людей, уже просматривавших данные страницы."
В Российской Федерации это не запрещено, есть статья 1274 Гражданского кодекса РФ, или описание в Википедии, которое можно трактовать как разрешение возможности сохранить несколько страниц текста (текста под любой лицензией), чтобы сделать текст частью подборки или обзора.
К таким случаям относятся использование произведения в информационных, научных, учебных или культурных целях.
Объём использования определяется целью такого использования.
К формам использования произведения в информационных, научных, учебных или культурных целях относятся:
Не являюсь экспертом в области авторского права, руководствуюсь здравым смыслом.
И как это спасет от иска? Будете уже в суде доказывать, что у вас цель такая была.
Но я бы вообще не рекомендовал столь легкомысленно относиться к свободным лицензиям. Противостояние Miranda и Mail.ru Group уже показало, что даже в России со свободными лицензиями лучше не шутить.
На статью 1274 ГК РФ не распространяется презумпция вины. Полагаю, распространяется презумпция невиновности, и доказывать не придётся. Если будут претензии, то схожу послушаю доводы. Слушать людей, разбирающихся в законах, следить за ходом ясной мысли - завораживающий процесс.
Про противостояние Miranda и Mail.ru Group не в курсе, спасибо. Mail.ru Group не обанкротились пока, новость и противостоянии прибавляет (в текущий момент) интерес к ним. Всё нормально.
Если будут претензии, подкрепленные какими-либо доказательствами, то придется не слушать, а как-раз таки доказывать свою невиновность (т.е. что-то предоставить в ответ). При молчаливом слушании суд вполне может принять доказательства вины, представленные истцом.
Такое бахвальство "пусть докажут, что я виноват" обычно заканчивается даже не в суде, а до него. Именно так и было с Mail.ru.
Компания испугалась суда и урегулировала все претензии во внесудебном порядке.
Слава, может быть хватит паясничать? Если я докажу в суде, что ты нанес мне ущерб на 100 р., тебя обязуют возместить этот ущерб (возможно, еще и судебные издержки). Но это тебя не обанкротит. Но и не сделает невиновным.
Это было несколько лет назад. Как это может подогревать интерес к ним сейчас?