Журнал о системах электронного документооборота (СЭД)
Управление контентом

Корпоративный поиск и метаданные

  1 комментариев Добавить в закладки

Представляем вашему вниманию перевод статьи Майлза Кихоу (Miles Kehoe), основателя компании New Idea Engineering, которая занимается корпоративным поиском, аналитикой и большими данными. Оригинал статьи читайте на сайте CMS Wire.

В былые времена корпоративному поиску «жилось» очень вольготно. До появления Google он давал людям возможность искать контент в корпоративной интрасети, и это было потрясающе.

«Договор с Акме? Поищи, он найдется».

Cargo Container Lot

 

Пользователи были просто рады найти копию договора, даже если это не была его финальная версия, и даже если они нашли его не на первой странице поиска. Но вот появился Google и другие поисковые системы, и корпоративный поиск оказался в очень плохой позиции.

Что есть у Google, чего нет у корпоративного поиска?

Так почему же поиск в интернете так хорош, а корпоративный поиск все еще еле сводит концы с концами?

По моему опыту, почти всегда этому способствует плохое качество исходных данных. Если это вообще не корень всей проблемы.

Также проблема тесно связана с «объемом активности». Когда тысячи людей выполняют конкретный запрос, информацию о том, какие результаты они просмотрели, можно использовать как «сигнал». Сигнал отправляется обратно в поисковую систему, и со временем это позволяет улучшить результаты поиска.

Поиск, объединяющий в себе большое количество запросов с инструментами для работы с «большими данными» позволяет программам, использующим технологию машинного обучения, вроде Apache Spark, показывать достаточно точные результаты, которые со временем только улучшаются. Но эти инструменты не волшебные – вся их фишка заключается в объеме обрабатываемых данных. Чем больше данных, тем точнее результаты.

По следам поиска

Так о каких же данных идет речь?

В поиске все начинается с запроса. Но поиск также включает в себя действие, которое предпринимает пользователь, получив список результатов. Например, какие документы он посмотрел? Какую позицию в списке результатов занимал объект, который он посмотрел в первую очередь? Много ли времени прошло до того, как пользователь вернулся к другим результатам поиска или даже ввел новый запрос? Каким стал его следующий запрос и что он делал, получив результаты?

Именно такая обработка данных позволяет Google и Amazon заявлять, что эта страница или продукт «могут быть вам интересны». Инструменты для сбора подобной статистики уже сейчас доступны в корпоративных поисках, где-то в большей, где-то в меньшей мере.

И тут мы вновь возвращаемся к объемам активности. Google и Amazon, которые отслеживают все, что пользователи делают на их сайтах, могут с уверенностью утверждать, что «это может быть вам интересно», потому что они знают, что это интересно тысячам и миллионам людей, которые выполняли такой же поисковой запрос и просматривали те же самые результаты.

У корпоративного поиска просто недостаточно данных, чтобы выдавать такие же результаты. Отсюда извечный вопрос: «Почему у нас поиск не как в Google?».

К тому же, у Google есть еще одно важное преимущество над корпоративным поиском: качество исходных данных. Компании нередко нанимают целые команды людей, чтобы они управляли их контентом в Google и других поисковых системах. Это даже породило целую индустрию – поисковую оптимизацию.

Пустите в дело метаданные

Хорошая новость в том, что в корпоративном поиске нет ничего сложного. Подумайте вот о чем. Когда вы создаете контент, вы же не думаете о том, как бы обмануть поисковой движок, введя неверные метаданные? Навряд ли.

Тем не менее, корпоративный контент зачастую страдает от некачественных метаданных.

Так что мы можем сделать, чтобы сделать корпоративный поиск более полезным и результативным?

Во-первых, при создании контента позаботьтесь о качестве метаданных. Например, обратите внимание на то, как вы называете документ, и в какую папку его кладете. Если вы положите «Коммерческое предложение для Акме» в папку с именем другого контрагента, в будущем это только усложнит вам жизнь.

Следом, убедитесь, что в свойстве «Автор» указано ваше имя. Именно ваше, а не имя помощника или коллеги, чей компьютер вы унаследовали, когда его уволили.

Если вы хотите создать в документе собственные поля, и ваша компания использует Microsoft Office, эту возможность вы найдете под меню «Свойства». Свойства отображают список дополнительных полей, которые поисковые движки обычно индексируют.

В таких документах можно настраивать собственные поля. Например, если вы хотите использовать поле «Регион» или «Издатель», чтобы документы было проще искать, добавьте их как дополнительное свойство и задайте значение. Совсем здорово, если нужные поля уже настроены в стандартном шаблоне документа.

Мусор на входе – мусор на выходе

Эта старая поговорка актуальна и по сей день, особенно когда речь идет о корпоративном поиске. Если вы создаете контент, который надеетесь в будущем найти, обеспечьте корректную работу поиска без всяких игр в угадайку: используйте метаданные.

Перевод: Тырина Елена

Источник: CMS Wire

Похожие записи
Комментарии (1)
Елена Питомцева 30 марта 2018 г. 10:17  

Автор блога подтверждает мысль, что корпоративный поиск — это мировая проблема.

Но на самом деле метаданные, это скорее пройденный этап!

 

Вендоры не стоят на месте. Уже сейчас в ECM-системах есть и полнотекстовый поиск, и поиск в распределенной среде, так называемый «федеративный поиск».

 

Но можно пойти еще дальше – начать работать с текстовым слоем документов-изображений, особенно актуально для сканов.

И еще дальше - работать более интеллектуально с контентом, то есть делать поиск не только по словоформам, а по смыслу.

Это уже выход на интеллектуальный уровень. И для этого тоже уже есть работающие инструменты, подробнее на вебинаре 3-го апреля https://www.directum.ru/events/practicum_directum_intellektualnaja_esm__dolojj_rutinu?from=ecmj

Сейчас обсуждают
Больше комментариев