Журнал о системах электронного документооборота (СЭД)
Разные задачи в ECM

Практические таксономии: применение строгого библиотечного порядка в информационных технологиях

  0 комментариев Добавить в закладки

Дэвид Гаффани

Разъяснение важности развития прикладной таксономии в сравнении с академическим подходом.

Количество неструктурированного контента растет экспоненциально, угрожая завести организацию, стремящуюся к управлению контентом и его хранению, в тупик. Но организациям из соображений соответствия различным требованиям, удобства ведения делопроизводства и судебных тяжб необходимо искать пути для более быстрого и эффективного поиска и извлечения данных.

Если хранить всю информацию в рамках логичной структуры и понятной иерархии, с непротиворечивым набором ключевых слов и метаданных, заданных во всех элементах контента, то можно эффективно, точно и  последовательно извлекать нужные данные. В совершенном мире все бы так и делали, если бы могли реализовать информационную модель компании с нуля.

На самом же деле большинство организаций похожи скорее на коллекцию библиотек, в каждой из которых есть свой порядок регистрации и хранения документов. Одна библиотека может состоять из оперативных отчетов, упорядоченных по номерам покупателей, заявлений или по какому-то иному индексу, другая – по направлению деятельности, по территории, по дате и т.д., при этом у них нет общего словаря для специальных терминов.

Чтобы избавиться от такой путаницы и упорядочить свою рабочую среду, организации принимают идею таксономии. В сфере управления потоками информации и контентом таксономия подразумевает наличие:

●     классификационной иерархии, которая распределяет информацию по понятиям, от наиболее общих к самым специальным;

●     метаданных, состоящих из терминов нормализованной лексики;

●     общего тезауруса, который обеспечивает перевод эквивалентных терминов;

●     правил для определения иерархии и задания метаданных;

●     других мнений по поводу вышесказанного.

Четко определенный процесс систематизации типов документации, бизнес-процессов и необходимых ключевых слов может помочь создать таксономию, которая охватывает большую часть важного для вас контента. Насколько можно в этом преуспеть? Теоретики бы ответили, что выстраивать таксономию нужно до тех пор, пока не будет получен следующий результат:

●     каждый элемент контента имеет свое место - и только одно;

●     в классификации документов отсутствует неопределенность;

●     никогда не происходит объединение в одну группу разнородного контента.

Все метаданные и ключевые слова имеют свое единственное значение.

Например, после аварии требуется собрать документы для запроса на оплату медицинских услуг. Запрос – это тип документа с четкой структурой и может иметь, например, такую информацию об иерархии: Страхование жизни и имущества/Индивидуальные виды страхования/Автомобильное страхование/Иск о возмещении ущерба/Медицинская страховка/Страхование на случай травм и увечий. К запросу могут прилагаться: акт о несчастном случае, два медицинских заключения из разных источников, рецепты на покупку лекарств, информация о лечении и пр. Теоретически, все эти сопроводительные документы должны существовать в рамках таксономии и иметь дополнительные метаданные, которые либо используются для поиска, либо имеют отношение к выполнению или установлению правил хранения данных.

А теперь представьте, что то же самое нужно выполнять по всем направлениям деятельности организации. Формирование  семиуровневой таксономии  –  пугающее  мероприятие,  которое  имеет  две  проблемы: сохранить  такую  таксономию  практически  невозможно,  а  при  попытке  ее поддерживать  внедрение  ECM-системы  затормозится.

Реализация и поддержка теоретически «идеальной» таксономии практически невозможна. Проблемы индексации непреодолимы. Обычно ECM-системы строятся на реляционных базах данных, где  неструктурированный  контент  хранится  в одноуровневых  структурах,  связанных  с  базой  данных,  которая  выступает  в  качестве  директории. Производители ЕСМ-систем заявляют, что их продукты могут поддерживать «неограниченное» количество уровней в иерархии документов. На самом деле качественное функционирование возможно лишь с использованием трех, или, возможно, четырех уровней.

Дополнительные технические трудности представляет применение метаданных для хранения информации. Использование метаданных и ключевых слов требует от разработчиков ECM компромиссных решений. Чем больше метаданных, тем лучше осуществляется классификация и поиск, но тем сложнее придется системе при индексировании и пользователям при задании терминов (или нужно применять автоклассификатор с развитой логикой).

На сегодня нет авторитетных исследований, но обычно при использовании свыше 15 элементов Дублинского ядра (Инициатива метаданных Дублинского ядра, TheDublinCoreMetadataInitiative– открытая организация, занимающаяся развитием взаимодействующих стандартов метаданных) и 10 дополнительных терминов управление усложняется. Речь идет не только о вводе (или извлечении) этой информации для каждого элемента контента, но и о сохранении словаря этих терминов. (Примечание: некоторые компоненты обеспечения доступа и безопасности Дублинского ядра уже могут быть встроены в инструментарий ECM и не требуют нового описания.)

Проблема состоит в том, чтобы совместить цели чисто теоретической таксономии с ограничениями, которые налагает осуществимое техническое решение. Нужно знать пределы построения таксономии и понимать необходимость компромиссов. Если ваша ЕСМ-система или иное средство систематизации позволяет поддержку только 4 уровней, то следует заранее планировать, до какой степени формировать таксономию. Следует расставить приоритеты между специальными элементами метаданных, таким образом легче определиться, с какими из них работать, а с какими распорядиться иначе. Если держать все это в голове, то можно за один раз создать хорошую рабочую таксономию, а не идеальную с точки зрения теоретиков систему, которую придется заново переделывать, когда ваш ECM-инструментарий не сможет ее поддерживать.

 

Автор – консультант независимой консалтинговой компании Doculabs, оказывающей помощь организациям по стратегическим вопросам ЕСМ-технологии. Контактный телефон 312-433-7793, адрес электронной почтыinfo@doculabs.com.

Перевод компании DIRECTUM

Источник: AIIM (Practical Taxonomies: Applying the Rigor of Library Science to Technology)

Похожие записи
Комментарии (0)
Сейчас обсуждают
Больше комментариев