Наверх

Морфологический ящик для документов

Время чтения: 5 минут
12
Морфологический ящик для документов

Освещая наступательное аналитическое вооружение, будет непростительным упустить один очень простой, и в то же время мощный, инструмент - морфологический ящик.

Освещая наступательное аналитическое вооружение, будет непростительным упустить один очень простой, и в то же время мощный, инструмент - морфологический ящик. Материала для знакомства с ним более чем достаточно и практически всегда описание начинается с примеров. Поэтому позволю себе опустить нудное теоретическое определение и сразу перейду к тематическим примерам ящиков.

Форма определяет содержание 

В каких формах может существовать документ? Чтобы не утонуть в деталях, из всего множества форм для примера возьмем только несколько:

  • бумажный,
  • бумажный со штрих-кодом,
  • электронный/неструктурированный,
  • электронный/структурированный,
  • электронный/скан-образ.
  • Что может быть содержанием документа? И снова для наглядности остановимся лишь на трех видах документов: приказы, входящие письма и товарные накладные. Оговорюсь, для полноценного анализа требуется выписать все виды документов, существующих в организации.

    Итак, мы выделили две оси классификации документов: "форма" и "содержание", для каждой оси обозначили набор возможных значений. Теперь, строим таблицу: откладываем значения одной оси в строках, другой - в колонках. Следующий шаг: смотрим внимательно на каждую ячейку таблицы, и помечаем ее, если данная комбинация формы и содержания чем-то может быть полезна. Морфологический ящик готов:

    Приказы

    Договоры 

    Входящие счета

    Бумажный

    X

    X

    X

    Бумажный со штрих-кодом

    X

    X

    Электронный
    неструктурированный

    X

    X

    Электронный
    структурированный

    X

    X

    Электронный
    скан-образ

    X

    X

    Таким способом можно найти необычные (по крайней мере, для собственной практики) решения. Это, например, может быть нанесение штрих-кода на договор перед отправкой контрагенту на согласование, чтобы по возвращении документа быстро найти его в своей системе. Или еще сканирование и распознавание входящих счетов-фактур для снижения нагрузки на операторов. Или даже отказ от сканирования приказов, т.к. их тексты уже есть в электронном виде, а подтверждение наличия подписи первого лица требуется крайне редко.

    Конечно, нет гарантий, что удастся получить новое полезное решение, но зато есть уверенность, что анализ был исчерпывающим и ни одна интересная вариация не осталась без внимания.

    Другие оси

    "Форма" и "Содержание" - далеко не единственные оси, по которым можно нашинковать электронно-бумажный ворох. Для затравки подкину еще несколько:

  • Место хранения - стеллаж в бухгалтерии, сейф у генерального, файл-сервер, СЭД, внешний архив, ...
  • Места возникновения и назначения - входящий, внутренний, исходящий, транзитный.
  • Способ доступа - поиск по журналу/картотеке, атрибутивный поиск, полнотекстовый поиск, заявка во внешний архив, ...
  • Уровень доступа - совершенно секретно, секретно, для служебного пользования, несекретно.
  • Например, морфологический ящик с осями "Вид документа" и "Уровень доступа" позволяет качественно подойти к выстраиванию системы безопасности документов.

    Другие представления

    Выше была речь только о двумерном (т.е. с использованием двух осей) анализе. Наилучшее представление для него - обычная таблица. На практике же иногда возникает задача трех-, четырех-, а то и больше мерного пространства. В этом случае есть два основных пути:

  • Последовательно анализировать двумерные срезы;
  • Построить сводную таблицу.
  • Вообще, тема морфологического анализа просто неисчерпаема, приглашаю к обсуждению :)

    Чтобы прочитать эту статью до конца,
    или зарегистрируйтесь

    Комментарии 12

    Вопрос поднят очень интересный, за что автору спасибо! IMHO, правда, предложенная классификация форм документа несколько отстала от жизни.

    Во-первых, вместо «бумажный» лучше было бы сказать «неэлектронный» или «аналоговый» - традиционные документы могут храниться, например, на микропленке; а ведь существуют ещё аудио- видео- и фотодокументы на аналоговых носителях… Далее, что, по мнению автора, мешает поставить на приказе штрих-код? На практике это уже делается. Ещё вопрос: в чём принципиальное отличие скан-образа от электронного неструктурированного документа (считая, что речь идет именно о документах, а не о незаверенных копиях)? На практике, в ряде ведомств используются скан-образы приказов, подписанные ЭЦП  - что предлагаемая  схема не предусматривает. А почему, интересно, входящий счет не может быть «электронным неструктурированным»?

    Во-вторых, автор не учитывает существование гибридных документов, имеющих как электронную, так и неэлектронную часть. Примеры: налоговая декларация с двумерным штрих-кодом, банковские карты.

    Наконец, всегда нужно четко определять, что понимается под «структурированностью». Для одних и отформатированный текст – структурированный документ; для других – это excel-таблица, а для третьих – EDI-сообщение, XML-файл или документ в базе данных.

    Да уж, терминология - это вечная проблема. На бумажных и электронных документах я решил остановиться для простоты, но вы правы, перечислить все возможные формы все же не мешало бы. Под "структурированным электронным документом" здесь понимается форма хранения, в которой возможен машинный доступ ко всем существенным для управленческого учета атрибутам документа. Включая такие атрибуты, как например перечень номенклатуры в счете-фактуре. Будет ли это XML-файл или запись в БД - не так уж важно в данном случае. В этом смысле двумерный штрих код на декларации является электронным структурированным документом на бумажном носителе, т.е. отдельной формой, не подпадающей ни под одну из исходно перечисленных.

    "Неструктурированный электронный документ" - тут конечно я не очень точно выразился, строго говоря, скан-образы тоже подпадают под эту категорию. Имелись ввиду редактируемые форматы на текстовой основе, такие как doc, rtf, xls, txt. А отделил я их от сканируемых текстов по нескольким причинам - 1) редактируемость 2) более качественная индексируемость 3) меньший объем. Кстати, здесь вспоминаются форматы PDF, PDF/A и XPS, которые, вероятно, тоже имеет смысл вынести в отдельные категории. Что касается ЭЦП - я склонен думать, что это вообще отдельная ось :)

    Безусловно, в некоторых ситуациях найдется место и для сканов приказов, и для их штрих-кодирования. Со штрих-кодом на приказе ситуация рассматривалась такая: если внутренний документооборот организации полностью переведен в электронный вид, то необходимость в штрих-коде отпадает, т.к. бумага, отпечатанная "для порядку", тут же складывается на хранение.

    Пока писал, задумался, а не совершается ли ошибка, когда между осями "содержание документа" и "вид документа" ставится знак равенства? Те же входящие письма могут иметь весьма и весьма разное содержание...

    А почему, интересно, входящий счет не может быть «электронным неструктурированным»?

    Если мы можем и для нас имеет смысл договориться с поставщиком, чтобы он отправлял электронный неструктурированный документ в дополнение к аналоговому, то нам стоит договориться и до того, чтобы отправка производилась сразу в структурированном виде, например XML. Правда, этот подход уводит в сферу задач унификации НСИ среди организаций-партнеров, где формат передачи данных - наименьшая из всех проблем.
    Пока писал, задумался, а не совершается ли ошибка, когда между осями "содержание документа" и "вид документа" ставится знак равенства?

    Согласно ГОСТ Р 51141-98 "Делопроизводство и архивное дело. Термины и определения" п.36, "вид письменного документа: Принадлежность письменного документа к системе документации по признакам содержания и целевого назначения". В свою очередь (п.34) "система документации: Совокупность документов, взаимосвязанных по признакам происхождения, назначения, вида, сферы деятельности, единых требований к их оформлению".

     С этой точки зрения, "вид" учитывает содержание документа, но не сводится к нему. Что же касается "входящих" и "исходящих", это другая плоскость (по направлению движения) - те же приказы, например, могут быть входящими, исходящими и внутренними документами.


    вспоминаются форматы PDF, PDF/A и XPS, которые, вероятно, тоже имеет смысл вынести в отдельные категории
    Известных форматов многие сотни. Что, все будем выделять в особые категории? И будем считать  документы в формате DOC и в формате RTF в чем-то принципиально разными?
    Евгений Кочуров написал: Правда, этот подход уводит в сферу задач унификации НСИ...
    В первую очередь, это правовой вопрос. Организация, по собственному решению, напрочь откажется принимать от контрагентов "обычные" счета (ведь именно в этом смысл отсутсвия крестика в соответствующей строкие таблицы)? Вряд ли госорганы и суды признают такое поведение законным.

    Довольно хитрая формулировка... Можно ли из нее заключить, что "Вид документа" - это комбинация двух осей: "содержание" и "назначение"? Тогда "Система документации" - это пространство, дважды включающее ось "назначение", один раз явно, и один раз опосредованно через "вид документа"?

    будем считать документы в формате DOC и в формате RTF в чем-то принципиально разными?

    Да, тут я лишку хватил :) Все-таки форматы хранения неравнозначны, их как-то надо разделять, правда, согласен, не настолько подробно.

    Организация, по собственному решению, напрочь откажется принимать от контрагентов "обычные" счета

    Ни в коем случае. Речь идет о случаях, когда организации договариваются между собой о формах документооборота. Например, об использовании единых справочников материалов, единиц измерения, правил наименования и кодирования партий. Это позволяет оперативно обмениваться структурированными документами, не забывая, конечно, подкреплять их актами и счетами-фактурами в установленном порядке.

    Тогда "Система документации" - это пространство, дважды включающее ось "назначение", один раз явно, и один раз опосредованно через "вид документа"?

    Получается, что так

    Я бы еще отметила, что есть два подхода к классификации документов - по формальным признакам (самый распространенный у нас, но сильно сдавший позиции во многих зарубежных странах), и по функциональному назначению ("документы, подтверждающие то-то и то-то" - когда упор делается на роль документа в деловых процессах, а не на его название и особенности оформления). По сути дела, в ГОСТовском определении и говорится о том, что вид определяется как формальными признаками (я бы именно так понимала слово "содержание"!), так и функциональным назначением документа. Например, "приказ по личному составу" - здесь слово "приказ" говорит о форме документа, а "по личному составу" - о том, какой круг вопросов в документе затрагивается, и для каких целей он используется.

    Все-таки форматы хранения неравнозначны, их как-то надо разделять, правда, согласен, не настолько подробно.
    Сейчас основным (особенно за рубежом) является иной подход: документ рассматривается как совокупность содержания, метаданных (реквизитов) и структуры, а формат - как вторичная особенность. Допускается (и даже поощряется) как одновременное существование документа в нескольких форматах, так и преобразование его со временем в новые форматы (особенно тогда, когда старые форматы морально устаревают).


    Думаю, Вы согласитесь, что бумажный документ ничем принципиально не отличается от электронного документа, содержащего ту же информацию и оформленного в соответствии с установленными требованиями (по крайней мере, так сказано в законодательстве ). Тем более нет нужды искать какие-то глубокие различия между электронными документами в разных форматах. Формат, как мне кажется, больше влияет на технологические особенности работы с документом.

    Содержание, которое на самом деле форма... Бедный Кант, вероятно, перевернулся в гробу :)

    Пример морфологического ящика для документов, как видим, не получился.

    Предлагаю в примере заменить слово документ на слово мартышка.

    Мартышка бумажная, электронная, с штрих-кодом, оформляется приказом, договором и входящим счетом. Тут все специалисты по мартышкам и пример пройдет.

    На мартышек нет ГОСТов, других руководящих документов, поэтому можно придумывать все что угодно, и Кант может спать спокойно.

    Отчего ж не получился? Запутанные формулировки ГОСТа этому нисколько не мешают, как раз наоборот, получился способ их обойти.

    Про мартышек - это, конечно, шутка.

    Вызывает сомнение эффективность метода в котором нужно работать по площадям. При современных требованиях к автоматизации документационного обеспечения управления по широте охвата и количеству уровней - плоскими или объемными ящиками не обойтись, нужно поддерживать вложенность, смену семантики при изменении уровня представления данных. Руками создавать такие ящики получится профанация, автоматически генерить комбинации бессмысленно - понять не кому. Кроме этого, наполненный ящик (результат анализа) - это не модель системы, для построения модели системы нужно еще крепко извернуться для построения рабочего проекта.

     Краткая историческая справка.

    "В 1942 г. швейцарский астрофизик Ф.Цвикки обнародовал ряд методов, которыми рекомендовалось пользоваться при решении научных и технических задач. Сначала этих методов было семь, впоследствии Цвикки остановился на трех основных, сочтя остальные либо недостаточно эффективными, либо недостаточно самостоятельными. В их числе:

    1) метод отрицания и конструирования (МОК);
    2) метод систематического покрытия поля (МСПП);
    3) метод морфологического ящика (ИМЯ).

    Совокупность методов Цвикки получила название "морфологический подход". Титов В.В"

    Иными словами, каждому фрукту свой срок.


    Я бы сказал, каждой ягоде свое поле. Несмотря на почтенный возраст морфологических таблиц, на них построен целый спектр актуальных сегодня управленчиеских методик. Из наиболее известных можно упомянуть abc-, xyz-, swot-анализы.

    По крупному, не вызывает сомнений ограниченная применимость морфологического анализа. Однако дьявол, как известно, в мелочах.

    Пример 1. Не секрет, что тотальное штрихкодирование, сканирование, распознавание и индексирование не всегда оказывается эффективной стратегией. Организация, внедряющая электронный документооборот последовательно и прагматично, предпочитает предварительно разобраться, какие документы имеет смысл сканировать, какие процессы могут ускорить штрих-коды,  будет ли польза от полнотекстового индекса по распознанным текстам документов, какую информацию эффективнее извлекать из содержания документа и хранить в структурированном виде. И так по каждому виду документов. Ну или как минимум по каждому потоку документов. В результате получается морфологическая таблица, построенная вручную.

    Далее, может показаться странным, но для успешного решения задачи не всегда требуется понимать, что же означает содержимое каждой ячейки многомерной таблицы:

    Пример 2. Допустим, вы оптимизировали алгоритм некоторой критичной функции, встроенной в ИС нескольких сотен организаций. Теперь ее следует хорошенько протестировать, чтобы обеспечить 100% совместимость с предыдущей версией, т.к. цена ошибки, очевидно, высока. Если у функции N входных парметров, то они образуют N-мерное пространство решений. Все, что требуется - автоматически сгенерировать наборы входных параметров и автоматически же сравнить результаты старой и новой версии функции. Если размеры пространства оказываются чрезмерными даже для полностью автоматической обработки, можно для некоторых входных параметров ограничить значения фактор-множествами. Итого имеем автоматически сгенерированный и автоматически же обработанный морфологический ящик.

    Думается, проблема тут в том, что в корне не верно пытаться укладывать все ДОУ целиком в один ящик (каюсь, заголовок поста получился немного провокационным :)), а вот некоторые частные задачи решать очень даже можно.

    Чтобы прокомментировать, или зарегистрируйтесь