В каком формате должен храниться документв СЭД в DOC, PDF и TIF?
Фактически, DOC и PDF стремятся друг к другу по возможностям, но старая слава по-прежнему заставляет воспринимать первый как что-то непременно изменяемое, а второй — как нечто зафиксированное и неизменное.
Вопрос читателя: В каких случаях документ в системе должен храниться в формате DOC, PDF и TIF? В чем их разница?
В первую очередь следует понять, для чего эти три формата были созданы. DOC — это потомок обыкновенного текстового документа, унаследовавший возможность быть отредактированным кем угодно в любой момент. В ходе эволюции DOC приобрёл возможность форматирования текста, добавления служебной внутренней информации о документе.
Например, в Word 2012 можно вставлять в тело документа видеоролики и аудиодорожки, что явно продиктовано заменой новыми мультимедийными и чувствительными к прикосновениям планшетами постепенно устаревающей бумаги. Но ударение на редактирование содержимого всё-таки осталось. Именно поэтому чаще всего при открытии документа в этом формате любой редактор покажет курсор и предоставит возможность изменить содержимое.
PDF — очень сильный формат, имеющий несколько важных принципиальных отличий от формата DOC. Возможность внедрения шрифтов непосредственно в документ гарантирует одинаковое отображение документа на любом устройстве и на бумаге при печати на любом принтере. Изначально формат не был предназначен для редактирования, однако сейчас многие программные средства для работы с PDF позволяют редактировать документы в этом формате, если таковые не зашифрованы, и неизменность содержимого уже не является особенностью формата. Такой документ также может содержать мультимедийный контент, который не может быть напечатан, но может быть просмотрен на любом компьютере, планшете или смартфоне.
Фактически, DOC и PDF стремятся друг к другу по возможностям, но старая слава по-прежнему заставляет воспринимать первый как что-то непременно изменяемое, а второй — как нечто зафиксированное и неизменное.
TIF стоит отдельно и представляет собой формат хранения изображений, что накладывает на него несколько ограничений. Согласно определению, он содержит только изображение и не содержит текста, а поскольку текста нет, он не может быть проиндексирован, и по содержимому такого документа нельзя выполнить поиск. Многие графические редакторы позволяют изменять содержимое таких документов, но редактированию подвергается именно изображение. Мультимедийное и виртуальное содержимое (то, которое невозможно напечатать) TIF не поддерживает, его возможности ограничиваются разбиением документа на несколько страниц и добавлением служебной информации.
Современное применение и возможности формата TIF сильно пересекаются и всё больше становятся подмножеством формата PDF.
TIF предназначен для хранения исключительно изображений — PDF может хранить изображения, а ещё позволяет строить оглавление, вставлять закладки и наносить текст и мультимедийные метки поверх этих изображений. TIF имеет возможность добавления метаданных — у PDF этот механизм развит лучше (например, древовидное оглавление — тоже метаданные). TIF может сжимать изображения для экономии пространства хранилища — PDF тоже это может. Для просмотра TIF во всех операционных системах есть предустановленные средства, для PDF до сих пор требовалось устанавливать дополнительное ПО, но в Windows 8 приложение для просмотра документов в этом формате уже встроено.
Очевидно, для создания и хранения исходных текстов документов логично и целесообразно использовать предназначенный для этого DOC. Минус, состоящий в доступном изменении содержимого, становится плюсом при внедрении СЭД, позволяющей учитывать изменения, их авторство и смену этапов жизненного цикла документа.
Для сканов же печатных документов — и входящих, и исходящих — логично и целесообразно использовать PDF, учитывая его возможности рецензирования, индексации и одинакового представления на разных устройствах вывода и практически полное перекрытие возможностей формата TIF.
Формат TIF, несмотря на популярность на протяжении уже более двадцати лет, сдаёт позиции, с одной стороны, более мощному, а с другой стороны, стандартизированному и потому гарантирующему совместимость на годы вперёд формату PDF. И всё-таки, победитель в этом бою ещё не определён.
Источник: Журнал "Современные технологии делопроизводства и документооборота"
Комментарии 18
Отличный материал, спасибо Ришат.
Хотела бы обратить внимание на ещё один недостаток формата TIF, найденный собственным горьким опытом: если документ TIF многостраничен, то обнаружить это, к сожалению, можно далеко не каждым просмотровщиком изображений, что может приводить к досадным ситуациям.
TIFF может содержать текстовый слой.
То есть, рассказать о спектре решаемых задач вы не хотите или не можете, но щегольнуть красивым термином "смысловое содержимое документа" не преминули?
Я так и не понял почему и что должно храниться?
А что с релевантностью поиска?
Т.е. вы предлагаете действовать на контрасте?
Сначала предложить пользователям писать документы в Paint, а затем, на контрасте, предложить XML? После чего, они с радостью выберут последний вариант?
P.S. Иного объяснения, почему вы задали этот вопрос я просто не вижу.
К слову попался материал про то, как в одной "СЭД" хранились "структурированные" документы - "HTML-таблицы с описанием объектов и набора параметров в виде строки, другие списки свойств в формате «ключ-значение» в виде тех же HTML-таблиц. Были, правда и экранные формы, включающие несколько закладок, но на вопрос для чего это сделано кто-то мне ответил, что закладки нужны для больших документов, которые не помещаются на один экран, чтоб их было быстрее листать." http://mxsmirnov.wordpress.com/2013/03/06/ecm-side-effect/ Просто напросто это все перестало в какой-то момент нормально работать и выполнять свою функцию.
Мне нравится эта дискуссия! Не могу утерпеть, что бы не внести свои 6 копеек:
Чтобы ответить на вопрос, в каком формате должны храниться документы в СЭД, ИМХО, надо ответить на один, а точнее, на два вопроас: "Как происходит (производится) наполнение СЭД и можем ли мы устанавливать требования к входным документам?"
Если в СЭД сохраняются документы произвольных форматов, и мы не можем установить ограничения на формат, то большинство "смыслового содержания", то есть знаний о документе уходят в метаданные. Сам документ представляется практически "черным ящиком". Максимум мы получим возможность полнотекстового поиска по тексту документа для ряда поддерживаемых форматов. Мы можем быть ограничены в возможностях управлять форматами, если документы в строго определенном формате поступают от контрагента, и (или) для гарантии значимости документа необходимо хранить его в определенном и (или) оригинальном формате, и (или) в СЭД хранятся документы, создаваемые в определенных приложениях. В последнем случае СЭД используется как низкоуровневый репозиторий. В таком случае все вкусности типа цензурирования (показа определенным пользователям определенных фрагментов документа) и привязки к месту внутри документа нам могут быть недоступны.
Совсем дрругой случай, если документы создаются в определенном, полностью прозрачном и управляемом нами формате. Тогда на радостях мы можем и разнести стиль и содержимое, обращаться к определенному месту в документе, прикрутить цензурирование, иными словами, создавать метаданные для отдельных областей документа. Тут и релевантность поиска сразу подскочит, как температура у больного гриппом. Тогда XML - не самый плохой выбор. Возможно, в веб решениях типа Wikipedia, объединяющих средства хранения, редактирования и демонстрации контента, все именно так и происходит. Если полностью контролировать и управлять форматами документов, можно и СЭД по такому же принципу создать. Если нам приходится иметь дело с произвольными форматами, зачастую "черными ящиками", то такой варинт, скорее всего, не прокатит, и нам ничего не останется как знания о документе выносить в метаданные. А в самых тяжелых случаях искать только по этим метаданным.
В каком именно?
Они несомннено должны писать некую мифическую систему, которая не понятно что делает, но точно известно, что хранит XML и операирует "смысловым содержанием документа".
Я пока не вижу ни одного предложения по существу.