Наверх

В каком формате должен храниться документв СЭД в DOC, PDF и TIF?

Время чтения: 4 минуты
18
В каком формате должен храниться документв СЭД в DOC,  PDF и TIF?

Фактически, DOC и PDF стремятся друг к другу по возможностям, но старая слава по-прежнему заставляет воспринимать первый как что-то непременно изменяемое, а второй — как нечто зафиксированное и неизменное.

Вопрос читателя: В каких случаях документ в системе должен храниться в формате DOC,  PDF и TIF? В чем их разница?

В первую очередь следует понять, для чего эти три формата были созданы. DOC — это потомок обыкновенного текстового документа, унаследовавший возможность быть отредактированным кем угодно в любой момент. В ходе эволюции DOC приобрёл возможность форматирования текста, добавления служебной внутренней информации о документе.

Например, в Word 2012 можно вставлять в тело документа видеоролики и аудиодорожки, что явно продиктовано заменой новыми мультимедийными и чувствительными к прикосновениям планшетами постепенно устаревающей бумаги. Но ударение на редактирование содержимого всё-таки осталось. Именно поэтому чаще всего при открытии документа в этом формате любой редактор покажет курсор и предоставит возможность изменить содержимое.

PDF — очень сильный формат, имеющий несколько важных принципиальных отличий от формата DOC. Возможность внедрения шрифтов непосредственно в документ гарантирует одинаковое отображение документа на любом устройстве и на бумаге при печати на любом принтере. Изначально формат не был предназначен для редактирования, однако сейчас многие программные средства для работы с PDF позволяют редактировать документы в этом формате, если таковые не зашифрованы, и неизменность содержимого уже не является особенностью формата. Такой документ также может содержать мультимедийный контент, который не может быть напечатан, но может быть просмотрен на любом компьютере, планшете или смартфоне.

Фактически, DOC и PDF стремятся друг к другу по возможностям, но старая слава по-прежнему заставляет воспринимать первый как что-то непременно изменяемое, а второй — как нечто зафиксированное и неизменное.

TIF стоит отдельно и представляет собой формат хранения изображений, что накладывает на него несколько ограничений. Согласно определению, он содержит только изображение и не содержит текста, а поскольку текста нет, он не может быть проиндексирован, и по содержимому такого документа нельзя выполнить поиск. Многие графические редакторы позволяют изменять содержимое таких документов, но редактированию подвергается именно изображение. Мультимедийное и виртуальное содержимое (то, которое невозможно напечатать) TIF не поддерживает, его возможности ограничиваются разбиением документа на несколько страниц и добавлением служебной информации.

Современное применение и возможности формата TIF сильно пересекаются и всё больше становятся подмножеством формата PDF.

TIF предназначен для хранения исключительно изображений — PDF может хранить изображения, а ещё позволяет строить оглавление, вставлять закладки и наносить текст и мультимедийные метки поверх этих изображений. TIF имеет возможность добавления метаданных — у PDF этот механизм развит лучше (например, древовидное оглавление — тоже метаданные). TIF может сжимать изображения для экономии пространства хранилища — PDF тоже это может. Для просмотра TIF во всех операционных системах есть предустановленные средства, для PDF до сих пор требовалось устанавливать дополнительное ПО, но в Windows 8 приложение для просмотра документов в этом формате уже встроено.

Очевидно, для создания и хранения исходных текстов документов логично и целесообразно использовать предназначенный для этого DOC. Минус, состоящий в доступном изменении содержимого, становится плюсом при внедрении СЭД, позволяющей учитывать изменения, их авторство и смену этапов жизненного цикла документа.

Для сканов же печатных документов — и входящих, и исходящих — логично и целесообразно использовать PDF, учитывая его возможности рецензирования, индексации и одинакового представления на разных устройствах вывода и практически полное перекрытие возможностей формата TIF.

Формат TIF, несмотря на популярность на протяжении уже более двадцати лет, сдаёт позиции, с одной стороны, более мощному, а с другой стороны, стандартизированному и потому гарантирующему совместимость на годы вперёд формату PDF. И всё-таки, победитель в этом бою ещё не определён.

Источник: Журнал "Современные технологии делопроизводства и документооборота"

Чтобы прочитать эту статью до конца,
или зарегистрируйтесь

Комментарии 18

Отличный материал, спасибо Ришат.

Хотела бы обратить внимание на ещё один недостаток формата TIF, найденный собственным горьким опытом: если документ TIF многостраничен, то обнаружить это, к сожалению, можно далеко не каждым просмотровщиком изображений, что может приводить к досадным ситуациям.

Отредактировано 7 марта 2013

TIFF может содержать текстовый слой.

Отредактировано 7 марта 2013
TIFF может содержать текстовый слой
На сколько я помню, там все печально в плане стандратизации. Тэг, в котором сохраняла OCR данные 'Imaging' зарегистрирован как Private TIFF Tags, т.е. используется для внутренних нужд какой-либо компании. В данном случае это закрытое решение от Microsoft, которое использовалось в 1-2 программах, которые теперь даже не найти.
Отредактировано 7 марта 2013
Word 2012
Хм... А что это? Перед Office 2013 что-то еще было?
PDF — очень сильный формат, имеющий несколько важных принципиальных отличий от формата DOC.
Например? Если я правильно помню, в doc тоже можно внедрять шрифты.
для PDF до сих пор требовалось устанавливать дополнительное ПО
Только в Windows. В остальных ОС PDF, так же как и TIFF, просматривается "из коробки".
Очевидно, для создания и хранения исходных текстов документов логично и целесообразно использовать предназначенный для этого DOC.
Совсем не очевидно. Почему DOC, а не DOCX или ODT? Например, DOC теперь стал несовместим с Google Docs (Drive). Так что если требуется обеспечить совместимость с этим сервисом, DOC не подойдет.
Формат TIF, несмотря на популярность на протяжении уже более двадцати лет, сдаёт позиции, с одной стороны, более мощному, а с другой стороны, стандартизированному и потому гарантирующему совместимость на годы вперёд формату PDF.
Это с одной стороны. А еще есть и другая сторона. TIFF раньше часто применялся и для одностраничных изображений. Сейчас он в этой области тоже сильно сдал свои позиции (JPEG для сканов вполне пригоден, а если надо просто сохранить какую-то картинку со сжатием без потерь, то на выручку приходит PNG).
Отредактировано 7 марта 2013
На сколько я помню, там все печально в плане стандратизации. Тэг, в котором сохраняла OCR данные 'Imaging' зарегистрирован как Private TIFF Tags, т.е. используется для внутренних нужд какой-либо компании. В данном случае это закрытое решение от Microsoft, которое использовалось в 1-2 программах, которые теперь даже не найти.

Для хранения информации по патентам используются TIFF с текстом. Например, вот тут http://www.google.com/googlebooks/uspto-patents-grants.html используется формат, где карточка охранного документа (метаданные) сохранена как текст (xml), пригодный для обработки. А оригинал документа - как изображение. Описание формата доступно после скачивания любого архива.
Вариации форматов представления этих документов представлены на странице http://www.google.com/googlebooks/uspto-patents.html
Отредактировано 7 марта 2013
А не пора ли уже от визивига в сторону смыслового содержимого документа уйти
А зачем?
Отредактировано 7 марта 2013
Действительно - зачем?

То есть, рассказать о спектре решаемых задач вы не хотите или не можете, но щегольнуть красивым термином "смысловое содержимое документа" не преминули?

Отредактировано 7 марта 2013
Про спектр задач тем более не понял. Чем решаемых? Или кем решаемых?
Решаемых переходом к "смысловому содержимому документа"
Ну и много ещё всякого разного.
Вот все что вы перечислили (и про стили, и предпочтения, ...) - это ровно оформление и не более.
Так что я совсем в сметении - о каком именно содержимом вы говорите, в чем польза от этого содержимого и как его использовать.
Отредактировано 7 марта 2013
Это всё было к тому, что не пдф, не тиф и не док должны храниться в СЭД.
Не могли бы вы в таком случае привести примеры форматов документов, которые должны храниться в СЭД?
Опять же релевантность поиска
А что не так с релевантностью поиска DOC или PDF в СЭД?
Отредактировано 7 марта 2013
Ну сами-то включите фантазию. :)
Я бы хотел реальные примеры, а не чьи-то фантазии.
Это всё было к тому, что не пдф, не тиф и не док должны храниться в СЭД.

Я так и не понял почему и что должно храниться?

Опять же релевантность поиска...

А что с релевантностью поиска?
 

Отредактировано 7 марта 2013
Например, XML.
Интересная точка зрения. А как по вашему пользователи должны будут смотреть или редактировать такие файлы? Причем пользователи, технически не подкованные.
Её, релевантность эту самую, можно улучшить.
И где здесь проблема собственно формата? Документ в DOC или PDF вполне может находиться столь же релевантно, как XML, TeX или какой-то еще. Здесь больше вопрос к качеству поиска в конкретной системе, а не к формату.
Отредактировано 7 марта 2013
А в случае с тифами такой вопрос не возникает?

Т.е. вы предлагаете действовать на контрасте?
Сначала предложить пользователям писать документы в Paint, а затем, на контрасте, предложить XML? После чего, они с радостью выберут последний вариант?

P.S. Иного объяснения, почему вы задали этот вопрос я просто не вижу. 
 

Отредактировано 7 марта 2013

К слову попался материал про то, как в одной "СЭД" хранились "структурированные" документы - "HTML-таблицы с описанием объектов и набора параметров в виде строки, другие списки свойств в формате «ключ-значение» в виде тех же HTML-таблиц. Были, правда и экранные формы, включающие несколько закладок, но на вопрос для чего это сделано кто-то мне ответил, что закладки нужны для больших документов, которые не помещаются на один экран, чтоб их было быстрее листать." http://mxsmirnov.wordpress.com/2013/03/06/ecm-side-effect/ Просто напросто это все перестало в какой-то момент нормально работать и выполнять свою функцию.

Отредактировано 7 марта 2013

Мне нравится эта дискуссия! Не могу утерпеть, что бы не внести свои 6 копеек:

Чтобы ответить на вопрос, в каком формате должны храниться документы в СЭД, ИМХО, надо ответить на один, а точнее, на два вопроас: "Как происходит (производится) наполнение СЭД и можем ли мы устанавливать требования к входным документам?"

Если в СЭД сохраняются документы произвольных форматов, и мы не можем установить ограничения на формат, то большинство "смыслового содержания", то есть знаний о документе уходят в метаданные. Сам документ представляется практически "черным ящиком". Максимум мы получим возможность полнотекстового поиска по тексту документа для ряда поддерживаемых форматов. Мы можем быть ограничены в возможностях управлять форматами, если документы в строго определенном формате поступают от контрагента, и (или) для гарантии значимости документа необходимо хранить его в определенном и (или) оригинальном формате, и (или) в СЭД хранятся документы, создаваемые в определенных приложениях. В последнем случае СЭД используется как низкоуровневый репозиторий. В таком случае все вкусности типа цензурирования (показа определенным пользователям определенных фрагментов документа) и привязки к месту внутри документа нам могут быть недоступны.

Совсем дрругой случай, если документы создаются в определенном, полностью прозрачном и управляемом нами формате. Тогда на радостях мы можем и разнести стиль и содержимое, обращаться к определенному месту в документе, прикрутить цензурирование, иными словами, создавать метаданные для отдельных областей документа. Тут и релевантность поиска сразу подскочит, как температура у больного гриппом. Тогда XML - не самый плохой выбор. Возможно, в веб решениях типа Wikipedia, объединяющих средства хранения, редактирования и демонстрации контента, все именно так и происходит. Если полностью контролировать и управлять форматами документов, можно и СЭД по такому же принципу создать. Если нам приходится иметь дело с произвольными форматами, зачастую "черными ящиками", то такой варинт, скорее всего, не прокатит, и нам ничего не останется как знания о документе выносить в метаданные. А в самых тяжелых случаях искать только по этим метаданным.

Отредактировано 7 марта 2013
Я никогда не предлагал пользователям писать документы в пайнте
Тогда к чему этот пассаж про редактирование TIFF?
 
Я думаю, что пользователям для редактирования документов нужен редактор документов.

В каком именно?

Отредактировано 7 марта 2013
Мне казалось, что программистам положено быть где-то в другом месте.

Они несомннено должны писать некую мифическую систему, которая не понятно что делает, но точно известно, что хранит XML и операирует "смысловым содержанием документа".

Отредактировано 7 марта 2013
К тому, что странно - как редактировать TIFF вопросов не возникает, а про XML - возникают
Ну так и объясните толком - что конкретно вы предлагаете:
  1. Как создавать и редактирвоать документы
  2. Как и что хранить
  3. Как использовать XML и как и зачем нужно анализировать документы (или что вы подразумевали про смысловым содержанием)

Я пока не вижу ни одного предложения по существу.

Отредактировано 7 марта 2013
Но больше всего меня удивляет, что в случае с СЭД обе стороны - и потребители, и разработчики - сливаются в консервативном экстазе.

Тут как получается: ECM системы относятся к классу инфраструктурного ПО. По крайней мере, это справедливо для большинства организаций, которые зарабатывают деньги не на продаже информации, а на, скажем, производстве, добыче крайне полезных ископаемых, торговле, финансах и т.п. Чтобы продать ECM-решение такому заказчику, нужно
1) добиться, чтобы заказчик осознал, что у него есть проблемы в части управления корпоративным контентом
2) добиться, чтобы заказчик осознал, что эта проблема ему стоит денег (еще лучше - серьезных денег)
3) добиться, чтобы заказчик уверовал, что ваше решение ему поможет
4) добиться, чтобы ваше решение помогло заказчику
Поскольку все это производится фактически на деньги заказчика, справедливо будет ожижать от последнего здорового консерватизма. В части расходования ИТ-бюджета. ECM-вендорам приходится прилагать немало усилий, чтобы формировать спрос на ECM-решения. В том числе, приходится вести просветительскую и образовательную работу.
Второй момент. Смею предполагать, что сначала Вы освоили трехколесный велосипед, потом двухколесный, а уже в менее нежном возрасте - управление моторизированными транспортными средствами. Большинство российских организаций начинали (и еще начинают) свой ECM-путь не с управления знаниями, а с более прозаических вещей: классическое делопроизводство, управление договорами, управление финархивом.
Так что сетовать на консервативный ECM-экстаз практически то же самое, что сетовать, что в наш век науки и техники все еще существует начальная школа. Думаю, приземленные, но крайне полезные решения вроде вышеперечисленных еще долго будут пользоваться спросом. Но, соглашусь, любой отрасли нужно развитие. Оно есть. Может, не такое заметное "с поверхности" , как скажем, в сфере потребительской электроники. Но есть :)
Отредактировано 7 марта 2013
Чтобы прокомментировать, или зарегистрируйтесь