Журнал о системах электронного документооборота (СЭД)
Электронные документы и обмен ими (ЮЗЭД)

В каком формате должен храниться документв СЭД в DOC, PDF и TIF?

  28 комментариев Добавить в закладки

Вопрос читателя: В каких случаях документ в системе должен храниться в формате DOC,  PDF и TIF? В чем их разница?

В первую очередь следует понять, для чего эти три формата были созданы. DOC — это потомок обыкновенного текстового документа, унаследовавший возможность быть отредактированным кем угодно в любой момент. В ходе эволюции DOC приобрёл возможность форматирования текста, добавления служебной внутренней информации о документе.

Например, в Word 2012 можно вставлять в тело документа видеоролики и аудиодорожки, что явно продиктовано заменой новыми мультимедийными и чувствительными к прикосновениям планшетами постепенно устаревающей бумаги. Но ударение на редактирование содержимого всё-таки осталось. Именно поэтому чаще всего при открытии документа в этом формате любой редактор покажет курсор и предоставит возможность изменить содержимое.

PDF — очень сильный формат, имеющий несколько важных принципиальных отличий от формата DOC. Возможность внедрения шрифтов непосредственно в документ гарантирует одинаковое отображение документа на любом устройстве и на бумаге при печати на любом принтере. Изначально формат не был предназначен для редактирования, однако сейчас многие программные средства для работы с PDF позволяют редактировать документы в этом формате, если таковые не зашифрованы, и неизменность содержимого уже не является особенностью формата. Такой документ также может содержать мультимедийный контент, который не может быть напечатан, но может быть просмотрен на любом компьютере, планшете или смартфоне.

Фактически, DOC и PDF стремятся друг к другу по возможностям, но старая слава по-прежнему заставляет воспринимать первый как что-то непременно изменяемое, а второй — как нечто зафиксированное и неизменное.

TIF стоит отдельно и представляет собой формат хранения изображений, что накладывает на него несколько ограничений. Согласно определению, он содержит только изображение и не содержит текста, а поскольку текста нет, он не может быть проиндексирован, и по содержимому такого документа нельзя выполнить поиск. Многие графические редакторы позволяют изменять содержимое таких документов, но редактированию подвергается именно изображение. Мультимедийное и виртуальное содержимое (то, которое невозможно напечатать) TIF не поддерживает, его возможности ограничиваются разбиением документа на несколько страниц и добавлением служебной информации.

Современное применение и возможности формата TIF сильно пересекаются и всё больше становятся подмножеством формата PDF.

TIF предназначен для хранения исключительно изображений — PDF может хранить изображения, а ещё позволяет строить оглавление, вставлять закладки и наносить текст и мультимедийные метки поверх этих изображений. TIF имеет возможность добавления метаданных — у PDF этот механизм развит лучше (например, древовидное оглавление — тоже метаданные). TIF может сжимать изображения для экономии пространства хранилища — PDF тоже это может. Для просмотра TIF во всех операционных системах есть предустановленные средства, для PDF до сих пор требовалось устанавливать дополнительное ПО, но в Windows 8 приложение для просмотра документов в этом формате уже встроено.

 

Очевидно, для создания и хранения исходных текстов документов логично и целесообразно использовать предназначенный для этого DOC. Минус, состоящий в доступном изменении содержимого, становится плюсом при внедрении СЭД, позволяющей учитывать изменения, их авторство и смену этапов жизненного цикла документа.

Для сканов же печатных документов — и входящих, и исходящих — логично и целесообразно использовать PDF, учитывая его возможности рецензирования, индексации и одинакового представления на разных устройствах вывода и практически полное перекрытие возможностей формата TIF.

Формат TIF, несмотря на популярность на протяжении уже более двадцати лет, сдаёт позиции, с одной стороны, более мощному, а с другой стороны, стандартизированному и потому гарантирующему совместимость на годы вперёд формату PDF. И всё-таки, победитель в этом бою ещё не определён.

Источник: Журнал "Современные технологии делопроизводства и документооборота"

Ещё материалы автора
Похожие записи
Комментарии (28)
Валентина Писанова 01 марта 2013 г. 11:03  

Отличный материал, спасибо Ришат.

Хотела бы обратить внимание на ещё один недостаток формата TIF, найденный собственным горьким опытом: если документ TIF многостраничен, то обнаружить это, к сожалению, можно далеко не каждым просмотровщиком изображений, что может приводить к досадным ситуациям.

Михаил Романов 01 марта 2013 г. 15:03  
TIFF может содержать текстовый слой
На сколько я помню, там все печально в плане стандратизации. Тэг, в котором сохраняла OCR данные 'Imaging' зарегистрирован как Private TIFF Tags, т.е. используется для внутренних нужд какой-либо компании. В данном случае это закрытое решение от Microsoft, которое использовалось в 1-2 программах, которые теперь даже не найти.
Андрей Подкин 02 марта 2013 г. 23:38  
Word 2012
Хм... А что это? Перед Office 2013 что-то еще было?
 
PDF — очень сильный формат, имеющий несколько важных принципиальных отличий от формата DOC.
Например? Если я правильно помню, в doc тоже можно внедрять шрифты.
 
для PDF до сих пор требовалось устанавливать дополнительное ПО
Только в Windows. В остальных ОС PDF, так же как и TIFF, просматривается "из коробки".
 
Очевидно, для создания и хранения исходных текстов документов логично и целесообразно использовать предназначенный для этого DOC.
Совсем не очевидно. Почему DOC, а не DOCX или ODT? Например, DOC теперь стал несовместим с Google Docs (Drive). Так что если требуется обеспечить совместимость с этим сервисом, DOC не подойдет.
 
Формат TIF, несмотря на популярность на протяжении уже более двадцати лет, сдаёт позиции, с одной стороны, более мощному, а с другой стороны, стандартизированному и потому гарантирующему совместимость на годы вперёд формату PDF.
Это с одной стороны. А еще есть и другая сторона. TIFF раньше часто применялся и для одностраничных изображений. Сейчас он в этой области тоже сильно сдал свои позиции (JPEG для сканов вполне пригоден, а если надо просто сохранить какую-то картинку со сжатием без потерь, то на выручку приходит PNG).
Вячеслав Смирнов 04 марта 2013 г. 12:01  
На сколько я помню, там все печально в плане стандратизации. Тэг, в котором сохраняла OCR данные 'Imaging' зарегистрирован как Private TIFF Tags, т.е. используется для внутренних нужд какой-либо компании. В данном случае это закрытое решение от Microsoft, которое использовалось в 1-2 программах, которые теперь даже не найти.

Для хранения информации по патентам используются TIFF с текстом. Например, вот тут http://www.google.com/googlebooks/uspto-patents-grants.html используется формат, где карточка охранного документа (метаданные) сохранена как текст (xml), пригодный для обработки. А оригинал документа - как изображение. Описание формата доступно после скачивания любого архива.
 
Вариации форматов представления этих документов представлены на странице http://www.google.com/googlebooks/uspto-patents.html
Тайный Удмурт (42+) 05 марта 2013 г. 09:53  

Году в 2002-м примерно участвовал в обсуждении, как хранить документы. Констатирую - ничего не изменилось. А не пора ли уже от визивига в сторону смыслового содержимого документа уйти?

Михаил Романов 05 марта 2013 г. 11:58  
А не пора ли уже от визивига в сторону смыслового содержимого документа уйти
А зачем?
Тайный Удмурт (42+) 05 марта 2013 г. 12:42  
А зачем?
Действительно - зачем?
Главное ведь не о чём документ, главное - чтобы "красивый" был. :)
Михаил Романов 05 марта 2013 г. 14:08  
Действительно - зачем?

То есть, рассказать о спектре решаемых задач вы не хотите или не можете, но щегольнуть красивым термином "смысловое содержимое документа" не преминули?

Тайный Удмурт (42+) 05 марта 2013 г. 15:54  
То есть, рассказать о спектре решаемых задач вы не хотите или не можете, но щегольнуть красивым термином "смысловое содержимое документа" не преминули?
Не вижу ничего красивого в этом термине, естественно, и "щеголять" им не собирался.
Про спектр задач тем более не понял. Чем решаемых? Или кем решаемых?
Мне всегда казалось, что документы, которые имеют хождение внутри организации, несут какой-то смысл. Типа - "Чтобы достичь того-то и того-то нужно сделать это, это  и ещё вот это. Для этого предлагается произвести ряд мероприятий, включающий то-то и то-то". И т.д. Со списками участвующих и ответственных, бюджетами, сроками...
Ну и много ещё всякого разного.
Так вот в этих документах мне всегда казалось главным не то, каким фонтом они набраны и с каким интервалом, а именно содержание документа.
Мало того, изначальная привязка оформления к документу, на мой взгляд, даже неправильна.  У каждого не только свои предпочтения, но ещё и разные подручные средства воспроизведения контента, и - да! - особенности зрения - близорукость, дальнозоркость, дальтонизм и т.д.
Вагон радости доставляет сверстанный под Letter документ на семидюймовом планшете или ещё круче - на телефоне. А если из документа показать суть - то есть его текст - то и 3 дюйма могут оказываться вполне юзабельны.
Но и голый текст - естественно - не есть хорошо. Визивиг-редакторы дают слишко много свободы и изначально нацелены именно на оформление. Даже использование стилей могло бы очень сильно помочь в восприятии документа разными людьми с разными предпочтениями - свой стиль подсунул, и уже что-то. Но стили практически никто не использует. Точнее - когда в ворде документ колотят, не используют, всё-таки в приличном вебе уже несколько иначе.
А ведь в документ можно внести ещё и действительно логическую разметку и даже навесить на неё полезный функционал...
Михаил Романов 06 марта 2013 г. 09:35  
Про спектр задач тем более не понял. Чем решаемых? Или кем решаемых?
Решаемых переходом к "смысловому содержимому документа"
 
 
Ну и много ещё всякого разного.
Вот все что вы перечислили (и про стили, и предпочтения, ...) - это ровно оформление и не более.
 
Так что я совсем в сметении - о каком именно содержимом вы говорите, в чем польза от этого содержимого и как его использовать.
Тайный Удмурт (42+) 06 марта 2013 г. 11:34  
Вот все что вы перечислили (и про стили, и предпочтения, ...) - это ровно оформление и не более.
Именно. Это всё было к тому, что не пдф, не тиф и не док должны храниться в СЭД.
 
Так что я совсем в сметении - о каком именно содержимом вы говорите, в чем польза от этого содержимого и как его использовать.
Ну сами-то включите фантазию. :)
Например, всем ли сотрудникам, которых касается документ, нужно всё его содержимое?
Опять же релевантность поиска...
 
Андрей Подкин 06 марта 2013 г. 12:09  
Это всё было к тому, что не пдф, не тиф и не док должны храниться в СЭД.
Не могли бы вы в таком случае привести примеры форматов документов, которые должны храниться в СЭД?
 
Опять же релевантность поиска
А что не так с релевантностью поиска DOC или PDF в СЭД?
Михаил Романов 06 марта 2013 г. 13:29  
Ну сами-то включите фантазию. :)
Я бы хотел реальные примеры, а не чьи-то фантазии.
 
Это всё было к тому, что не пдф, не тиф и не док должны храниться в СЭД.

Я так и не понял почему и что должно храниться?

Опять же релевантность поиска...

А что с релевантностью поиска?
 

 
Тайный Удмурт (42+) 06 марта 2013 г. 14:29  
Не могли бы вы в таком случае привести примеры форматов документов, которые должны храниться в СЭД?
Я так и не понял почему и что должно храниться?
Например, XML.
 
А что не так с релевантностью поиска DOC или PDF в СЭД?
А что с релевантностью поиска?
Её, релевантность эту самую, можно улучшить. :)
 
Я бы хотел реальные примеры, а не чьи-то фантазии.
Ну зачем чьи-то? Свои должны быть.
Излагать здесь не буду.
Во-первых, я вроде и так достаточно написал.
Во-вторых, просто много других забот.
Если хотите подробностей, можете взять меня на работу. :)
Я извиняюсь, что вообще в это ввязался, но я реально не представляю, как и что реализовано в "местных" СЭДах. Надеюсь, всё не так страшно, как мне начинает казаться.
Андрей Подкин 06 марта 2013 г. 16:22  
Например, XML.
Интересная точка зрения. А как по вашему пользователи должны будут смотреть или редактировать такие файлы? Причем пользователи, технически не подкованные.
 
 
Её, релевантность эту самую, можно улучшить.
И где здесь проблема собственно формата? Документ в DOC или PDF вполне может находиться столь же релевантно, как XML, TeX или какой-то еще. Здесь больше вопрос к качеству поиска в конкретной системе, а не к формату.
Тайный Удмурт (42+) 07 марта 2013 г. 00:43  
Здесь больше вопрос к качеству поиска в конкретной системе, а не к формату.
Скажу так - если повысить качество описания документа или его частей, то и релевантность поиска можно повысить.
 
А как по вашему пользователи должны будут смотреть или редактировать такие файлы? Причем пользователи, технически не подкованные.
А в случае с тифами такой вопрос не возникает?
Редактирование тифа технически неподкованным пользователем я себе представляю примерно так:
  • напечатал
  • поправил карандашами, маркерами и штрих-корректорами
  • отсканил
  • профит

Технически подкованному можно и фотошоп купить.

А вообще редактировать документы нужно редакторами документов.

 

Михаил Романов 07 марта 2013 г. 09:18  
А в случае с тифами такой вопрос не возникает?

Т.е. вы предлагаете действовать на контрасте?
Сначала предложить пользователям писать документы в Paint, а затем, на контрасте, предложить XML? После чего, они с радостью выберут последний вариант?

P.S. Иного объяснения, почему вы задали этот вопрос я просто не вижу. 
 

 
Елена Питомцева 07 марта 2013 г. 09:44  

К слову попался материал про то, как в одной "СЭД" хранились "структурированные" документы - "HTML-таблицы с описанием объектов и набора параметров в виде строки, другие списки свойств в формате «ключ-значение» в виде тех же HTML-таблиц. Были, правда и экранные формы, включающие несколько закладок, но на вопрос для чего это сделано кто-то мне ответил, что закладки нужны для больших документов, которые не помещаются на один экран, чтоб их было быстрее листать." http://mxsmirnov.wordpress.com/2013/03/06/ecm-side-effect/ Просто напросто это все перестало в какой-то момент нормально работать и выполнять свою функцию.

Тайный Удмурт (42+) 07 марта 2013 г. 09:48  
Т.е. вы предлагаете действовать на контрасте? Сначала предложить пользователям писать документы в Paint, а затем, на контрасте, предложить XML? После чего, они с радостью выберут последний вариант? P.S. Иного объяснения, почему вы задали этот вопрос я просто не вижу. 
Я никогда не предлагал пользователям писать документы в пайнте.
И, кстати, никогда не предлагал писать документы в xml-редакторе.
Я думаю, что пользователям для редактирования документов нужен редактор документов.
Сергей Бушмелев 07 марта 2013 г. 10:53  

Мне нравится эта дискуссия! Не могу утерпеть, что бы не внести свои 6 копеек:

Чтобы ответить на вопрос, в каком формате должны храниться документы в СЭД, ИМХО, надо ответить на один, а точнее, на два вопроас: "Как происходит (производится) наполнение СЭД и можем ли мы устанавливать требования к входным документам?"

Если в СЭД сохраняются документы произвольных форматов, и мы не можем установить ограничения на формат, то большинство "смыслового содержания", то есть знаний о документе уходят в метаданные. Сам документ представляется практически "черным ящиком". Максимум мы получим возможность полнотекстового поиска по тексту документа для ряда поддерживаемых форматов. Мы можем быть ограничены в возможностях управлять форматами, если документы в строго определенном формате поступают от контрагента, и (или) для гарантии значимости документа необходимо хранить его в определенном и (или) оригинальном формате, и (или) в СЭД хранятся документы, создаваемые в определенных приложениях. В последнем случае СЭД используется как низкоуровневый репозиторий. В таком случае все вкусности типа цензурирования (показа определенным пользователям определенных фрагментов документа) и привязки к месту внутри документа нам могут быть недоступны.

Совсем дрругой случай, если документы создаются в определенном, полностью прозрачном и управляемом нами формате. Тогда на радостях мы можем и разнести стиль и содержимое, обращаться к определенному месту в документе, прикрутить цензурирование, иными словами, создавать метаданные для отдельных областей документа. Тут и релевантность поиска сразу подскочит, как температура у больного гриппом. Тогда XML - не самый плохой выбор. Возможно, в веб решениях типа Wikipedia, объединяющих средства хранения, редактирования и демонстрации контента, все именно так и происходит. Если полностью контролировать и управлять форматами документов, можно и СЭД по такому же принципу создать. Если нам приходится иметь дело с произвольными форматами, зачастую "черными ящиками", то такой варинт, скорее всего, не прокатит, и нам ничего не останется как знания о документе выносить в метаданные. А в самых тяжелых случаях искать только по этим метаданным.

Михаил Романов 07 марта 2013 г. 10:59  
Я никогда не предлагал пользователям писать документы в пайнте
Тогда к чему этот пассаж про редактирование TIFF?
 
Я думаю, что пользователям для редактирования документов нужен редактор документов.

В каком именно?

 
Тайный Удмурт (42+) 07 марта 2013 г. 11:03  
Просто напросто это все перестало в какой-то момент нормально работать и выполнять свою функцию.
У меня после прочтения статьи возникло подозрение, что оно "перестало" не потому что было структурировано, а потому что было криво спроектировано.
Правильный выбор формата данных ещё не гарантирует правильность всей системы. Тем более, когда формат настолько "вольный" как XML.
Но  - перетащить данные из этой системы в более адекватную наверняка будет проще, чем из той, где всё хранится в тифах или вордодоках.
 
Вот  ещё оттуда грустная цитата:
"Никто не будет структурировать информацию по собственной воле. Многолетний опыт создания документов в редакторе MS Word формирует соответствующий user experience."
Ну да, и десять лет назад было так.
Но десять лет назад в вебе тоже что попало творилось, а сейчас-то ситуация во многом изменилась. Хотя бы представление от контента худо-бедно оторвали. Мало того, многие сайты вполне можно отпарсить в базы данных благодаря нормально прописанным классам у дивов и спанов...
Но больше всего меня удивляет, что в случае с СЭД обе стороны - и потребители, и разработчики - сливаются в консервативном экстазе. Мне казалось, что программистам положено быть где-то в другом месте.
 
Михаил Романов 07 марта 2013 г. 11:09  
Мне казалось, что программистам положено быть где-то в другом месте.

Они несомннено должны писать некую мифическую систему, которая не понятно что делает, но точно известно, что хранит XML и операирует "смысловым содержанием документа".

Тайный Удмурт (42+) 07 марта 2013 г. 11:24  
Мне нравится эта дискуссия! Не могу утерпеть, что бы не внести свои 6 копеек:
Чего так скромно - 6 копеек, тут рубля на три, не меньше. ;)
Что называется - подпишусь под каждым словом.
 
Тогда к чему этот пассаж про редактирование TIFF?
К тому, что странно - как редактировать TIFF вопросов не возникает, а про XML - возникают.
 
В каком именно?
Ах да, в офисных пакетах же нет редакторов документов.
Ну редактор в данном случае это же программа такая.
А когда готовой программы нет, то что делают?
Михаил Романов 07 марта 2013 г. 11:28  
К тому, что странно - как редактировать TIFF вопросов не возникает, а про XML - возникают
Ну так и объясните толком - что конкретно вы предлагаете:
  1. Как создавать и редактирвоать документы
  2. Как и что хранить
  3. Как использовать XML и как и зачем нужно анализировать документы (или что вы подразумевали про смысловым содержанием)

Я пока не вижу ни одного предложения по существу.

Сергей Бушмелев 07 марта 2013 г. 12:51  
Но больше всего меня удивляет, что в случае с СЭД обе стороны - и потребители, и разработчики - сливаются в консервативном экстазе.

Тут как получается: ECM системы относятся к классу инфраструктурного ПО. По крайней мере, это справедливо для большинства организаций, которые зарабатывают деньги не на продаже информации, а на, скажем, производстве, добыче крайне полезных ископаемых, торговле, финансах и т.п. Чтобы продать ECM-решение такому заказчику, нужно
1) добиться, чтобы заказчик осознал, что у него есть проблемы в части управления корпоративным контентом
2) добиться, чтобы заказчик осознал, что эта проблема ему стоит денег (еще лучше - серьезных денег)
3) добиться, чтобы заказчик уверовал, что ваше решение ему поможет
4) добиться, чтобы ваше решение помогло заказчику
 
Поскольку все это производится фактически на деньги заказчика, справедливо будет ожижать от последнего здорового консерватизма. В части расходования ИТ-бюджета. ECM-вендорам приходится прилагать немало усилий, чтобы формировать спрос на ECM-решения. В том числе, приходится вести просветительскую и образовательную работу.
 
Второй момент. Смею предполагать, что сначала Вы освоили трехколесный велосипед, потом двухколесный, а уже в менее нежном возрасте - управление моторизированными транспортными средствами. Большинство российских организаций начинали (и еще начинают) свой ECM-путь не с управления знаниями, а с более прозаических вещей: классическое делопроизводство, управление договорами, управление финархивом.
Так что сетовать на консервативный ECM-экстаз практически то же самое, что сетовать, что в наш век науки и техники все еще существует начальная школа. Думаю, приземленные, но крайне полезные решения вроде вышеперечисленных еще долго будут пользоваться спросом. Но, соглашусь, любой отрасли нужно развитие. Оно есть. Может, не такое заметное "с поверхности" , как скажем, в сфере потребительской электроники. Но есть :)
Тайный Удмурт (42+) 07 марта 2013 г. 17:16  
Так что сетовать на консервативный ECM-экстаз практически то же самое, что сетовать, что в наш век науки и техники все еще существует начальная школа.
Я же не на экстаз сетую, а на то, что в нём сливаются не только те, кому положено, но и те, кто должен вперед идти.
 
любой отрасли нужно развитие. Оно есть.
Хочется надеяться...
Сейчас обсуждают
Евгений Кочуров 20 марта 2017 г. 07:49  
Юрий Зерин 18 марта 2017 г. 19:18  
Сергей Бушмелев 15 марта 2017 г. 22:47  
Елена Истомина 15 марта 2017 г. 13:08  
Сергей Бушмелев 15 марта 2017 г. 10:46  
Больше комментариев