Наверх

Краткая история форматированного документа

Архив
Время чтения: 3 минуты
4
Краткая история форматированного документа

С появлением первого электронного текста, предназначенного для обычного человека, а не для машины, сразу появилась необходимость его форматировать. Например, так: Этот текст ОТФОРМАТИРОВАН, хотя *возможностей* для _этого_ м а л о в а т о.

Фрагмент Оксфордского словаря английского языка, отформатированного с помощью SGML. Скриншот 1985 года.С появлением первого электронного текста, предназначенного для обычного человека, а не для машины, сразу появилась необходимость его форматировать. Например, так:

Этот текст ОТФОРМАТИРОВАН, хотя *возможностей* для _этого_   м а л о в а т о.

Позже появились принтеры, которые позволяли выводить текст несколькими предопределенными шрифтами. Тогда перед нужными словами вставляли коды форматирования, предназначенные для этих принтеров.

Затем поняли, что форматирование (а это не только шрифты, но и разметка текста) не должно зависеть от печатающего устройства. Появились форматы разметки в текстовых файлах, например, TEX или RTF:

Этот RTF-текст отформатирован {\i курсивом}.

Чтобы сэкономить на размере и попутно защититься от реализации другими производителями текстовых процессоров, разработчики предложили ряд бинарных форматов (например, всем известный формат Microsoft Word), тем более, что с появлением WYSIWYG-редакторов возможность чтения и правки исходного текста документа человеком перестала быть определяющей.

Но как только появились форматированные тексты, сразу же возникла мысль – надо отделять форматирование от структуры документа: нужен не курсив, а пометка, что текст является цитатой; не 14-ый кегль шрифта, а указание на то, что текст – это заголовок. Больше того, появилась необходимость определять структуру текста не для целей форматирования, а для целей поиска, преобразований и редактирования разными людьми. Потребовались правила, определяющие структуру документа и позволяющие проверить соответствие документа этим правилам.

У всех на слуху XML, буквально - расширенный язык разметки. Он активно используется именно для целей структурирования текста и поддерживает огромное количество возможностей разметки документа. XML является подмножеством SGML – одного из первых языков разметки, предназначенных для подготовки сложных публикаций.

SGML появился как наследник GML– Generalized Markup  Language – обобщенного языка разметки, созданного IBM в 1980-х годах. В 1986 году SGML принят в качестве стандарта (ISO 8879:1986). SGML позволяет определять произвольные элементы, задавать их структуру и даже генерировать другие языки разметки, например, HTML.

<FAQ>

  <Q>Что такое SGML?</Q>

  <A>Standard Generalized Markup Language</A>

</FAQ>

Такие документы в последующем могут быть преобразованы и в формат RTF, и в PDF, и в .doc.

Основной недостаток XML и SGML-документов – сравнительная сложность их создания. Несмотря на обилие средств для их редактирования, автор должен знать основные правила разметки и представлять, как будет использоваться его документ. Тем не менее, в системах документооборота вполне возможно использование подобных документов для специальных целей. Но об этом – чуть позже.

Чтобы прочитать эту статью до конца,
или зарегистрируйтесь

Комментарии 4

Дамир Галимов 13 апреля 2007

В итоге вместо текста, который трудно читать из-за слабых возможностей форматирования получили текст , который почти невозможно читать, потому что это не текст, а по сути его структура. Естественно это высказывание справедливо для того, кто этот текст пишет и публикует, а для тех кто этот текст видит в результате - он красивый и удобный.
Ну а дальше для тех кто пишет стали придумывать средства автоматизации для создания структурированного форматированного текста и в итоге столько всего напридумывали!

А вначале было просто слово....

Антон ИСУПОВ 13 апреля 2007
+1. Интересно, занимательно, поучительно. В итоге, что мы можем предложить? Историю изучают не ради интереса, а для того, чтобы найти, придумать, предложить что-то более новое и оптимальное. Так что мы предлагаем?
Михаил Романов 13 апреля 2007
2Дамир Галимов.
В корне не согласен!
Для представления среднестатистического документа, будь то офисный документ или научная статья требуется совсем небольшой семантический словарь. Буквально выделить понятия: глава, раздел, пункт, подпункт, ключевое слово, определение и т.д.
По сравнению, с богатсвом языка CSS, XSL-FO или того же RTF это не так уж и много. Кроме того, пишущий документ, по-сути, и так мыслит категориями семантической разметки, т.е. примерно так: "Вот сюда надо вставить определение - значит первое слово у меня будет жирнвм, потом все пойдет курсивом. А под конец надо будет весь абзац заключить в рамочку". Если же человек применяет продуманную семантическую разметку (с уже готовыми стилями представления), то его работа сведется, например, к такому выражению:
<definition notion="понятие">определение</definition>

Не так уж и страшно... :)
Антон ИСУПОВ 16 апреля 2007

Согласен с Михаилом и в развитие темы. Часть управляющих символов мог бы вставлять в сам редактор. Это к тому, что поле переписки в задачах/заданиях DIRECTUM можно было бы сделать более наглядным и "читабельным". Т.е. сворачивание текстов подзадач, выделение шрифтом и цветом, а не этот сплошной текст с отступами. Неужели это такая сложная задача? Или все упирается в техническую реализацию, когда на этапе становления работа с текстом была "намертво" зашита в карточку задачи/задания DIRECTUM и теперь требует громадных усилий по интеграции более совершенных методов?

Чтобы прокомментировать, или зарегистрируйтесь