Наверх

Метаданные электронных документов

Время чтения: 8 минут
5
Метаданные электронных документов

Электронные документы могут хранить различную информацию о том, кто именно их редактировал, сколько раз, когда документ распечатывался. В ряде случаев небезопасно передавать эти данные кому-либо вместе с электронным документом.

Недавно, читая письмо о проведении семинара и заполняя файл регистрационной формы (документы Microsoft Office Word), полученные из серьёзной организации, решил повнимательнее изучить их, а также всё, что было с ними получено.

Почтовое сообщение рассказало о версии почтового сервера и других технических характеристиках. А метаданные doc-документов рассказали о том, кто их написал (они оказались интересными):

  • Организация: SamForum.ws
  • Автор: SamLab.ws
  • Изменено: SamLab.ws
  • Приложение-редактор: Microsoft Office Word

Конкретного конкурентного преимущества, благодаря обладания этой информацией, не было получено. То есть, она не дала мне повода при встрече начать разговор, например, так: «Сергей Алексеевич, в материалах к семинару, вы написали, что ..., поясните пожалуйста ...». Вот если бы автором и редактором документов был указан кто-то, и на семинаре был организатор, которого зовут именно так, как указано в метаданных, то повод бы появился.

На SamLab есть демонстрационный дистрибутив Microsoft Office, видимо, именно при его установке, и были прописаны настройки по умолчанию, указывающие на определённые сайты. В любом случае, это даёт повод полагать, что если на встрече речь пойдет о бесплатном программном обеспечении, открытых проектах, Linux, ... то информация будет принята спокойно. Столь скромная информация тоже важна, если речь идёт о важном деле. Как по завиткам подписи начальника можно определить его настроение во время подписания, так и по мелочам можно получить нужные сведения.

Возможно, сейчас более уместны цитаты из фильмов про Шерлока Холмса, но есть хорошая цитата из фильма «Город Эмбер: Побег»:

Самое главное – быть внимательным. Обращай внимание на всё вокруг, на всё что видишь, на то, что не замечают другие. И ты будешь знать, что другим неведомо. Жизнь скупа на дары, как ты распорядишься дарами – вот, что главное.

— «Город Эмбер: Побег», слова основного рассказчика фильма (отца главного героя, Дона)

Интересны ответы на вопросы:

  1. Как можно использовать метаданные?
  2. Какие метаданные обычно передаются вместе с документами?
  3. Являются ли эти метаданные персональными данными?
  4. Какие программные средства есть для просмотра, редактирования и удаления таких данных?

Как можно использовать метаданные

Во первых очевидно деление вариантов использования:

  • извлечения дополнительной информации (как следствие – получение дополнительной уверенности, как следствие – успешное решение вопросов)
  • формирования дезинформации (как следствие – потеря уверенности дезинформированной стороной, пребывание в сомнениях)

Дезинформацию оставим мастерам спецпропаганды и игрокам политической арены. Поговорим о том, что можно извлечь из документов (из текста и метаданных).

В целом, извлечь можно кое-что, ровно "кое-что", не больше. Если получается извлечь больше, чем кое-что, то это уже то, что стоит стоит оставить мастерам спецпропаганды и игрокам политической арены. Желание и навыки извлечения подобной информации говорят о технической подкованности человека. Поэтому извлечение подобной информации удобно перед устройством на новую работу, в особенности связанной с информационной безопасностью, и конкретно, персональными данными, Или перед посещением технического семинара, где надо будет обратить на себя внимание.

Например, из совокупного анализа заголовков почтового сообщения, анализа сайта компании, и анализа данных и метаданных документов полученных в письме можно определить версии программного обеспечения (а, следовательно, список уязвимостей в этом программном обеспечении), точки входа (адреса, имена, телефоны, контракты, ...), сделать преположения о способах функционирования всего, сделать предположения об использовании каких-то технологий, которых не видно.

А потом сказать при встрече, что по обрывкам данным удалось составить представление о компании и её слабых местах. На что получить ответ, что всё не так, что программное обеспечение пропатчено, а полученные метаданные – утка, не удивить, но удивиться самому и получить свою долю позитива. И, возможно, пятёрку за попытку.

Конкретно в метаданных документов есть имена, идентификаторы и даты. Варианты их использования ниже.

Имена и идентификаторы

Установление авторства документа и причастности отдельного лица к его редактированию позволяет задать предметный вопрос автору (привлечь внимание).

Получение логинов и идентификаторов пользователей закрытой сети в совокупности с подбором паролей, возможно, даст доступ к закрытой сети.

Формирование адресов электронной почты или поиск других контактов из социальных сетей, сервисов обмена сообщениями, которые как-либо указывают на полученные имена и идентификаторы.

Дата и время

Определение актуальности документа, если документ судя по метаданным стар и покрылся цифровой пылью, то его и надо рассматривать как, возможно, устаревший документ.

Определение временного контекста документа (исторический анализ), анализ того, в какой обстановке редактировался документ, какие события при этом происходили.

Определение настроения автора документа, если документ редактировался в 3-м часу прошедшей ночи, то автор документа явно будет сонным, даже если постарается скрыть это и его можно расположиь к себе, разговорить, например, начав беседу с того, что: «Мне так и не удалось вчера поспать, всё думал о сегодняшней встрече» и надеяться, что лёд тронется, и собеседник поддержит беседу.

Определение выдержанности документа, если документ редактировался в последний раз сегодня утром, то, возможно, он ещё не готов.

Какие метаданные обычно передаются вместе с документами

Например, для Microsoft Office Word Document (.doc) могут сохраняться в документе:

  • Общие данные (есть всегда)
    • Редактор (например, Microsoft Office Word)
    • Создание
      • Дата и время (30.09.2011, 09:55:00)
      • Идентификатор пользователя из настроек редактора на момент создания (Смирнов Вячеслав)
    • Редактирование
      • Дата и время (18.12.2012, 18:10:00)
      • Идентификатор пользователя из настроек редактора на момент редактирования (Smirnov)
    • Дата последней печати документа (23.06.2011, 13:54:00)
    • Количество правок (391)
    • Общее время редактирования документа (196:29:00)
  • Данные, сохраняемые с примечаниями к тексту:
    • Дата создания примечания (08.07.2011, 15:40:00)
    • Идентификатор пользователя из настроек редактора на момент создания примечания (SmirnovV)
  • Полная история редактирования (сохраняется при включённом отслеживании изменений в документе)
  • Поля документа:
    • название
    • тема
    • ключевые слова
    • комментарий
    • пользовательские поля
  • Цифровые подписи на документе
  • Макросы в документе
    • Могут содержать полезные комментарии разработчиков макроса
  • Ссылки в тексте документа
    • Могут указать на названия внутренних серверов, используемые сервисы.
  • Метаданные вложенных объектов (например, изображений)

А кроме doc-документа, есть docx, xls, xlsx, pdf, rtf, odt. В них подобный набор метаданных.

Являются ли эти метаданные персональными данными

Частично, если они вообще есть. Сделать некоторые предположения и выводы на основе этих данных можно. Но их ценность не высока. Если кому-то понадобятся конкретные сведения, то, думаю в ход пойдут цветы, конфеты, рестораны, случайные и деловые встречи, телефонные звонки, прямые вопросы. И в самую последнюю очередь будут использованы метаданные документов.

Но с другой стороны, если документов много, а при активном электронном документообороте их много. То их совокупный анализ даст полезный результат.

Какие программные средства есть для просмотра, редактирования и удаления таких данных

Для просмотра и редактирования – собственно, редакторы, с помощью которых и был создан документ. Для удаления – специальные плагины к редакторам, сервисы публикации, небольшие утилиты.

Из того что видел:

  • У компании Инфра-Ресурс есть своя модификация OpenOffice.org под названием InfraOffice.pro, которая генерирует предупреждения о возможности передачи скрытой информации при сохранении, подписании, печати и так далее. При этом можно такую скрытую информацию удалить. Описание программного продукта: https://personas.i-rs.ru/blog/events/268.html
  • Бесплатная утилита Doc Scrubber от Javacool Software, которая удаляет метаданные из doc-документов. Описание программы: https://www.javacoolsoftware.com/docscrubber.html

Собственно, всё. Наткнулся недавно на утилиту Doc Scrubber. Вспомнил про Инфра-Ресурс, про случай с файлами приглашения на семинар, про «Город Эмбер», про то, про сё. А закончить можно цитатой:

По одной капле воды человек, умеющий мыслить логически, может сделать вывод о возможности существования Атлантического океана или Ниагарского водопада, даже если он не видал ни того, ни другого и никогда о них не слыхал. Всякая жизнь — это огромная цепь причин и следствий, и природу её мы можем познать по одному звену.

— «Этюд в багровых тонах» Артура Конана Дойля

Чтобы прочитать эту статью до конца,
или зарегистрируйтесь

Комментарии 5

Собственно, всё.
Дополню твой список, Слав.
В Microsoft Office 2007-2010 имеется возможность подготовить документ к публикации, удалив из него всю лишнюю информацию - ту которую не стоит передавать внешним адресатом.
Список, который предлагает проверять Microsoft куда шире обычных метаданных (подробнее здесь). В частности, это:
  • Комментарии, ревизии (при включенной функции tracking changes), версии.
  • Свойства (метаданные документа)
  • Заголовки и подножия страниц (в них могу содержаться, например, даты), водяные знаки
  • Невидимые элементы, в частности скрытый текст
  • Внедернные XML-данные.

Чтобы посмотреть на работу этого механизма можно очень просто - открыть Backstage (по закладке File на Ribbon), выбрать раздел Info и в выпадающем списке "Check for Issues", выбрать пункт "Inspect Document". Ну а дальше все прозрачно.

Более того, приведенный выше список можно еще расширить, написав свое расширение к Office Document Inspector. Подробнее здесь.

Дополню твой список, Слав.

Спасибо, Миша.

Когда писал, хотел ещё было изучить, что сохраняется при совместном редактировании документов в Microsoft Office. Потом понял, что для этого нужен SharePoint, а его под рукой нет. Думал при этом сохраняется просто связь с SharePoint, а может быть полная история редактирования + связь с SharePoint.

Сейчас прочитал Remove hidden data and personal information by inspecting documents  (здесь №1),  тут написано, что при этом точно сохраняются Document server properties.

А ещё по теме раскрытия информации (information disclosure), в системах учёта уязвимостей есть соответствующая категория слабых мест программного обеспечения. Выделилась она на фоне стремления к анонимизации, раньше такой категории не было. И её понимают по разному:

  • если видео-плеер при просмотре ip-tv отсылает какие-то пользовательские данные в открытом виде, хотя их передавать необязательно, и о них не написано в пользовательском соглашении и документации, то это просто очередной дефект;
  • если смартфон (гораздо более популярный, чем видео-плеер) точно также передаёт какие-то пользовательские данные (даже в зашифрованном виде), хотя их передавать тоже необязательно, но факт их передачи зафиксирован (возможно, неявно, мелким текстом) в пользовательском соглашении и документации, то это уже воспринимается серьёзно (как заговор, даже судебные разбирательства устраиваются).

Таким образом, в программном обеспечении, вообще, а не только применительно к офисным пакетам, вопрос о метаданных и конфиденциальности встаёт если объёмы большие, если пользуется много людей.

Тема электронного документооборота популярная, объёмы растут. Думаю анонимизация из функции офисных пакетов и систем публикации, когда-то превратится в требование.

Когда писал, хотел ещё было изучить, что сохраняется при совместном редактировании документов в Microsoft Office
Слав, не путай.
 
Метаданные хранящихся в SharePoint документов (т.е. документов в работе или в архиве - но внутри компании) и документов подготовленных для передачи вовне организации - это абсолютно разные вещи.

То о чем писал я, это именно функция подготовки документов к публикации.

Я правильно понимаю, что это только у меня дежа вю?

Я правильно понимаю, что это только у меня дежа вю?
Это лишь дополнительное подтверждение того факта, что ECM-Journal не рассматривается в качестве источника информации о ECM даже авторами, которые на нем размещают материалы. Или что у него (EJ) проблемы с поиском.
Чтобы прокомментировать, или зарегистрируйтесь