Метаданные электронных документов
Электронные документы могут хранить различную информацию о том, кто именно их редактировал, сколько раз, когда документ распечатывался. В ряде случаев небезопасно передавать эти данные кому-либо вместе с электронным документом.
Недавно, читая письмо о проведении семинара и заполняя файл регистрационной формы (документы Microsoft Office Word), полученные из серьёзной организации, решил повнимательнее изучить их, а также всё, что было с ними получено.
Почтовое сообщение рассказало о версии почтового сервера и других технических характеристиках. А метаданные doc-документов рассказали о том, кто их написал (они оказались интересными):
- Организация: SamForum.ws
- Автор: SamLab.ws
- Изменено: SamLab.ws
- Приложение-редактор: Microsoft Office Word
Конкретного конкурентного преимущества, благодаря обладания этой информацией, не было получено. То есть, она не дала мне повода при встрече начать разговор, например, так: «Сергей Алексеевич, в материалах к семинару, вы написали, что ..., поясните пожалуйста ...». Вот если бы автором и редактором документов был указан кто-то, и на семинаре был организатор, которого зовут именно так, как указано в метаданных, то повод бы появился.
На SamLab есть демонстрационный дистрибутив Microsoft Office, видимо, именно при его установке, и были прописаны настройки по умолчанию, указывающие на определённые сайты. В любом случае, это даёт повод полагать, что если на встрече речь пойдет о бесплатном программном обеспечении, открытых проектах, Linux, ... то информация будет принята спокойно. Столь скромная информация тоже важна, если речь идёт о важном деле. Как по завиткам подписи начальника можно определить его настроение во время подписания, так и по мелочам можно получить нужные сведения.
Возможно, сейчас более уместны цитаты из фильмов про Шерлока Холмса, но есть хорошая цитата из фильма «Город Эмбер: Побег»:
Самое главное – быть внимательным. Обращай внимание на всё вокруг, на всё что видишь, на то, что не замечают другие. И ты будешь знать, что другим неведомо. Жизнь скупа на дары, как ты распорядишься дарами – вот, что главное.
— «Город Эмбер: Побег», слова основного рассказчика фильма (отца главного героя, Дона)
Интересны ответы на вопросы:
- Как можно использовать метаданные?
- Какие метаданные обычно передаются вместе с документами?
- Являются ли эти метаданные персональными данными?
- Какие программные средства есть для просмотра, редактирования и удаления таких данных?
Как можно использовать метаданные
Во первых очевидно деление вариантов использования:
- извлечения дополнительной информации (как следствие – получение дополнительной уверенности, как следствие – успешное решение вопросов)
- формирования дезинформации (как следствие – потеря уверенности дезинформированной стороной, пребывание в сомнениях)
Дезинформацию оставим мастерам спецпропаганды и игрокам политической арены. Поговорим о том, что можно извлечь из документов (из текста и метаданных).
В целом, извлечь можно кое-что, ровно "кое-что", не больше. Если получается извлечь больше, чем кое-что, то это уже то, что стоит стоит оставить мастерам спецпропаганды и игрокам политической арены. Желание и навыки извлечения подобной информации говорят о технической подкованности человека. Поэтому извлечение подобной информации удобно перед устройством на новую работу, в особенности связанной с информационной безопасностью, и конкретно, персональными данными, Или перед посещением технического семинара, где надо будет обратить на себя внимание.
Например, из совокупного анализа заголовков почтового сообщения, анализа сайта компании, и анализа данных и метаданных документов полученных в письме можно определить версии программного обеспечения (а, следовательно, список уязвимостей в этом программном обеспечении), точки входа (адреса, имена, телефоны, контракты, ...), сделать преположения о способах функционирования всего, сделать предположения об использовании каких-то технологий, которых не видно.
А потом сказать при встрече, что по обрывкам данным удалось составить представление о компании и её слабых местах. На что получить ответ, что всё не так, что программное обеспечение пропатчено, а полученные метаданные – утка, не удивить, но удивиться самому и получить свою долю позитива. И, возможно, пятёрку за попытку.
Конкретно в метаданных документов есть имена, идентификаторы и даты. Варианты их использования ниже.
Имена и идентификаторы
Установление авторства документа и причастности отдельного лица к его редактированию позволяет задать предметный вопрос автору (привлечь внимание).
Получение логинов и идентификаторов пользователей закрытой сети в совокупности с подбором паролей, возможно, даст доступ к закрытой сети.
Формирование адресов электронной почты или поиск других контактов из социальных сетей, сервисов обмена сообщениями, которые как-либо указывают на полученные имена и идентификаторы.
Дата и время
Определение актуальности документа, если документ судя по метаданным стар и покрылся цифровой пылью, то его и надо рассматривать как, возможно, устаревший документ.
Определение временного контекста документа (исторический анализ), анализ того, в какой обстановке редактировался документ, какие события при этом происходили.
Определение настроения автора документа, если документ редактировался в 3-м часу прошедшей ночи, то автор документа явно будет сонным, даже если постарается скрыть это и его можно расположиь к себе, разговорить, например, начав беседу с того, что: «Мне так и не удалось вчера поспать, всё думал о сегодняшней встрече» и надеяться, что лёд тронется, и собеседник поддержит беседу.
Определение выдержанности документа, если документ редактировался в последний раз сегодня утром, то, возможно, он ещё не готов.
Какие метаданные обычно передаются вместе с документами
Например, для Microsoft Office Word Document (.doc) могут сохраняться в документе:
-
Общие данные (есть всегда)
- Редактор (например, Microsoft Office Word)
-
Создание
- Дата и время (30.09.2011, 09:55:00)
- Идентификатор пользователя из настроек редактора на момент создания (Смирнов Вячеслав)
-
Редактирование
- Дата и время (18.12.2012, 18:10:00)
- Идентификатор пользователя из настроек редактора на момент редактирования (Smirnov)
- Дата последней печати документа (23.06.2011, 13:54:00)
- Количество правок (391)
- Общее время редактирования документа (196:29:00)
-
Данные, сохраняемые с примечаниями к тексту:
- Дата создания примечания (08.07.2011, 15:40:00)
- Идентификатор пользователя из настроек редактора на момент создания примечания (SmirnovV)
- Полная история редактирования (сохраняется при включённом отслеживании изменений в документе)
-
Поля документа:
- название
- тема
- ключевые слова
- комментарий
- пользовательские поля
- Цифровые подписи на документе
-
Макросы в документе
- Могут содержать полезные комментарии разработчиков макроса
-
Ссылки в тексте документа
- Могут указать на названия внутренних серверов, используемые сервисы.
- Метаданные вложенных объектов (например, изображений)
А кроме doc-документа, есть docx, xls, xlsx, pdf, rtf, odt. В них подобный набор метаданных.
Являются ли эти метаданные персональными данными
Частично, если они вообще есть. Сделать некоторые предположения и выводы на основе этих данных можно. Но их ценность не высока. Если кому-то понадобятся конкретные сведения, то, думаю в ход пойдут цветы, конфеты, рестораны, случайные и деловые встречи, телефонные звонки, прямые вопросы. И в самую последнюю очередь будут использованы метаданные документов.
Но с другой стороны, если документов много, а при активном электронном документообороте их много. То их совокупный анализ даст полезный результат.
Какие программные средства есть для просмотра, редактирования и удаления таких данных
Для просмотра и редактирования – собственно, редакторы, с помощью которых и был создан документ. Для удаления – специальные плагины к редакторам, сервисы публикации, небольшие утилиты.
Из того что видел:
- У компании Инфра-Ресурс есть своя модификация OpenOffice.org под названием InfraOffice.pro, которая генерирует предупреждения о возможности передачи скрытой информации при сохранении, подписании, печати и так далее. При этом можно такую скрытую информацию удалить. Описание программного продукта: https://personas.i-rs.ru/blog/events/268.html
- Бесплатная утилита Doc Scrubber от Javacool Software, которая удаляет метаданные из doc-документов. Описание программы: https://www.javacoolsoftware.com/docscrubber.html
Собственно, всё. Наткнулся недавно на утилиту Doc Scrubber. Вспомнил про Инфра-Ресурс, про случай с файлами приглашения на семинар, про «Город Эмбер», про то, про сё. А закончить можно цитатой:
По одной капле воды человек, умеющий мыслить логически, может сделать вывод о возможности существования Атлантического океана или Ниагарского водопада, даже если он не видал ни того, ни другого и никогда о них не слыхал. Всякая жизнь — это огромная цепь причин и следствий, и природу её мы можем познать по одному звену.— «Этюд в багровых тонах» Артура Конана Дойля
Комментарии 5
Чтобы посмотреть на работу этого механизма можно очень просто - открыть Backstage (по закладке File на Ribbon), выбрать раздел Info и в выпадающем списке "Check for Issues", выбрать пункт "Inspect Document". Ну а дальше все прозрачно.
Более того, приведенный выше список можно еще расширить, написав свое расширение к Office Document Inspector. Подробнее здесь.
Спасибо, Миша.
Когда писал, хотел ещё было изучить, что сохраняется при совместном редактировании документов в Microsoft Office. Потом понял, что для этого нужен SharePoint, а его под рукой нет. Думал при этом сохраняется просто связь с SharePoint, а может быть полная история редактирования + связь с SharePoint.
Сейчас прочитал Remove hidden data and personal information by inspecting documents (здесь №1), тут написано, что при этом точно сохраняются Document server properties.
А ещё по теме раскрытия информации (information disclosure), в системах учёта уязвимостей есть соответствующая категория слабых мест программного обеспечения. Выделилась она на фоне стремления к анонимизации, раньше такой категории не было. И её понимают по разному:
Таким образом, в программном обеспечении, вообще, а не только применительно к офисным пакетам, вопрос о метаданных и конфиденциальности встаёт если объёмы большие, если пользуется много людей.
Тема электронного документооборота популярная, объёмы растут. Думаю анонимизация из функции офисных пакетов и систем публикации, когда-то превратится в требование.
То о чем писал я, это именно функция подготовки документов к публикации.
Я правильно понимаю, что это только у меня дежа вю?