Данные скоро нужно будет не столько запоминать, сколько забывать
Человеческий мозг способен забывать то, что помнил ранее. Похоже, то же самое пригодилось бы центрам обработки данных.
У человеческого мозга есть две особенности. Во-первых, если он что-то запомнил, он не может это забыть. Во-вторых, он всё-таки может это забыть. И если первая уже практически в совершенстве реализована во всех проявлениях вычислительной техники, то вторая — способность забывать — ещё только на подходе.
Сегодня трудно представить организацию, которая не накапливала бы данные, приходящие извне (от официальных документов до форм на сайте компании) и генерируемые внутри (записи телефонных звонков, «следы» бизнес-процессов). Рынок хранения этих данных оценивается миллиардами долларов, а информация оценивается как один из основных активов и имеет свою ценность (и даже цену). Всяческие устройства с приставкой «смарт-» проникают в жизни людей, а оттуда — и в организации: в порядке вещей подключить корпоративную почту на своём смартфоне, а открытость активности каждого пользователя сети позволяет HR-службам собирать пресловутые большие данные о сотрудниках предприятия.
Планомерное падение цен на хранение данных не компенсирует расходы на хранение данных — прирост последних быстрее в разы.
Нет никакой надежды на то, что рост генерируемых данных замедлится. Учитывая тенденцию расценивать любую активность человека или машины как данные, не рассматривая при этом вопрос их значимости, мы движемся прямиком к точке, когда никакой бюджет попросту не справится.
Из ситуации есть два очевидных выхода: собирать меньше данных (отбирать важное) и забывать уже накопленное. Первый метод уже обсуждался, подход к нему очень прямолинейный: определиться, какие данные важны, а остальные отсеивать, — и точка.
Второй метод тоже обсуждается, но «в соседней комнате»: как превращать данные в знания, отсекая пост-фактум лишнее и оптимизируя их объём; как хранить знания в сильно связанной сети; как стереотипизировать данные, выделять шаблоны, структурировать и устранять повторы, и т. д.
Этой заметкой предлагаю поднять тему «забывания» данных, чтобы понять, насколько это важно и вообще возможно реализовать применительно к корпоративным данным, принимая как факт то, что тренд не ослабится — динамика сбора данных о любых действиях и операциях будет идти только вверх.
Комментарии 2
Данные можно сжимать, применимо ко всем данным, к которым не требуется мгновенный доступ.
Статистические исторические данные можно прореживать (были данные за каждую секунду, стали данные за каждые 5 секунд (минимальное значение, среднее и максимальное на интервале)). Применимо к данным профилирования, которые накапливаются при нагрузочном тестировании.
Персональные данные надо удалять после достижения требований обработки.
Можно сделать старые некогда секретные данные общедоступными (позволить всем сохранить копию) — оптимальный вариант хранения. Перекликается с высказыванием про хранение резервных копий:
Линус ТорвальдсРишат, очень интересная тема!
Стратегию забывания я бы разделил на две составляющие:
1. Чистка мусора. Это ненужные, неиспользуемые данные. Правда не очень понятно как выявлять мусор. При этом с мусором все просто - как только выявил, сразу удалил.
2. Чистка устаревшей информации. С управленческими документами все просто - есть государственный классификатор со сроками хранения документов. А вот, например, с проектной документацией сложней. Когда удалять ТЗ? Здесь разные ограничения, с одной стороны ТЗ нельзя удалять до тех пор пока возможны хозяйственные споры по договору, частью которого было составление ТЗ. С другой стороны ТЗ нельзя удалять пока оно служит шаблоном или частью базы знаний при создании последующего контента.
Ну и Вячеслав в предыдущем сообщении предложил прекрасную мысль - стратегию забывания можно реализовывать двумя способами - удаление и прореживание.
В одном я уверен, нужно разработать правильную стратегию и не бояться ее применять, хранить ненужную информацию просто не разумно. Это как хлам из шкафа не выкидывать - не ношу и носить не буду, но вдруг пригодится...