ECM-Journal обновился!
Если вы ещё не зарегистрированы на сайте, сделайте это прямо сейчас. Если у вас уже есть профиль, то просто обновите пароль.
Данные скоро нужно будет не столько запоминать, сколько забывать

Человеческий мозг способен забывать то, что помнил ранее. Похоже, то же самое пригодилось бы центрам обработки данных.
У человеческого мозга есть две особенности. Во-первых, если он что-то запомнил, он не может это забыть. Во-вторых, он всё-таки может это забыть. И если первая уже практически в совершенстве реализована во всех проявлениях вычислительной техники, то вторая — способность забывать — ещё только на подходе.
Сегодня трудно представить организацию, которая не накапливала бы данные, приходящие извне (от официальных документов до форм на сайте компании) и генерируемые внутри (записи телефонных звонков, «следы» бизнес-процессов). Рынок хранения этих данных оценивается миллиардами долларов, а информация оценивается как один из основных активов и имеет свою ценность (и даже цену). Всяческие устройства с приставкой «смарт-» проникают в жизни людей, а оттуда — и в организации: в порядке вещей подключить корпоративную почту на своём смартфоне, а открытость активности каждого пользователя сети позволяет HR-службам собирать пресловутые большие данные о сотрудниках предприятия.
Планомерное падение цен на хранение данных не компенсирует расходы на хранение данных — прирост последних быстрее в разы.
Нет никакой надежды на то, что рост генерируемых данных замедлится. Учитывая тенденцию расценивать любую активность человека или машины как данные, не рассматривая при этом вопрос их значимости, мы движемся прямиком к точке, когда никакой бюджет попросту не справится.
Из ситуации есть два очевидных выхода: собирать меньше данных (отбирать важное) и забывать уже накопленное. Первый метод уже обсуждался, подход к нему очень прямолинейный: определиться, какие данные важны, а остальные отсеивать, — и точка.
Второй метод тоже обсуждается, но «в соседней комнате»: как превращать данные в знания, отсекая пост-фактум лишнее и оптимизируя их объём; как хранить знания в сильно связанной сети; как стереотипизировать данные, выделять шаблоны, структурировать и устранять повторы, и т. д.
Этой заметкой предлагаю поднять тему «забывания» данных, чтобы понять, насколько это важно и вообще возможно реализовать применительно к корпоративным данным, принимая как факт то, что тренд не ослабится — динамика сбора данных о любых действиях и операциях будет идти только вверх.
Комментарии 2
Данные можно сжимать, применимо ко всем данным, к которым не требуется мгновенный доступ.
Статистические исторические данные можно прореживать (были данные за каждую секунду, стали данные за каждые 5 секунд (минимальное значение, среднее и максимальное на интервале)). Применимо к данным профилирования, которые накапливаются при нагрузочном тестировании.
Персональные данные надо удалять после достижения требований обработки.
Можно сделать старые некогда секретные данные общедоступными (позволить всем сохранить копию) — оптимальный вариант хранения. Перекликается с высказыванием про хранение резервных копий:
Линус ТорвальдсРишат, очень интересная тема!
Стратегию забывания я бы разделил на две составляющие:
1. Чистка мусора. Это ненужные, неиспользуемые данные. Правда не очень понятно как выявлять мусор. При этом с мусором все просто - как только выявил, сразу удалил.
2. Чистка устаревшей информации. С управленческими документами все просто - есть государственный классификатор со сроками хранения документов. А вот, например, с проектной документацией сложней. Когда удалять ТЗ? Здесь разные ограничения, с одной стороны ТЗ нельзя удалять до тех пор пока возможны хозяйственные споры по договору, частью которого было составление ТЗ. С другой стороны ТЗ нельзя удалять пока оно служит шаблоном или частью базы знаний при создании последующего контента.
Ну и Вячеслав в предыдущем сообщении предложил прекрасную мысль - стратегию забывания можно реализовывать двумя способами - удаление и прореживание.
В одном я уверен, нужно разработать правильную стратегию и не бояться ее применять, хранить ненужную информацию просто не разумно. Это как хлам из шкафа не выкидывать - не ношу и носить не буду, но вдруг пригодится...