Журнал о системах электронного документооборота (СЭД)
Электронные архивы

От данных – к информации

  0 комментариев Добавить в закладки

Алексей Назарбаев,

ведущий технический эксперт TopS BI

В последнее время в специализированной прессе все чаще появляется «загадочная» аббревиатура ILM – Information Lifecycle Management. Ведущие разработчики один за другим предлагают решения для той или иной части ILM, красиво расписывая общую схему хранения данных в реорганизованном соответствующим образом датацентре. Однако ясного понимания, что же такое ILM, у российских заказчиков, на наш взгляд, пока не сложилось.

Первое, что стоит отметить: ILM – не панацея, не технология, не решение и не руководство к действию. Это концепция, отражающая современный взгляд на корпоративные данные; набор практик управления, нацеленных на достижение оптимального соотношения ценности информации для бизнеса и стоимости инфраструктуры ее хранения.

ILM, согласно SNIA (Storage Networking Industry Association, www.snia.org), это политики, процессы, практики, сервисы и инструменты, используемые для того, чтобы соотнести ценность информации с точки зрения бизнеса с наиболее подходящей и эффективной по стоимости инфраструктурой, начиная с момента создания информации и заканчивая ее размещением. Информация сопоставляется с бизнес-требованиями через политики управления и уровни предоставления сервиса, связанные с приложениями, данными и метаданными.

Говоря проще, это концепция автоматического размещения данных в инфраструктуре  датацентра на основании требований бизнеса к параметрам защищенности, доступности информации и с учетом ее ценности для бизнеса, актуальности и минимизации расходов на хранение. Какие же проблемы хранения помогает решить ILM?

Не захлебнуться в океане данных

Ни для кого не секрет, что объем корпоративной информации с каждым годом увеличивается, и очень серьезно. В соответствии с отчетами IDC рост объемов хранимых и обрабатываемых данных составляет более 70% в год. В среднестатистической современной компании три тысячи сотрудников ежедневно передают по электронной почте терабайт данных. Всего в мире, по подсчётам Gartner, в 2005 году отправлялось 36 миллиардов электронных сообщений в день - в три раза больше, чем в 2001-м. В некоторых специфичных отраслях, например в медицине, наблюдается экспоненциальный рост информационных объемов.

Ситуация осложняется требованиями нормативных актов и внутрикорпоративных стандартов, предписывающих  длительное хранение некоторых видов информации - иногда в течение 5-10 лет. А это значит, что компания, имеющая корпоративные данные скромного объема в 1 Тбайт и показывающая рост этих объемов 60% в год (не самый большой по современным меркам), через 10 лет будет хранить уже 110 Тбайт информации. Увеличение более чем в 100 раз!

Проблема взрывного роста объемов данных тесно связана с другой проблемой: постоянно усложняются процессы управления распределенной инфраструктурой  датацентров. Современный центр обработки данных состоит из тысяч взаимодействующих компонентов – серверов, элементов систем хранения (логических единиц, дисков, контроллеров, управляющих серверов, ленточных накопителей и т.д.), элементов сетей хранения и локальных сетей (маршрутизаторов, хост-контроллеров, адаптеров и пр.). Для управления сложной инфраструктурой применяются специальные инструменты, причем для каждого вида инфраструктурных элементов - свои. И чем больше в датацентре разнородных компонентов, тем больше инструментов управления вы вынуждены использовать. Что еще больше увеличивает сложность системы.

Кроме того, использование специализированных инструментов управления инфраструктурой не решает основной задачи – управлять лавинообразно растущим потоком данных. Компании продолжают хранить информацию в дорогих высокопроизводительных системах и, несмотря на снижение стоимости оборудования, с каждым годом расходуют все больше средств на ее хранение. Процесс резервного копирования становится все сложнее и требует больше и больше времени. При этом существующие инструменты управления не автоматизируют в достаточной степени процессы размещения информации – администраторы фактически вручную выделяют место для ее хранения, задают привязку к необходимым серверам, создают расписание резервного копирования, определяют источники и места назначения.

Сложившуюся ситуацию в области хранения данных можно охарактеризовать следующим образом: объем данных катастрофически растет, а имеющиеся инструменты управления не в силах с этим справиться.

Нужны ли бизнесу все сохраняемые в системах данные?

Возвращаясь к примеру компании, за 10 лет увеличившей объем корпоративной информации в 100 раз, зададимся вопросом: так ли необходимы ее бизнесу эти 110 Тбайт данных, размещенных в оперативных хранилищах?

Очевидно, что нет. С течением времени меняется как ценность данных, так и требования к их доступности и защищенности. Так, ценность финансовой транзакции максимальна в течение первого месяца и впоследствии неуклонно снижается. Кроме того, финансовая запись в ERP-системе компании и, скажем, личное письмо сотрудника имеют разную ценность для бизнеса уже в момент создания. Между тем в оперативных высокопроизводительных хранилищах датацентра располагаются все данные, включая устаревшие и ненужные, в то время как храниться там должны только те, к которым предъявляются высокие требования доступности.

Анализ, проведенный Enterprise Storage Group, показывает, каким образом ценность информации для бизнеса изменяется с течением времени в зависимости от ее типа (рис. 1). Мы можем сделать важный вывод: разные классы информации имеют разную ценность для бизнеса, и эта ценность меняется с течением времени.

Рис. 1. Изменение ценности информации для бизнеса с течением времени.

Рис. 1. Изменение ценности информации для бизнеса с течением времени.

Следующее важное свойство корпоративных данных – их состояние. Создаваемые данные сохраняются в датацентре для последующей обработки и затем в зависимости от решаемых бизнесом задач изменяются. Пока данные изменяются, они находятся в активном состоянии и называются оперативными. Но с течением времени наступает момент, когда данные «закрепляются» и более изменениям не подвергаются. Они могут использоваться для генерации новых документов, сводных отчетов и т.п. Такие данные называют ссылочными. Естественный способ хранения ссылочных данных – архив.

В современных датацентрах обычно оперативные и ссылочные данные размещаются вместе, в одних и тех же хранилищах, что не только увеличивает стоимость хранения, но и создает трудности с соблюдением нормативных актов, регламентирующих хранение определенных видов информации.

Наконец, есть еще одно состояние – устаревшие данные, которые нигде более не используются, а срок их хранения, регламентируемый нормативными актами, истек. Такие данные больше не нужны бизнесу, их ценность нулевая, и они могут быть удалены. В настоящее время устаревшие данные отслеживаются практически вручную, их удаление из системы представляет собой кошмар для администратора, а хранение – пустую трату денег.

Вперед и вверх!

Описывая текущую ситуацию с хранением данных, мы намеренно не акцентировали внимания на различии между данными и информацией. Точно так же эти различия не учитываются в сложившейся сегодня практике организации процессов и инфраструктуры хранения. Однако именно этот аспект – один из важнейших в концепции ILM:

данные ≠ информация

Данные – это просто набор байтов, способ отражения бизнес-информации в инфраструктуре хранения. С такой точки зрения все они представляют одинаковую ценность, поскольку их семантика не определена, а значение здесь имеют такие параметры, как надежность хранения, защищенность и доступность. Именно этими характеристиками оперируют современные системы хранения данных и инструменты управления инфраструктурой.

Информация – это данные, представляющие определенный смысл для бизнеса. Аналогичные по структуре данные, одинаково размещенные в системе хранения, могут иметь совершенно разный смысл и, следовательно, разную ценность для компании. Например, личное письмо сотрудника, посланное по электронной почте, и письмо того же сотрудника, содержащее конфиденциальные сведения о клиенте.

ILM предлагает уйти от управления данными и сфокусироваться на управлении информацией. Для этого необходимо в первую очередь изменить подход к ее хранению. В рамках ILM предлагается классифицировать бизнес-информацию компании, прежде чем она попадет в инфраструктуру хранения. Классификация – это необходимый для эффективного управления жизненным циклом информации процесс, обеспечивающий хранимые данные адекватной семантикой.

Для этого процесса вводятся понятия целевых показателей уровня сервиса (Service Level Objectives - SLO) и «политик» (Policies), на основе которых будет осуществляться управление хранением информации. SLO определяет, какие показатели ключевых характеристик (надежности, доступности и др.) должны обеспечиваться инфраструктурой хранения для данного класса информации. «Политики» определяют необходимые действия с конкретными классами информации при возникновении определенных условий (например, при окончании срока жизни информации). Основой для формирования SLO и политик являются бизнес-требования и бизнес-процессы компании, а также различные нормативные акты.

Таким образом, подход к хранению данных в датацентре становится информационно-центричным (рис. 2). Создаваемая информация классифицируется, с ней связываются определенные SLO, на основании которых интегрированный в инфраструктуру механизм управления размещает эту информацию согласно заданным политикам. Это значит, что информация, требующая высокой доступности, попадет в высокопроизводительные системы хранения, а та, что не является критически важной для бизнеса, разместится в недорогих хранилищах.

Рис. 2. Информационно-центричный подход к хранению.

Рис. 2. Информационно-центричный подход к хранению.

При этом механизмы работы приложений с данными не меняются, но инструменты управления постоянно отслеживают ценность информации, ее состояние и перемещают ее в адекватные системы хранения согласно политикам и SLO. На определенном этапе жизненного цикла информация может стать ссылочной, устареть или повторно использоваться. Тогда механизм управления в первом случае передаст ее в архив, во втором – просто удалит, а в третьем – заново классифицирует и свяжет с другим SLO.

Таким образом, датацентр, построенный согласно ILM, обеспечивает следующие основные преимущества:

●     снижение стоимости хранения информации (за счет своевременного переноса данных в недорогие системы хранения и уничтожения устаревшей информации);

●     строгое соблюдение нормативных актов, регламентирующих хранение данных, путем автоматического применения политик;

●     достижение соответствия характеристик хранения (надежности, защищенности, доступности и др.) различным классам информации;

●     исключение дублирования информации (за счет управления ссылочными данными).

И при этом информация всегда предоставляется в нужном месте, в нужное время и по оптимальной цене.

Источник: Intelligent Enterprise № 18 (150) 2006

Похожие записи
Комментарии (0)
Сейчас обсуждают
Больше комментариев