Интеграция данных: о чем болит голова у ИТ-экспертов?
О вопросах интеграции данных расуждают аналитик CNews Юлия Муромец и Павел Лихницкий, генеральный директор Data Integration Software, Informatica Россия.
Юлия Муромец
Последние 40 лет в ИТ-индустрии данные всегда понимались в совокупности с приложениями, к которым относились. Получить необходимые вам данные можно было, лишь открыв конкретное приложение, будь то электронная почта или бухгалтерская программа. Такую ситуацию нельзя охарактеризовать как гибкую - информация должна быть доступна всегда и везде – такова главная мысль Data Integration Forum, состоявшегося недавно в Москве.
Задачи интеграции данных сегодня стоят перед каждым крупным предприятием. Поэтому мероприятия, подобные Data Integration Forum, стабильно привлекают внимание ИТ-управленцев. Организатором форума выступила компания Data Integration Software совместно со своими партнерами. Тем не менее, сквозь пелену типичных для такого рода мероприятий докладов можно было рассмотреть реальное положение дел на рынке интеграции данных в целом.
Форум открыл Марк Сигер, вице-президент компании Informatica в регионе EMEA. Одной из основных проблем в проектах по интеграции данных он выделил вопрос о качестве исходных данных, предназначенных для интегрирования: «Точность данных может сильно отличаться от приложения к приложению. Поэтому нередко качество информации остается под большим вопросом. Довольно часто данные из одного корпоративного источника не подлежат повторному использованию в другом месте. В большинстве случаев просто сложно понять даже то, какая именно информация хранится в организации!»
Проанализировать качество данных необходимо до того, как будут предприняты шаги по их интеграции, и это сложная задача. Многие компании сталкиваются с ситуацией, когда у них есть масса разрозненной информации, большое количество приложений, которые с ней работают, но при этом никак не связаны между собой. Проблемой является и огромное количество форматов данных, плохая структурированность некоторых баз данных. По статистике, до 80% данных хранятся в неструктурированных форматах. Получается интересная ситуация: информация критически важна для выживания организации, но ее качество, а также то, где именно она хранится – зачастую под вопросом. Создается масса копий данных, различные версии документов.
Почему так важно качество данных для организации? Американский институт хранилищ данных (TDWI, The Data Warehouse Institute) подсчитал, что низкое качество данных обходится американскому бизнесу примерно в 600 млрд. долларов ежегодно. Неструктурированные данные приводят к неправильному выставлению счетов, неудовлетворенности клиентов, невозможности принимать правильные бизнес-решения. «Принимать обоснованные и серьезные бизнес-решения, основываясь на информации плохого качества, - все равно, что водить машину, совершенно не заботясь о том, нужно ли ее заправить топливом, подлить масло и т.д.», - говорит Марк Сигер.
Согласно данным исследовательской компании Ventana Research, до 60% ИТ-бюджетов тратится на интеграцию. Такие цифры неудивительны, так как практически любой ИТ-проект сегодня предполагает определенную степень интеграционных процессов. Однако эти данные говорят и о том, что компании все в большей степени осознают: то, как они управляют своими данными, оказывает прямое влияние на гибкость и подвижность их бизнеса.
Интеграция данных неизбежна
Какие факторы оказывают влияние на потребность в интеграции данных? Здесь можно выделить три основных причины: бизнес-причины, социально-экономические и технологические. Что касается бизнес-причин, то наиболее очевидным случаем, когда возникает необходимость в интеграции, являются слияния и поглощения. Объединяющимся компаниям необходимо объединить и свои данные. Марк Сигер рассказал на примере из личного опыта о тех трудностях, которые могут испытывать компании при слиянии: «Я участвовал в одном из крупнейших слияний в ИТ-мире – Symantec и Veritas. У нас ушло 18 месяцев на то, чтобы объединить биллинговые системы. Все это время мы не могли принимать заказы в обычном режиме на ПО от наших клиентов. Часто мы не могли понять, куда нам направлять звонок, поступивший от клиента, потому что не знали, в какой базе данных его искать и на кого переключать. Время, которое требуется для объединения подобного рода информации, оказывает прямое влияние на цену акций компании, ее капитализацию».
Если говорить о социально-экономических причинах, то миром сегодня правит глобализация. Информация также становится глобальной. Учитывая новые технологические концепции, такие как сервис-ориентированная архитектура и SaaS (Software as a Service, программное обеспечение как сервис), можно сделать вывод: хранить огромные объемы информации сегодня не проблема, тем более, что порой их даже не нужно хранить у себя – можно отдать ряд функций на аутсорсинг.
Перед интеграторами встает задача: нужно интегрировать данные, которые находятся в разных точках, как внутри организации, так и за ее пределами. Решение этой проблемы возможно с внедрением сервисов данных (Data Services) в организации. Аналогично тому, как внедрялись когда-то ИТ-сервисы для инфраструктуры, пришло время внедрять сервисы данных. Возможность просматривать информацию независимо от ее местонахождения должен обеспечить специальный механизм, переводящий информацию из подсистемы в подсистему. Для этого нужно централизованно объединять и выравнивать форматы данных в рамках организации. Затем следует определить стандартные правила определения качества информации. Необходим функционал для повторных преобразований информации с дальнейшим ее использованием. Платформа сервисов данных должна быть единой для всех приложений, с которыми работает пользователь.
Различные бизнес-установки, как то желание модернизировать бизнес и сократить расходы на ИТ, увеличить прибыльность, уже упомянутые слияния и поглощения, приводят к соответствующим инициативам в сфере ИТ и далее заканчиваются проектами по интеграции данных.
Каким образом необходимо осуществлять интеграционные проекты? Его можно разбить на несколько этапов. Во-первых, необходимо получить доступ к хранящейся информации, структурированной и неструктурированной. Далее следует этап изучения источников информации. Необходимо понять, какая информация, какого качества и в каком месте хранится в организации. Следующий этап – очистка информации для обеспечения ее надлежащего качества. Затем идет преобразование информации – из множества форматов в один единый. И последний этап – это доставка информации в те приложения, в которые требуется. Поверх этих этапов идут требования к аудиту, мониторингу и отчетности – необходимо, чтобы в каждый момент времени было понятно, что компания делает с информацией.
Российские тенденции
В России есть свои особенности ведения проектов по интеграции данных, но во многом используется западный опыт. К наиболее распространенным ИТ-задачам, требующим интеграции данных, можно отнести: построение корпоративного хранилища данных – для операционной отчетности и аналитических задач; так называемый Master Data Management – синхронизация справочников и создание мастер-справочников, а также управление качеством данным (через профилирование и очистку).
Еще одна задача – синхронизация и консолидация данных: здесь можно выделить консолидацию данных из многих систем, обмен данными между системами, подразделениями и организациями, распространение бизнес-объектов по схемам от одной системы к многим, каждая с каждым и т.д. И не менее важная и востребованная задача – миграция данных с устаревших приложений на новые.
При этом к особенностям российского рынка выступавшие на форуме эксперты отнесли тот факт, что многие отечественные компании, сталкиваясь с задачами интеграции, отдают предпочтение ручной разработке вместо применения промышленных средств.
Марк Сигер: Довольно часто данные из одного корпоративного источника не подлежат повторному использованию в другом месте
Для ручной разработки характерны ее уникальность, привязка к персоналу и конкретным системам, а также высокие затраты на ее разработку и поддержку. Промышленные средства разработки дают универсальность, независимость от конкретных разработчиков, высокую скорость самой разработки, а также простоту поддержки и внесения изменений. Выгоды от промышленного подхода к интеграции данных очевидны: это и сокращение затрат на функции поддержки и развития, и повышение прибыли за счет быстрого принятия решений, основанных на качественных данных, и сокращение затрат на разработку, и снижение операционных затрат. Согласно исследованию Forrester, при промышленном подходе к интеграции данных из сэкономленных средств 57% приходится на разработку, 14% - на поддержку. Если в начале разработки совокупная стоимость владения явно ниже при ручной разработке, чем при использовании промышленных средств интеграции, то со временем все меняется с точностью до наоборот.
Еще одна особенность российского рынка - его молодость и идущее сейчас активное развитие. Тем не менее, на отечественном рынке пока присутствует мало систем класса mainframe и midrange; многие промышленные системы класса CRM, ERP, SCM только начинают активно внедряться нашими компаниями, соответственно, у многих компаний пока мало исторических данных.
Отдельно обсуждались перспективы российского рынка и присутствующие на нем тенденции. Все большее значение для российских компаний приобретает качество хранимых данных. По прогнозам META Group, ежегодный рост рынка программного обеспечения и услуг в сфере качества данных будет составлять порядка 20-30%. Вторая тенденция – стандартизация и консолидация инфраструктуры компаний, улучшающая доступ к информации при устранении независимых структур данных. Важен тот факт, что компании начинают осваивать стратегический подход к информации – системы Business Intelligence и хранилища данных становятся важной частью проектов с большими перспективами для бизнеса.
Business Intelligence все чаще используется как рабочий инструмент – помимо решения стратегических задач компании хотят использовать информацию, полученную из своих данных с помощью BI и DWH, для принятия тактических решений. И еще одна тенденция – множество корпоративных приложений и наличие изолированных структур данных приводят к необходимости эффективно интегрировать справочные данные, рассеянные по всей компании.
Выбираем средства интеграции
Из современных средств интеграции можно выделить три основные технологии, так называемые «три Е» - EAI, EII и ETL. EAI, или Enterprise Applications Integration, заточена под процесс-ориентированную интеграцию и применяется, когда имеется процесс на основе транзакций. EII (Enterprise Information Integration) означает интеграцию корпоративной информации, хорошо подходит для интеграции данных в режиме реального времени. ETL (Extract, Transform, and Load) отвечает за интеграцию больших объемов данных, трансформации любой сложности и получение достоверных данных.
Часто специалисты заблуждаются, полагая, что EAI и ETL – это одно и то же, или что один продукт (на базе одной технологии) может выполнить все требуемые задачи по интеграции. Однако каждая технология обладает своими уникальными особенностями и решает лишь определенные задачи. К примеру, почему нельзя использовать EAI вместо ETL? У EAI слабые возможности по трансформации, пакетной обработке данных, слабая поддержка баз данных, отсутствует поддержка специальных функций для построения хранилищ данных. В то же время в ETL плохо реализована поддержка real-time – время отклика измеряется в секундах, а не в миллисекундах. Также в этой технологии слабая поддержка транзакций, ее архитектура не основана на шине. Таким образом, сегодня для интеграции транзакционных систем на уровне сообщений в реальном режиме времени используется EAI. Для интеграции данных из систем в пакетном режиме по расписанию либо по запросу – ETL.
Как обеспечить качество?
Обеспечение качества данных в интеграционных проектах – нетривиальная задача. В стандартном процессе обработки данных имеется ряд источников данных – это различные базы данных, плоские файлы и т.д. – и ряд приемников файлов – это системы класса ERP, CRM, BI, биллинговые системы. Оценить качество данных можно по ряду параметров, таких как их полнота – когда все требуемые записи и значения существуют, согласованность (типы, форматы, ключи, коды, значения хранятся в нужном формате), точность (соответствие реальности), связность (отсутствие конфликтных данных), неразрывность и другие.
Процесс управления качеством данных можно разделить на следующие этапы: определение качества исходных данных – определение правил обеспечения качества этих данных – разработка процессов очистки данных – внедрение этих процессов – контроль. Для этапа исследования можно использовать средства профилирования – они осуществляют быстрый анализ данных во всех исходных системах, выдавая заключение и предлагая инструкции по построению обработки данных. Определение и построение правил обеспечения качества данных крайне важно для стандартизации, сравнения и консолидации.
На следующем этапе можно использовать средства очистки. В целом проверка качества данных должна становиться отдельным этапом проекта интеграции.
От функционального подхода к интеграционному
Проблемы сегодняшней картины интеграции данных – это избыточность затрат, постоянно возрастающая сложность проектов, отсутствие прозрачности, недостаток ресурсов. При этом низкая уверенность в данных и необходимость высоких трудозатрат для внесения изменений, а также очень дорогая поддержка в итоге приводят к крайне низкому общему коэффициенту окупаемости инвестиций в интеграционные проекты. Выходом может стать переход от функционального подхода в подобных проектах к интеграционному, или построению центра интеграции.
Для функционального подхода характерны разовые внедрения и фрагментированное приобретение опыта, а следовательно, высокая стоимость проекта и избыточность усилий и затрат на него. Интеграционный подход дает лучшие результаты за счет связи между проектами, высокой скорости разработки. В итоге компания получает высокий коэффициент использования инвестиций.
Как перейти к интеграционному подходу? Необходимо переложить все интеграционные задачи на группу внутренних экспертов и использовать мощные промышленные инструменты. Одним из способов подобной реализации является построение Центра интеграции. Центр строится на основании предварительного успеха – успешный первый проект позволяет документировать лучший опыт и затем последовательно продвигать именно его. В центре вырабатываются общие методы; знания и навыки становятся доступны всем проектным командам.
В итоге формируется команда централизованного предоставления сервисов, технологии стандартизируются и централизуются. Центр Интеграции начинает предоставлять сервисы как внутренним, так и внешним клиентам. То есть, если при функциональном подходе проекты идут на уровне департаментов, для каждого отдельного проекта используется своя технология, то центр интеграции обеспечивает осуществление проектов на уровне предприятия и предоставление сервисов для всех.
Шаг к светлому будущему?
Таким образом, на форуме были освещены практически все актуальные вопросы, касающиеся интеграции данных. Отметим, что бизнес стал рассматривать ее как реальный инструмент повышения своей эффективности и способ извлечения максимальной прибыли. Однако тот факт, что многие проекты заканчиваются сегодня неудачно, говорит о том, что не все пока понимают, как их необходимо осуществлять – и с точки зрения технологий интеграции, и с точки зрения обеспечения целостности и качества самих данных, и с точки зрения организации подобных проектов. Это означает, что интерес к теме интеграции данных будет только возрастать.
Павел Лихницкий: Успешный интеграционный проект дает реальную выгоду бизнес-подразделениюНа вопросы CNews ответил Павел Лихницкий, генеральный директор Data Integration Software, Informatica Россия. CNews: Какие тенденции в сфере интеграции данных наиболее значимы сегодня, на ваш взгляд? Павел Лихницкий: Все больше компаний используют промышленные средства интеграции данных с минимальным ручным написанием программного кода. Это снижает риски затягивания проектов, зависимость от конкретной команды разработчиков, а соответственно, все возрастающие затраты, зачастую превышающие первоначальный бюджет на 100%. Также все больше компаний осознают важность управления метаданными, обеспечения качества данных, организации единого пространства НСИ, и все это на базе единой платформы, а не разрозненных кусков кода, решающих локальные задачи. Низкая стоимость поддержки подобных целостных решений, простота развития, централизованное управление и контроль – все это делает промышленные платформы интеграции данных все более востребованным инструментом повышения эффективности бизнеса. При этом промышленная платформа интеграции должна обеспечивать выгрузку, обработку и трансформацию больших объемов данных и их загрузку в любые источники, необходимые в том или ином проекте. Также есть требования по быстродействию, встроенным механизмам контроля качества данных, возможностям простого и безболезненного масштабирования и внесения изменений. CNews: На форуме часто обсуждалась платформа сервисов данных - какими возможностями она должна обладать? Павел Лихницкий: Промышленная платформа сервисов данных – термин довольно новый для нашего рынка. Подобная платформа должна предоставлять данные в любом виде, по требованию, по расписанию, в режиме реального времени, через сервисы, любым подразделениям и системам, где эти данные необходимы. Сервисы включают в себя команду, наработанный опыт, библиотеки повторно используемых процессов, мощнейшую методологию, единый для всех сервисов инструмент легкого и быстрого доступа к данным, их обработки, трансформации и передачи по назначению вне зависимости от того, где эти данные хранятся территориально или структурно. На настоящий момент бесспорным мировым лидером, представленным в этом сегменте, является Informatica. CNews: Какие средства для обеспечения качества данных в интеграционных проектах представила на форуме ваша компания? Павел Лихницкий: В интеграционных проектах Informatica обеспечивает качество на 360 градусов. Профилирование данных дает точную и полную информацию о содержании, качестве, взаимосвязях и структуре данных практически любых корпоративных систем и источников данных. Очистка и обеспечение качества загружаемых данных – вторая составляющая качественного внедрения проекта. Возможности решения Informatica Data Quality позволяют на уровне настраиваемых бизнес-правил распознавать, проверять, стандартизировать и очищать данные, распознавать и выявлять дубликаты, выявлять взаимосвязи между данными. Что немаловажно, данные модули программного обеспечения Informatica полностью поддерживают работу с русским языком. CNews: Каковы критерии успеха для проекта по интеграции данных? Павел Лихницкий: Основным критерием успеха любого интеграционного проекта является получение бизнес-подразделениями реальной выгоды от нового решения. Кроме того, лучшие интеграционные проекты должны быть незаметны бизнес-пользователям. Главное – чтобы данные были актуальными, точными, своевременными и полными, чтобы присутствовала возможность легкого аудита происхождения тех или иных данных. Еще одним немаловажным критерием является возможность оперативно реагировать на изменения требований со стороны бизнеса, легко и быстро изменять интеграционный слой проекта. Промышленная платформа интеграции данных позволяет упростить любые интеграционные процедуры, снизить затраты и сроки реализации задач по интеграции данных одновременно в нескольких проектах. |
Источник: CNews
Комментарии 0