Джон Манчини 13 января 2014

Big Data и Big Content – навязанная необходимость или реальная потребность?

IT-директору

Время чтения: 4 минуты

Благодаря бесконечной веренице статей о Big Data («большие данные» или данные большого объема), задумываешься над вопросом соотношения структурированной и неструктурированной информации. Некоторая часть этих размышлений, довольно патогенных, наводит на мысль: «Так, если каждый собирается говорить о Big Data, то мне тоже нужно». Суровая реальность такова, что неструктурированные данные – «нелюбимый ребенок» инструментов Big Data, – причина, по которой невозможно использовать столь ценную информацию в полной мере. Между тем, наше сообщество (пользователи, разработчики решений и консультанты) неплохо осведомлено о том, насколько неоднозначен этот вопрос о неструктурированной информации.

Systems of Engagement - системы социального взаимодействия, строятся в первую очередь для сотрудников, чтобы обеспечить оптимизацию накопления, передачи, поиска и анализа неструктурированной информации.

Направление включает в себя: социальные платформы и приложения (для поддержки и расширения сотрудничества); интеграцию разрозненных систем, которые должны работать как единое целое (управление бизнес-процессами, управление цепочками поставок, управление персоналом).

Вице-президент IBM Ючун Ли так описал свое видение связи между учетной системой (System of Record) и системой взаимодействия (Systems of Engagement):

Последние лет десять компании накапливают свои данные в том, что мы называем учетной системой. В будущем, чтобы оставаться на плаву, компаниям придется иметь дело с системами обеспечения взаимодействия. А начнется все с оценки того, как наладить взаимодействие с клиентом, используя все доступные каналы. Благо существуют средства для проведения анализа и статистика. С точки зрения технической реализации, мы считаем, что будущее в обработке большого объема данных лежит за привлечением возможностей облаков. Своевременный анализ, функциональная платформа и правильная архитектура позволят получить максимальную отдачу от накопленных данных.

Итак, я попытался представить свое видение связей между Big Content и Big Data на одном изображении.

Идем по диаграмме согласно цифрам. Обо всем по порядку:

1. Последние десятилетия мы стремились к тому, чтобы привести информацию к высоко структурированному виду, так мы можем использовать ее максимально эффективно. Архитектура учетных систем и систем взаимодействия предусматривает пока лишь работу по распознаванию, хранению, обмену информацией в рамках бизнес-процессов.

2. Мы проделали хорошую работу и научились неплохо управлять структурированной информацией, но не нашли подхода к неструктурированной информации. И это не только потому, что в процентном соотношении неструктурированной информации больше (организации обычно сетуют на то, что 80% информации не пригодны для управления), но и потому, что инструменты для работы с неструктурированной информацией, просто-напросто, отсутствовали.

3. Системы взаимодействия генерируют огромные объемы новой информации как структурированной, так и неструктурированной. Существуют предпосылки того, что к 2020 году, количество устройств возрастет с 400 миллионов до 50 миллиардов, и все они будут связаны между собой посредством Интернет. К 2020 году хранить объемы информации, с которым справляются пока лишь суперкомпьютеры вроде IBM Watson, мы сможем в своих смартфонах, более того, будем иметь постоянный доступ к ней. Разница между «несодержательной» и «содержательной» информацией в учетной системе в том, что последняя содержательна сама по себе и в совокупности. Другими словами, мы можем без труда распознать некоторые значения или часть данных, которые относятся к конкретной транзакции или процессу. Гораздо сложнее, да и дороже, то же самое проделать с «обломками» информации, которые имеют значение, лишь собравшись воедино.

4. Применение облачных технологий, таких как Hadoop и NoSQL, позволяет снизить стоимость проведения анализа больших объемов информации

5. Благодаря многочисленным исследованиям, достижениям в области семантики, контент-анализу мы можем сегодня оперировать большими объемами информации, в том числе, и мало структурированными. Кроме того, обработка данных на естественном языке и визуализация технологий ведут нас к тому, что анализом данных будут заниматься не технические специалисты, а руководящий или административный аппарат.

6. И наконец, сочетание облачных технологий – как это отражено в цитате представителя IBM – новая существующая возможность, которая позволяет оперировать большими массивами информации. Фактически, это новый инструмент для мгновенной оценки и структурирования данных. Применение облачных технологий направлено не только на получение материальной выгоды, но и позволит раскрыть истинную ценность информации, спрятанную на цифровой «свалке».