Статья Wikipedia "Big Data"
Сравнив статьи, посвященные большим данным в Википедии на русском и английском языках, мы решили дополнить русскоязычную версию некоторой информацией из ее англоязычной «сестры», предварительно представив переведенный материал на суд сообщества.
Тема больших данных является популярной уже достаточно долгое время, оставляя гораздо больше вопросов, чем ответов. Не обошла стороной она и нас. Сравнив статьи, посвященные большим данным в Википедии на русском и английском языках, мы решили дополнить русскоязычную версию некоторой информацией из ее англоязычной «сестры», предварительно представив переведенный материал на суд сообщества ECM-Journal. В данной статье мы публикуем перевод материала, посвященного вопросам технологии и архитектуры. Далее последует материал по критике концепции больших данных и практике использования.
Определение
Большие данные (англ. Big Data) – это общий термин для обозначения процесса сбора данных таких объемов и многообразия, при которых их обработка с применением традиционных инструментов становится проблематичной. Трудности возникают при осуществлении захвата, сбора, хранения, поиска, совместного использования, передачи, анализа и визуализации данных. Тенденция бОльших объемов данных возникла благодаря возможности получения дополнительной информации в результате анализа отдельного большого набора связанных данных (в противовес анализу небольших наборов данных с таким же совокупным объемом).[1]
Ученые регулярно сталкиваются с ограничениями, связанными с большими наборами данных во многих областях, включая метеорологию, геномику,[2] коннектомику, сложное моделирование физической среды,[3] исследования в области биологии и окружающей среды.[4] Эти ограничения также касаются функции поиска в интернете, финансовой и бизнес-информатики. Наборы данных увеличиваются в объемах частично ввиду их постоянного сбора посредством мобильных приложений, воздушных (антенных) высокочувствительных технологий (дистанционное считывание), лог-файлов, камер, микрофонов, радиочастотных идентификаторов (RFID), и беспроводных сенсорных сетей.[5][6][7] Начиная с 80-х годов XX века мировой объем хранения информации на душу населения удваивается каждые 40 месяцев;[8] по состоянию на 2012 год каждый день создавалось по 2.5 экзабайт (2.5×1018 байт) данных.[9]
Крупным предприятиям предстоит решить, кто возьмет в свои руки инициативы по управлению большими данными, которыми уже переполнены целые организации.[10]
Сложно работать с большими данными, применяя главным образом системы по управлению реляционными базами данных, desktop-статистику и пакеты программ для визуализации, когда вместо этого необходимо использовать «массово-параллельное программное обеспечение, функционирующее на десятках, сотнях, или даже тысячах серверов».[11]
То, что принято считать «большими данными» различается в зависимости от возможностей компании, управляющей набором данных, а также от возможностей приложений, применяемых для обработки и анализа. «Для большинства организаций первое столкновение с сотнями гигабайт данных может вызвать необходимость пересмотра средств управления данными. Но для других компаний «критическим» может стать объем в десятки или сотни терабайт». [12]
Архитектура
В 2004 году компания Google опубликовала документацию по модели распределенных вычислений MapReduce. В MapReduce представлена параллельная модель обработки данных. На Map-шаге происходит предварительная обработка входных данных. Для этого один из компьютеров (называемый главным узлом – master node) получает входные данные задачи, разделяет их на части и передает другим компьютерам (рабочим узлам – worker node) для предварительной обработки. На Reduce-шаге происходит свертка предварительно обработанных данных. Главный узел получает ответы от рабочих узлов и на их основе формирует результат – решение задачи, которая формулировалась изначально. Данная модель была настолько успешна[13], что многие хотели продублировать ее алгоритм. Поэтому, проект компании Apache с открытым исходным кодом, получивший название Hadoop[14], взял ее на вооружение.
Методология управления корпоративной информацией MIKE2.0 – открытый подход к управлению информацией, который в статье «Big Data Solution Offering»[15] признает необходимость модернизации решений для управления большими данными в связи с возросшей частотой их применения. Методология рассматривает управление большими данными через призму полезных преобразований их источников, сложности взаимосвязей, и трудностей, связанных с удалением (или изменением) отдельных записей.[16]
Последние исследования показывают, что использование многослойной архитектуры является одним из вариантов работы с большими данными. Распределенная параллельная архитектура осуществляет передачу данных на множество блоков обработки, а параллельные блоки обработки предоставляют данные гораздо быстрее путем увеличения скоростей обработки. Этот тип архитектуры вводит данные в параллельную систему управления базой данных (СУБД), в которой применяются модели MapReduce и Hadoop. Данный тип моделей направлен на то, чтобы при помощи frontend-сервера приложений сделать вычислительные возможности прозрачными для конечного пользователя.[17]
Технологии
Для оперативной обработки огромных объемов данных необходимы исключительные технологии. В отчете McKinsey 2011 года[18] предполагается, что подходящие для этого технологии включают A/B тестирование, краудсорсинг, синтез и интеграцию данных, генетические алгоритмы, машинное обучение, обработку естественного языка, обработку сигнала, симулирование, анализ на основе временных рядов и визуализацию. Многомерные большие данные могут также быть представлены тензорами, которые наиболее эффективно обрабатываются с помощью тензорного вычисления[19]. Дополнительные технологии, применяемые по отношению к большим данным, включают массово-параллельную обработку (MPP) баз данных, поисковых приложений, системы распределенных вычислений для data-mining, распределенные системы файлов, распределенные базы данных, облачная инфраструктура (приложения, хранилищные и вычислительные ресурсы), а также интернет.
Некоторые, но не все реляционные базы данных с MPP имеют возможность хранения и управления петабайтами данных. Подразумевается возможность загружать, отслеживать, поддерживать и оптимизировать использование больших таблиц данных в системе управления реляционной базой данных (RDBMS).[20]
Программа Анализа Топологических Данных Управления Перспективных Исследований и Разработок (DARPA) Министерства Обороны США занимается поиском основной структуры больших наборов данных, и, в 2008 году данная технология вышла на открытый рынок с основанием компании под названием Ayasdi.[21]
Специалисты, занимающиеся аналитикой больших данных, обычно с недоверием относятся к более медленной системе совместного хранения,[22] предпочитая ей систему хранения с прямым подключением (direct-attached storage (DAS)) в ее различных формах от твердотельной памяти (solid state drive (SSD)) до высокомощного диска SATA, размещенного внутри параллельных узлов обработки. Общее впечатление от архитектур совместного хранения: Сети хранения данных (SAN) и Сетевого хранилища данных (NAS) – заключается в их относительной медлительности, сложности и высокой стоимости. Данные свойства не согласуются с системами аналитики больших данных, которые выигрывают за счет показателей системы, инфраструктуры и низкой стоимости.
Получение информации в режиме реального времени является одной из определяющих характеристик аналитики больших данных. Задержка, таким образом, исключается везде, где это возможно и тогда, когда это возможно. Данные в памяти – это хорошо, данные на вращающемся диске на другом конце оптоволоконного соединения сети хранения данных (SAN) – нет. Стоимость SAN в масштабе, необходимом для аналитических приложений, гораздо выше, чем стоимость других способов хранения.
В области аналитики больших данных совместное хранение имеет как свои достоинства, так и недостатки, но аналитики больших данных по состоянию на 2011 год не отдавали ему своего предпочтения.[23]
Источник: Wikipedia
Комментарии 0