Добавить в закладки могут только зарегистрированные пользователи.
Статья Wikipedia "Big Data" 

Злата Заболотских28 августа 2014 г. 09:53

Тема больших данных является популярной уже достаточно долгое время, оставляя гораздо больше вопросов, чем ответов. Не обошла стороной она и нас. Сравнив статьи, посвященные большим данным в Википедии на русском и английском языках, мы решили дополнить русскоязычную версию некоторой информацией из ее англоязычной «сестры», предварительно представив переведенный материал на суд сообщества ECM-Journal. В данной статье мы публикуем перевод материала, посвященного вопросам технологии и архитектуры. Далее последует материал по критике концепции больших данных и практике использования.

Определение

Большие данные (англ. Big Data) – это общий термин для обозначения процесса сбора данных таких объемов и многообразия, при которых их обработка с применением традиционных инструментов становится проблематичной. Трудности возникают при осуществлении захвата, сбора, хранения, поиска, совместного использования, передачи, анализа и визуализации данных. Тенденция бОльших объемов данных возникла благодаря возможности получения дополнительной информации в результате анализа отдельного большого набора связанных данных (в противовес анализу небольших наборов данных с таким же совокупным объемом).[1]

Ученые регулярно сталкиваются с ограничениями, связанными с большими наборами данных во многих областях, включая метеорологию, геномику,[2] коннектомику, сложное моделирование физической среды,[3] исследования в области биологии и окружающей среды.[4] Эти ограничения также касаются функции поиска в интернете, финансовой и бизнес-информатики. Наборы данных увеличиваются в объемах частично ввиду их постоянного сбора посредством мобильных приложений, воздушных (антенных) высокочувствительных технологий (дистанционное считывание), лог-файлов, камер, микрофонов, радиочастотных идентификаторов (RFID), и беспроводных сенсорных сетей.[5][6][7] Начиная с 80-х годов XX века мировой объем хранения информации на душу населения удваивается каждые 40 месяцев;[8] по состоянию на 2012 год каждый день создавалось по 2.5 экзабайт (2.5×1018 байт) данных.[9] 

Крупным предприятиям предстоит решить, кто возьмет в свои руки инициативы по управлению большими данными, которыми уже переполнены целые организации.[10]

Сложно работать с большими данными, применяя главным образом системы по управлению реляционными базами данных, desktop-статистику и пакеты программ для визуализации, когда вместо этого необходимо использовать «массово-параллельное программное обеспечение, функционирующее на десятках, сотнях, или даже тысячах серверов».[11]

То, что принято считать «большими данными» различается в зависимости от возможностей компании, управляющей набором данных, а также от возможностей приложений, применяемых для обработки и анализа. «Для большинства организаций первое столкновение с сотнями гигабайт данных может вызвать необходимость пересмотра средств управления данными. Но для других компаний «критическим» может стать объем в десятки или сотни терабайт». [12]

Архитектура

В 2004 году компания Google опубликовала документацию по модели распределенных вычислений MapReduce. В MapReduce представлена параллельная модель обработки данных. На Map-шаге происходит предварительная обработка входных данных. Для этого один из компьютеров (называемый главным узлом – master node) получает входные данные задачи, разделяет их на части и передает другим компьютерам (рабочим узлам – worker node) для предварительной обработки. На Reduce-шаге происходит свертка предварительно обработанных данных. Главный узел получает ответы от рабочих узлов и на их основе формирует результат – решение задачи, которая формулировалась изначально. Данная модель была настолько успешна[13], что многие хотели продублировать ее алгоритм. Поэтому, проект компании Apache с открытым исходным кодом, получивший название Hadoop[14], взял ее на вооружение.

Методология управления корпоративной информацией MIKE2.0 – открытый подход к управлению информацией, который в статье «Big Data Solution Offering»[15] признает необходимость модернизации решений для управления большими данными в связи с возросшей частотой их применения. Методология рассматривает управление большими данными через призму полезных преобразований их источников, сложности взаимосвязей, и трудностей, связанных с удалением (или изменением) отдельных записей.[16]

Последние исследования показывают, что использование многослойной архитектуры является одним из вариантов работы с большими данными. Распределенная параллельная архитектура осуществляет передачу данных на множество блоков обработки, а параллельные блоки обработки предоставляют данные гораздо быстрее путем увеличения скоростей обработки. Этот тип архитектуры вводит данные в параллельную систему управления базой данных (СУБД), в которой применяются модели MapReduce и Hadoop. Данный тип моделей направлен на то, чтобы при помощи frontend-сервера приложений сделать вычислительные возможности прозрачными для конечного пользователя.[17]

Технологии

Для оперативной обработки огромных объемов данных необходимы исключительные технологии. В отчете McKinsey 2011 года[18]  предполагается, что подходящие для этого технологии включают A/B тестированиекраудсорсингсинтез и интеграцию данных, генетические алгоритмы, машинное обучение, обработку естественного языка, обработку сигнала, симулированиеанализ на основе временных рядов и визуализацию. Многомерные большие данные могут также быть представлены тензорами, которые наиболее эффективно обрабатываются с помощью тензорного вычисления[19]. Дополнительные технологии, применяемые по отношению к большим данным, включают массово-параллельную обработку (MPP) баз данных, поисковых приложений, системы распределенных вычислений для data-mining, распределенные системы файлов, распределенные базы данных, облачная инфраструктура (приложения, хранилищные и вычислительные ресурсы), а также интернет.

Некоторые, но не все реляционные базы данных с MPP имеют возможность хранения и управления петабайтами данных. Подразумевается возможность загружать, отслеживать, поддерживать и оптимизировать использование больших таблиц данных в системе управления реляционной базой данных (RDBMS).[20]

Программа Анализа Топологических Данных Управления Перспективных Исследований и Разработок (DARPA) Министерства Обороны США занимается поиском основной структуры больших наборов данных, и, в 2008 году данная технология вышла на открытый рынок с основанием компании под названием Ayasdi.[21]

Специалисты, занимающиеся аналитикой больших данных, обычно с недоверием относятся к более медленной системе совместного хранения,[22] предпочитая ей систему хранения с прямым подключением (direct-attached storage (DAS)) в ее различных формах от твердотельной памяти (solid state drive (SSD)) до высокомощного диска SATA, размещенного внутри параллельных узлов обработки. Общее впечатление от архитектур совместного хранения: Сети хранения данных (SAN) и Сетевого хранилища данных (NAS) – заключается в их относительной медлительности, сложности и высокой стоимости. Данные свойства не согласуются с системами аналитики больших данных, которые выигрывают за счет показателей системы, инфраструктуры и низкой стоимости.

Получение информации в режиме реального времени является одной из определяющих характеристик аналитики больших данных. Задержка, таким образом, исключается везде, где это возможно и тогда, когда это возможно. Данные в памяти – это хорошо, данные на вращающемся диске на другом конце оптоволоконного соединения сети хранения данных (SAN) – нет. Стоимость SAN в масштабе, необходимом для аналитических приложений, гораздо выше, чем стоимость других способов хранения.

В области аналитики больших данных совместное хранение имеет как свои достоинства, так и недостатки, но аналитики больших данных по состоянию на 2011 год не отдавали ему своего предпочтения.[23]

Источник:  Wikipedia

Тип: Статьи

 (4,55 - оценили 9 чел.)

Комментарии
  • Сохранить комментарий
  • Цитировать выделенное
  • Предпросмотр