Злата Заболотских 29 августа 2014

Статья Wikipedia "Big Data" (часть 2)

IT-директору

Время чтения: 12 минут

Мы продолжаем публикацию перевода определения Big Data из англоязычной статьи Википедии.

Тема больших данных сегодня является одной из самых обсуждаемых не только на просторах профессиональных ИТ-сообществ, но и в самых различных областях деятельности от маркетинга и рекламы до здравоохранения и законодательства. В данной статье мы представляем на суд сообщества ECM-Journal материал, посвященной практическому применению больших данных в определенных сферах жизни общества. Перед тем, как принять решение о дополнении соответствующей русскоязычной статьи Википедии данным материалом, мы будем рады узнать ваше мнение о ее содержании, предложения и дополнения.

Критика

Существует два основных направления критики парадигмы больших данных: в соответствии с первым оспаривается сущность самого подхода, приверженцы второго ставят под сомнение правильность текущего взаимодействия с большими данными.

Критика парадигмы больших данных

«Серьезной проблемой является наша неосведомленность о глубинных эмпирических микропроцессах, которые ведут к появлению этих типичных сетевых характеристик Больших данных».[24] В своей статье Сниждерс, Матцат и Райпс указывают на то, что часто выдвигаются предположения о математических свойствах, которые могут и не отражать того, что в действительности происходит на уровне микропроцессов. Марк Грэхам подверг большой критике утверждение Криса Андерсона о том, что большие данные ознаменуют конец теории, фокусируясь в частности на том убеждении, что большие данные всегда будет нужно контекстуализировать в социальном, экономическом и политическом планах.[25] Несмотря на то, что компании тратят восьми- и девятизначные суммы на получение аналитической картины из данных поставщиков и клиентов, менее чем 40% работников имеют какие-то навыки и необходимые условия для проведения этой аналитической работы. Чтобы преодолеть аналитический дефицит, «большие данные», вне зависимости от степени понятности и анализируемости, должны быть дополнены «большим критическим суждением», как утверждается в статье Harvard Business Review.[26]

Таким же образом было указано, что решения, основанные на анализе больших данных, будут неминуемо «основаны на информации из прошлого, или, в лучшем случае, из настоящего».[27] Наполненные большим количеством данных прошлого опыта, алгоритмы могут предсказывать будущее развитие, только в случае схожести будущего и прошлого. Если динамика систем будущего будет меняться, прошлое мало что сможет сказать о будущем. С этой целью, необходимо иметь четкое представление о динамике систем.

В качестве ответа на критику было предложено совместить подходы изучения больших данных с определенными видами компьютерного моделирования, такими как, например, агентное моделирование.[28] Агентное моделирование показывает все более качественные результаты в области предсказания исхода социального разнообразия даже неизвестных будущих сценариев методами компьютерного моделирования, которые основываются на наборе взаимозависимых алгоритмов.[29] К тому же, использование многомерных методов, исследующих скрытую структуру данных, таких как факторный и кластерный анализ, подтвердили свою эффективность в качестве аналитических подходов, выходящих далеко за пределы двумерных подходов (кросс-таблиц), которые обычно применяются по отношению к меньшим наборам данных. Адвокаты по защите персональной информации обеспокоены угрозой конфиденциальности личных данных в виду повышающегося уровня хранения и интеграции данных, позволяющих идентифицировать личность; экспертные группы выпустили различные рекомендации для усиления защиты личной информации.[30][31][32]

Критика текущего взаимодействия с большими данными

Исследователь Дана Бойд выразила беспокойство по поводу того, что часто большие данные используются с одновременным пренебрежением такими принципами как выбор репрезентативного образца. Такой подход может привести к искажению результатов. Интеграция разнородных источников данных – некоторых, которые можно рассматривать в качестве "больших данных" и прочих, которые таковыми считать нельзя – предполагают значительные логистические и аналитические трудности, но многие исследователи заявляют, что такие интеграционные процессы вполне могут оказаться новыми рубежами в науке.[33]

В своей провокационной статье «Критические вопросы о Больших данных» ("Critical Questions for Big Data")[34] авторы называют большие данными частью мифологии: «большие наборы данных предлагают более высокую форму интеллекта и знания [...], окруженную аурой правды, объективности и точности». Пользователи больших данных часто «теряются в огромном количестве цифр», и «работа с Большими Данными все еще субъективна, и то, что она выражает количественно, необязательно претендует на объективную правду». Последние достижения в области бизнес-аналитики, например, упреждающее информирование (pro-active reporting), главным образом нацелены на улучшения в области применения больших данных посредством автоматического фильтрования бесполезных данных и взаимосвязей.[35]

Большие данные – этот «туманный термин» долгое время остается на слуху, характеризуясь в то же время некой «зацикленностью» на предпринимателях, консультантах, ученых и медиа. Показательные образцы больших данных, такие как Google Flu Trends (программа Google, предсказывающая динамику распространения гриппа), не смогли дать правильных прогнозов в последние годы, увеличив количество вспышек гриппа в два раза. Похожим образом прогнозы вручения премии Американской киноакадемии и победы на выборах, которые основывались только на данных из Twitter, чаще оказывались неверными. Большие данные часто представляют такие же трудности, как и маленькие данные, и, добавление большего количества данных не решает проблемы искажения результатов, но может заострить внимание на прочих проблемах. В определенных источниках, таких как Twitter, данные не показательны в отношении всего населения, и результаты, полученные из таких источников, могут привести к ложным выводам. Сервис Google Translate, который основан на статистическом анализе больших данных текста, выполняет хорошую работу в части перевода веб-страниц, но в отношении специализированных областей результаты могут быть весьма невыразительными. С другой стороны, большие данные могут также вызвать новые проблемы, как, например сложность множественных сравнений: одновременное тестирование большого набора предположений может привести к множеству ложных результатов, которые ошибочно оказываются значительными.[36]

Иоаннидис утверждал, что «большая часть опубликованных исследовательских открытий неверны»[37] в виду такого же воздействия: когда многие группы ученых и исследователей проводят огромное количество экспериментов (т.е. обрабатывают большое количество научных данных, хотя и без применения технологии больших данных), вероятность «значительного» результата, являющегося в действительности ложным, резко возрастает – того более, когда публикуются только положительные результаты.

Практика использования

Правительство

В 2012 году администрация президента США Барака Обамы объявила об Инициативе Исследования и Разработки Больших Данных (“Big Data Research and Development Initiative”), в рамках которой изучались варианты использования больших данных для решения важных проблем, стоящих перед американским правительством.[1] Инициатива включала в себя 84 программы по управлению большими данными, которые впоследствии были внедрены в 6 департаментов.[2]

Аналитика больших данных сыграла важную роль в успешной предвыборной кампании Барака Обамы 2012 года.[3]

Федеральное правительство США владеет шестью из десяти мощнейших суперкомпьютеров в мире.[4]

Дата-центр в штате Юта – это центр управления данными, который в данный момент строится по заказу Агентства Национальной Безопасности США. Когда строительство завершится, в центре будет осуществляться управление большим объемом информации, собранной АНБ через интернет. Точный объем хранения неизвестен, но согласно последним источникам, в центре будет обрабатываться несколько Экзабайт данных.[5][6][7]

Частный сектор

Интернет-магазин eBay.com использует два хранилища данных на 7.5 петабайт и 40 петабайт, а также кластер Hadoop на 40 петабайт для осуществления поиска, получения рекомендаций от покупателей и проведения мерчендайзинговых мероприятий.[8]

Amazon.com каждый день проводит миллионы серверных операций и обрабатывает запросы, поступающие более чем от пятисот тысяч сторонних продавцов. Базовая технология, обеспечивающая работу сайта Amazon, основана на системе Linux, и по состоянию на 2005 год Amazon владел тремя крупнейшими в мире базами данных Linux, с мощностями на 7.8 терабайт, 18.5 терабайт, и 24.7 терабайт.[9]

Компания Walmart проводит более миллиона клиентских транзакций каждый час. Информация о сделках заносится в базу данных, в которой насчитывается более 2.5 петабайт (2560 терабайт) данных – что эквивалентно количеству информации, содержащейся в Библиотеке Конгресса США, увеличенному в 167 раз.[10]

В распоряжении Facebook* 50 миллиардов фотографий, полученных из базы пользователей.[11]

Система по обнаружению мошеннических операций с кредитными картами, Falcon Credit Card Fraud Detection System производства компании FICO обеспечивает защиту 2,1 миллиарда активных счетов по всему миру.[12]

Объем бизнес-данных по всему миру, согласно подсчетам, удваивается каждые 1,2 года.[13][14]

Агентство по продаже недвижимости Windermere Real Estate использует анонимные GPS-сигналы от ста миллионов водителей, чтобы помочь покупателям нового дома определить сколько времени займет поездка с работы и на работу в любое время суток.[15]

Производство

Согласно исследованию глобальных тенденций TCS 2013 Global Trend Study, усовершенствования в области планирования поставок и повышения качества продукции стали возможны благодаря применению больших данных, которые в результате принесли ощутимую пользу производственной отрасли.[16] Большие данные предоставляют инфраструктуру, способную обеспечить прозрачность в отрасли обрабатывающей промышленности, которая выражается в способности обнаружить такие проблемы, как несоответствие показателей работы и доступности компоненты реальному положению дел.

Концепция прогнозируемого производства, которая заключается в сокращении времени простоя до нуля и прозрачности процессов, требует огромного количества данных и современных инструментов прогнозирования для систематической переработки данных в ценную информацию.[17] Концептуальная модель прогнозируемого производства начинается с получения таких сенсорных данных, как акустика, вибрация, давление, ток, напряжение и информация с датчиков. Большое количество сенсорных данных в дополнение к историческим составляют большие данные в области производства. Сгенерированные большие данные выступают в роли входного сырья для инструментов прогнозирования и развития превентивных стратегий (прогностика, здравоохранение).[18]

Источник: Wikipedia

* - организация, признанна экстремистской на территории РФ

Чтобы прочитать эту статью до конца,
или

Статья Wikipedia "Big Data" (часть 2)

Комментарии 0

Похожие статьи

Готовность к использованию технологий интеллектуальной обработки текстов

Зачем нужны папки документов в СЭД?

Задача управления корпоративными операционными электронными архивами в России