Статья Wikipedia "Big Data" (часть 2)
Продолжаем публикацию перевода материала англоязычной Wikipedia. Рассмотрим тему критики концепции больших данных и практику использования.
Мы продолжаем публикацию перевода определения Big Data из англоязычной статьи Википедии.
Тема больших данных сегодня является одной из самых обсуждаемых не только на просторах профессиональных ИТ-сообществ, но и в самых различных областях деятельности от маркетинга и рекламы до здравоохранения и законодательства. В данной статье мы представляем на суд сообщества ECM-Journal материал, посвященной практическому применению больших данных в определенных сферах жизни общества. Перед тем, как принять решение о дополнении соответствующей русскоязычной статьи Википедии данным материалом, мы будем рады узнать ваше мнение о ее содержании, предложения и дополнения.
Критика
Существует два основных направления критики парадигмы больших данных: в соответствии с первым оспаривается сущность самого подхода, приверженцы второго ставят под сомнение правильность текущего взаимодействия с большими данными.
Критика парадигмы больших данных
«Серьезной проблемой является наша неосведомленность о глубинных эмпирических микропроцессах, которые ведут к появлению этих типичных сетевых характеристик Больших данных».[24] В своей статье Сниждерс, Матцат и Райпс указывают на то, что часто выдвигаются предположения о математических свойствах, которые могут и не отражать того, что в действительности происходит на уровне микропроцессов. Марк Грэхам подверг большой критике утверждение Криса Андерсона о том, что большие данные ознаменуют конец теории, фокусируясь в частности на том убеждении, что большие данные всегда будет нужно контекстуализировать в социальном, экономическом и политическом планах.[25] Несмотря на то, что компании тратят восьми- и девятизначные суммы на получение аналитической картины из данных поставщиков и клиентов, менее чем 40% работников имеют какие-то навыки и необходимые условия для проведения этой аналитической работы. Чтобы преодолеть аналитический дефицит, «большие данные», вне зависимости от степени понятности и анализируемости, должны быть дополнены «большим критическим суждением», как утверждается в статье Harvard Business Review.[26]
Таким же образом было указано, что решения, основанные на анализе больших данных, будут неминуемо «основаны на информации из прошлого, или, в лучшем случае, из настоящего».[27] Наполненные большим количеством данных прошлого опыта, алгоритмы могут предсказывать будущее развитие, только в случае схожести будущего и прошлого. Если динамика систем будущего будет меняться, прошлое мало что сможет сказать о будущем. С этой целью, необходимо иметь четкое представление о динамике систем.
В качестве ответа на критику было предложено совместить подходы изучения больших данных с определенными видами компьютерного моделирования, такими как, например, агентное моделирование.[28] Агентное моделирование показывает все более качественные результаты в области предсказания исхода социального разнообразия даже неизвестных будущих сценариев методами компьютерного моделирования, которые основываются на наборе взаимозависимых алгоритмов.[29] К тому же, использование многомерных методов, исследующих скрытую структуру данных, таких как факторный и кластерный анализ, подтвердили свою эффективность в качестве аналитических подходов, выходящих далеко за пределы двумерных подходов (кросс-таблиц), которые обычно применяются по отношению к меньшим наборам данных. Адвокаты по защите персональной информации обеспокоены угрозой конфиденциальности личных данных в виду повышающегося уровня хранения и интеграции данных, позволяющих идентифицировать личность; экспертные группы выпустили различные рекомендации для усиления защиты личной информации.[30][31][32]
Критика текущего взаимодействия с большими данными
Исследователь Дана Бойд выразила беспокойство по поводу того, что часто большие данные используются с одновременным пренебрежением такими принципами как выбор репрезентативного образца. Такой подход может привести к искажению результатов. Интеграция разнородных источников данных – некоторых, которые можно рассматривать в качестве "больших данных" и прочих, которые таковыми считать нельзя – предполагают значительные логистические и аналитические трудности, но многие исследователи заявляют, что такие интеграционные процессы вполне могут оказаться новыми рубежами в науке.[33]
В своей провокационной статье «Критические вопросы о Больших данных» ("Critical Questions for Big Data")[34] авторы называют большие данными частью мифологии: «большие наборы данных предлагают более высокую форму интеллекта и знания [...], окруженную аурой правды, объективности и точности». Пользователи больших данных часто «теряются в огромном количестве цифр», и «работа с Большими Данными все еще субъективна, и то, что она выражает количественно, необязательно претендует на объективную правду». Последние достижения в области бизнес-аналитики, например, упреждающее информирование (pro-active reporting), главным образом нацелены на улучшения в области применения больших данных посредством автоматического фильтрования бесполезных данных и взаимосвязей.[35]
Большие данные – этот «туманный термин» долгое время остается на слуху, характеризуясь в то же время некой «зацикленностью» на предпринимателях, консультантах, ученых и медиа. Показательные образцы больших данных, такие как Google Flu Trends (программа Google, предсказывающая динамику распространения гриппа), не смогли дать правильных прогнозов в последние годы, увеличив количество вспышек гриппа в два раза. Похожим образом прогнозы вручения премии Американской киноакадемии и победы на выборах, которые основывались только на данных из Twitter, чаще оказывались неверными. Большие данные часто представляют такие же трудности, как и маленькие данные, и, добавление большего количества данных не решает проблемы искажения результатов, но может заострить внимание на прочих проблемах. В определенных источниках, таких как Twitter, данные не показательны в отношении всего населения, и результаты, полученные из таких источников, могут привести к ложным выводам. Сервис Google Translate, который основан на статистическом анализе больших данных текста, выполняет хорошую работу в части перевода веб-страниц, но в отношении специализированных областей результаты могут быть весьма невыразительными. С другой стороны, большие данные могут также вызвать новые проблемы, как, например сложность множественных сравнений: одновременное тестирование большого набора предположений может привести к множеству ложных результатов, которые ошибочно оказываются значительными.[36]
Иоаннидис утверждал, что «большая часть опубликованных исследовательских открытий неверны»[37] в виду такого же воздействия: когда многие группы ученых и исследователей проводят огромное количество экспериментов (т.е. обрабатывают большое количество научных данных, хотя и без применения технологии больших данных), вероятность «значительного» результата, являющегося в действительности ложным, резко возрастает – того более, когда публикуются только положительные результаты.
Практика использования
Правительство
В 2012 году администрация президента США Барака Обамы объявила об Инициативе Исследования и Разработки Больших Данных (“Big Data Research and Development Initiative”), в рамках которой изучались варианты использования больших данных для решения важных проблем, стоящих перед американским правительством.[1] Инициатива включала в себя 84 программы по управлению большими данными, которые впоследствии были внедрены в 6 департаментов.[2]
Аналитика больших данных сыграла важную роль в успешной предвыборной кампании Барака Обамы 2012 года.[3]
Федеральное правительство США владеет шестью из десяти мощнейших суперкомпьютеров в мире.[4]
Дата-центр в штате Юта – это центр управления данными, который в данный момент строится по заказу Агентства Национальной Безопасности США. Когда строительство завершится, в центре будет осуществляться управление большим объемом информации, собранной АНБ через интернет. Точный объем хранения неизвестен, но согласно последним источникам, в центре будет обрабатываться несколько Экзабайт данных.[5][6][7]
Частный сектор
Интернет-магазин eBay.com использует два хранилища данных на 7.5 петабайт и 40 петабайт, а также кластер Hadoop на 40 петабайт для осуществления поиска, получения рекомендаций от покупателей и проведения мерчендайзинговых мероприятий.[8]
Amazon.com каждый день проводит миллионы серверных операций и обрабатывает запросы, поступающие более чем от пятисот тысяч сторонних продавцов. Базовая технология, обеспечивающая работу сайта Amazon, основана на системе Linux, и по состоянию на 2005 год Amazon владел тремя крупнейшими в мире базами данных Linux, с мощностями на 7.8 терабайт, 18.5 терабайт, и 24.7 терабайт.[9]
Компания Walmart проводит более миллиона клиентских транзакций каждый час. Информация о сделках заносится в базу данных, в которой насчитывается более 2.5 петабайт (2560 терабайт) данных – что эквивалентно количеству информации, содержащейся в Библиотеке Конгресса США, увеличенному в 167 раз.[10]
В распоряжении Facebook* 50 миллиардов фотографий, полученных из базы пользователей.[11]
Система по обнаружению мошеннических операций с кредитными картами, Falcon Credit Card Fraud Detection System производства компании FICO обеспечивает защиту 2,1 миллиарда активных счетов по всему миру.[12]
Объем бизнес-данных по всему миру, согласно подсчетам, удваивается каждые 1,2 года.[13][14]
Агентство по продаже недвижимости Windermere Real Estate использует анонимные GPS-сигналы от ста миллионов водителей, чтобы помочь покупателям нового дома определить сколько времени займет поездка с работы и на работу в любое время суток.[15]
Производство
Согласно исследованию глобальных тенденций TCS 2013 Global Trend Study, усовершенствования в области планирования поставок и повышения качества продукции стали возможны благодаря применению больших данных, которые в результате принесли ощутимую пользу производственной отрасли.[16] Большие данные предоставляют инфраструктуру, способную обеспечить прозрачность в отрасли обрабатывающей промышленности, которая выражается в способности обнаружить такие проблемы, как несоответствие показателей работы и доступности компоненты реальному положению дел.
Концепция прогнозируемого производства, которая заключается в сокращении времени простоя до нуля и прозрачности процессов, требует огромного количества данных и современных инструментов прогнозирования для систематической переработки данных в ценную информацию.[17] Концептуальная модель прогнозируемого производства начинается с получения таких сенсорных данных, как акустика, вибрация, давление, ток, напряжение и информация с датчиков. Большое количество сенсорных данных в дополнение к историческим составляют большие данные в области производства. Сгенерированные большие данные выступают в роли входного сырья для инструментов прогнозирования и развития превентивных стратегий (прогностика, здравоохранение).[18]
Источник: Wikipedia
* - организация, признанна экстремистской на территории РФ
Комментарии 0