Наверх

От Big Data к Big Content

Время чтения: 3 минуты
22
От Big Data к Big Content

В процессе поиска интересных материалов о Big Data мне на глаза попалась статья одного из экспертов AIIM, Викрама Сетиа (Vikram Setia), в которой он раскрывает тему больших данных и контента, затронутую также в докладе Бабинцева Василия на DOCFLOW2014. Перевод этой статьи я предлагаю вашему вниманию.

В процессе поиска интересных материалов о Big Data мне на глаза попалась статья одного из экспертов AIIM, Викрама Сетиа (Vikram Setia), в которой он раскрывает тему больших данных и контента, затронутую также в докладе Бабинцева Василия на DOCFLOW2014. Перевод этой статьи я предлагаю вашему вниманию.

Несмотря на то, что для многих компаний Big Data остается ключевой темой обсуждения, последний отраслевой отчет AIIM на тему «Big Content» призван подчеркнуть, что где-то на горизонте всегда будет мелькать новый информационный тренд. Так что же представляет собой Big Content, и какое место он занимает в информационной стратегии вашей организации?

Говоря об управлении корпоративным контентом и информацией, нам часто приходится обращаться к проблеме структурированности/неструктурированности этой информации. Как правило, при систематизации корпоративной информации обнаруживается, что только 30-40% от ее общего количества представлено в виде структурированных данных. Именно они и служат основой для Big Data. Но если копнуть глубже, под этим верхним слоем обнаружится огромное количество неструктурированного контента в виде документов, электронных писем, видео и картинок, эффективно организовать которые многие компании оказываются неспособны, и поэтому не могут использовать это информационное изобилие на благо своего бизнеса. Именно мобилизация данной информации становится все более известной как «Big Content».

Традиционно данные состоят из количественной информации, которую легко можно собрать или занести в таблицу. Несмотря на то, что контент гораздо менее осязаем, он является в равной степени важным, но часто недооцененным источником для бизнес-аналитики.

Именно в этой «невидимой» информации нам как бизнес-профессионалам необходимо разобраться. Немного абстрагировавшись от Big Data, организации могут узнать своих клиентов на гораздо более «человеческом» уровне. Нужно на время забыть о частоте посещений, показателях просмотров и отказов, которые составляют Big Data, и сфокусироваться на изучении неструктурированного контента. Только тогда нам удастся придать некую форму контекста исходным данным, которые мы пытаемся собрать.

Если компании хотят принимать обоснованные бизнес-решения, им необходимо начать анализировать информацию и оперировать не только данными, но и контентом своих клиентов, а также контентом, разработанным в их собственной организации. Принимаясь за решение данной задачи сейчас, они смогут лучше подготовиться к будущим трудностям, которые неминуемо будут сопровождать Big Content.

Источник: https://www.aiim.org/community/blogs/community/From-Big-Data-to-Big-Content

Чтобы прочитать эту статью до конца,
или зарегистрируйтесь

Комментарии 22

Давайте писать что-то осмысленное, а не вводить очередной базворд в обращение. Какие инструменты есть у Big Content? Какие вендоры представлены на рынке? ...

Да и вообще, о какой обработке Big Content можно говорить, если до сих пор нет понимания что же такое "обрабатывать Content" - какой? как? для чего?

Отредактировано 22 мая 2014

Михаил, на нашем ресурсе это же первый материал под тегом "big content"? Для ввода термина в обращение -- хороший переводной блог, свидетельствующий в принципе о том, что западные коллеги сейчас задумываются над зарождающейся проблематикой. И вообще, интересен сам подход к тому, что понятия "большие данные" и "большой контент" разделяются, причем по признаку структурированности. Поулчается, мы наблюдаем зарождение терминологии, это уже само по себе интересно.

Заданные же вами вопросы могут стать поводами для других материалов на эту тему. Если уже знаете на них ответы, можете поделиться с сообществом, будет классно.

Отредактировано 22 мая 2014

Интересный вопрос - "Новый термин: стоит его вводить или нет?" Если мы будем говорить на одном языке и одинаково понимать термины, то меньше будет противоречий. Это с одной стороны. С другой надо ли плодить. Плюс в том что в термине Big Content больше акцента на неструктурированной информации. Насколько он приживется неизвестно.

Например, Майл Циглер, как представитель европейского ECM-сообщества, использовал в своем докладе на DOCFLOW термин Big Data, подразумевая именно неструктурированную информацию. И делал акцент на  росте не только объемов, но и росте % неструктурированной информации в общем объеме. Посмотрим привьёт ли AIIM новый термин...

Отредактировано 22 мая 2014

Интересно, кто-нибудь сможет сказать, чем big data отличается от уже известного data mining? ;)

Отредактировано 22 мая 2014
Интересно, кто-нибудь сможет сказать, чем big data отличается от уже известного data mining? ;)

Воспринимаю data mining как процесс анализа и визуализации множества наборов данных. В каждом наборе может быть немного данных, даже до мегабайта не дотягивать. Но наборов данных много. И данные уже связаны со значениями из наборов данных. И значения предсказуемы.

Big data это, например, петабайт почтовых сообщений. Где состав наборов данных скромный (от кого, кому, когда, сколько вложений, текст) но данных много. Или петабайт логов, в каждой строке логов 7 полей. А какие значения у полей заранее неизвестно, там всё что угодно. Для big data, нужен big-поиск, big-статистика и big-резервная копия.

И для big data и для data mining нужна детализация.

Отредактировано 22 мая 2014
Для ввода термина в обращение -- хороший переводной блог

А зачем этот термин нужен? Чем принципиально будет отличаться работа с большим и небольшим контентом?

Поулчается, мы наблюдаем зарождение терминологии, это уже само по себе интересно.

А по мне так мы наблюдаем старт чьей-то рекламной компании. Новые громкие и малопонятные обывателю термины, это всегда не плохо.

Заданные же вами вопросы могут стать поводами для других материалов на эту тему. Если уже знаете на них ответы, можете поделиться с сообществом, будет классно.

Не знаю. Я уже лет 10 (собственно, со времени начала работы в сфере ECM) слышу про некие "управление контентом", "обработку неструктурированных данных", "залежах информации", ... и все вот-вот собираются что-то с этим делам. По факту же, подавляющая часть проектов внедрения ECM/СЭД останавливается на управлении документами, на базе введенных вручную метаданных.

Вот просто ради интереса - сколько на EJ найдется статей, где бы описывался реальный опыт "управления контентом", который бы выходил за рамки "работа с карточками документа + поиск по тексту". Ну и распознавание скан-образов туда же.

Кто может рассказать о реальном примере неручной обработки контента?

Отредактировано 22 мая 2014

Если говорить о технологиях, которые ставил на первое место Майкл Циглер, то это семантический разбор, анализ настроений, и аналитика нового уровня с функциями автоматической классификации данных и возможностями предсказания. Конечно, я сейчас не готова сказать о конкретных проектах или даже продуктах.

Да, для нас, для российских реалий - это все из области "предсказаний", все пока кажется "не про нас". Но, например, анализ упоминаний в СМИ и принятие решений на основе этой информации - это уже реальные продукты и реальные задачи и в России. А на перспективу и обработка информации о "настроениях" в соц.сетях.

Отредактировано 22 мая 2014

Кстати, появление Compreno - первая ласточка на российском рынке для корпоративного сектора.

Отредактировано 22 мая 2014
Если говорить о технологиях, которые ставил на первое место Майкл Циглер, то это семантический разбор, анализ настроений, и аналитика нового уровня с функциями автоматической классификации данных и возможностями предсказания.

Лен, об этом говорят с конца 80-х, начала 90-х годов. Вопрос - где реальные результаты? Что-то, что ушло за рамки сырых лабораторных разработок?

Но, например, анализ упоминаний в СМИ и принятие решений на основе этой информации - это уже реальные продукты и реальные задачи и в России. А на перспективу и обработка информации о "настроениях" в соц.сетях.

Осталось только понять, как это соотносится с корпоративным контентом.

Кстати, появление Compreno - первая ласточка на российском рынке для корпоративного сектора.

Лен, они далеко не первые, до них были как минимум (что называется "за 2 минуты гугления"):

И, думаю, можно найти еще с 10-ок систем разной степени известности. Вот только их не назовут даже профессионалы в области ECM.

Почему? Не потому ли, что реальных результатов, полезных бизнесу, они так и не предложили? (Я не знаю ответа - но сайты компаний намекают, что расцветом там и не пахнет).

Отредактировано 22 мая 2014
чем big data отличается от уже известного data mining? ;)

Когда слышу словосочетание big data, представляю себе именно набор данных. А вот data mining -- это, все-таки, процесс, на котором может быть завязан анализ данных, как big, так и не big.

Если сейчас что-то не так, это не значит, что так будет всегда, и не нужно прикладывать усилия чтобы изменить это. Некоторые вендоры и ECM-проекты свои свернули 5 лет назад, решив что это никому не нужно, а потом стали внедрять чужие.

Уверена, что как раз с конца 80-х, начала 90-х годов сделали свой виток и вполне готовы выйти на уровень реальных задач. Вот, кстати, на российский рынок "проглядывает" еще один интересный продукт Indigo.

Вполне своевременно вводят новый термин... старый то на ладан дышит: http://bigdata.cnews.ru/news/top/index.shtml?2014/05/21/572686.

Пойти, что ли, сделать что-то больше-контентное )

Еще хорошая и забавная заметка на тему: http://tomfishburne.com/2014/04/big-data-analytics.html

Наблюдение: Потребность в инструментах для обработки «больших данных» в большинстве случаев говорит о неумении эффективно работать с информацией и формировать высококачественные «малые данные».

Кстати, DOCFLOW 2014 показало, что у нас хватает наивных людей, считающих, что большие данные – это очень много байт :)

Уверена, что как раз с конца 80-х, начала 90-х годов сделали свой виток и вполне готовы выйти на уровень реальных задач

А что-то есть, подкрепляющее эту уверенность?

Вообще, если в нашей стране есть ECM-проекты в которых делалсь что-то помимо "большой свалки файлов разных форматов" и "десятка маршрутов обработки", то о них просто необходимо рассказать на том же EJ.

Вот, кстати, на российский рынок "проглядывает" еще один интересный продукт Indigo

Этих "интересных продуктов", было уже столько... А у этого даже координат компании-разработчика попробуй найди (а Акелон почему-то не озаботились дать нормальные координаты в своих материалах)

Пока сложно говорить о примерах в ECM. Скорее это вызревание потребностей, которые вендоры должны улавливать, чтобы быть к ним готовыми. Да, конечно, заказчиков с такими потребностями не много. Но с ними как раз и интересно работать. Из примеров  по практической работе с большими данными, я считаю показательным описанное, например, тут http://www.computerra.ru/92102/procter-and-gamble-bigdata/

Из примеров по практической работе с большими данными, я считаю показательным описанное

Лена, это все интересно и замечательно. Уверен, если покопаться в загашниках EPAM, я смогу найти добрый десяток проектов, которые можно будет отнести к "big date". Но мы говорим об обработке контента!

Мне кажется, твой комментарий очень показательный - даже ты, человек, который уже 8 лет кропотливо отбирает материалы для EJ (и перелопачивает просто гору статей!), не можешь с ходу привести пример "ECM, не ограниченной простой работой с документами". Может таких примеров и правда нет?

Миша, спасибо за доверие. :) Хотя тут скорее вопрос к внедренцам, а не ко мне, как к СМИ. Не все рассказывают СМИ. Не все легко найти в СМИ и удержать в памяти ;)

И даже если сейчас нет - уверена будут. Кстати, на DOCFLOW в докладе Василия прозвучала цифра, что компаниям выходящим за мерки срок работы в ECM-системе более 10 лет, 1000 пользователей, 100 видов процессов в системе уже нужно задуматься о необходимости обработки больших данных, иначе данные будут просто "умирать", а не работать. Нужны технологии автоматической категоризации или анализа нового уровня. К примеру, поиск по тексту будет бессмысленнен - слишком много результатов, а найти нужное нет возможности. Далее, пользователи упорно не соблюдают правила "ручной" категоризации, и документы, которые могли бы пригодиться в будущем падают в "лету".

Так что пока нет, но ждем. И если что-то найдется, то сразу расскажем.

Кстати, я уже приводила в пример СЭД РЖД. http://www.rzd-partner.ru/interviews/comments/ielektronnyi-dokumentooborot---prochnaia-osnova-logistiki/ Если полностью реализуют свои замыслы - то получат бигдата. РЖД могут себе позволить супер-технологии и могут получить выгоды от их правильной обработки.

Акелон почему-то не озаботились дать нормальные координаты в своих материалах

Раз уж помянули... Никаких контактов нет, поскольку нет никаких продаж. Пока идет "изучение" рынка. На выбранных клиентах и специализированной публике. Даже на сайте нет ничего на этот счет. Искренне хочется верить, что новое что-то заинтересует людей...

докладе Василия прозвучала цифра, что компаниям выходящим за мерки срок работы в ECM-системе более 10 лет, 1000 пользователей, 100 видов процессов в системе уже нужно задуматься о необходимости обработки больших данных, иначе данные будут просто "умирать", а не работать

Откровенно говоря, не очень понимаю, откуда такие выводы...

Большая часть контента, генерируемая в процессе оперативной деятельности, с вероятностью 99% и не нужна никому. Её хранят для исключительных случаев, или потому, что так требует законадательство, или потому что кто-то внушил заказчикам мысль "проще хранить все" и они не стали заморачиваться выстраиванием процедур оценки ценности документов, а потом неожиданно обнаруживают в системе залежи абсолютно ненужных данных.

Если полностью реализуют свои замыслы - то получат бигдата

Все правильно, в этой задаче (с уверенеоостью близкой к 100%) и не нужен никакой пресловутый "big content" - все данные сразу же лучше передавать в структурированном виде.

Лен, оставь в стороне вопросы big data, пусть это и маркетинговый термин, но про него хоть понятно, где примерно и какие примерно инструменты для него применяют. Меня интересует, где уважаемый автор углядел потребность в big content и что это за зверь такой?

Чтобы прокомментировать, или зарегистрируйтесь