Журнал о системах электронного документооборота (СЭД)
Управление контентом

От Big Data к Big Content

  25 комментариев Добавить в закладки

В процессе поиска интересных материалов о Big Data мне на глаза попалась статья одного из экспертов AIIM, Викрама Сетиа (Vikram Setia), в которой он раскрывает тему больших данных и контента, затронутую также в докладе Бабинцева Василия на DOCFLOW2014. Перевод этой статьи я предлагаю вашему вниманию.

Несмотря на то, что для многих компаний Big Data остается ключевой темой обсуждения, последний отраслевой отчет AIIM на тему «Big Content» призван подчеркнуть, что где-то на горизонте всегда будет мелькать новый информационный тренд. Так что же представляет собой Big Content, и какое место он занимает в информационной стратегии вашей организации?

Говоря об управлении корпоративным контентом и информацией, нам часто приходится обращаться к проблеме структурированности/неструктурированности этой информации. Как правило, при систематизации корпоративной информации обнаруживается, что только 30-40% от ее общего количества представлено в виде структурированных данных. Именно они и служат основой для Big Data. Но если копнуть глубже, под этим верхним слоем обнаружится огромное количество неструктурированного контента в виде документов, электронных писем, видео и картинок, эффективно организовать которые многие компании оказываются неспособны, и поэтому не могут использовать это информационное изобилие на благо своего бизнеса. Именно мобилизация данной информации становится все более известной как «Big Content».

Традиционно данные состоят из количественной информации, которую легко можно собрать или занести в таблицу. Несмотря на то, что контент гораздо менее осязаем, он является в равной степени важным, но часто недооцененным источником для бизнес-аналитики.

Именно в этой «невидимой» информации нам как бизнес-профессионалам необходимо разобраться. Немного абстрагировавшись от Big Data, организации могут узнать своих клиентов на гораздо более «человеческом» уровне. Нужно на время забыть о частоте посещений, показателях просмотров и отказов, которые составляют Big Data, и сфокусироваться на изучении неструктурированного контента. Только тогда нам удастся придать некую форму контекста исходным данным, которые мы пытаемся собрать.

Если компании хотят принимать обоснованные бизнес-решения, им необходимо начать анализировать информацию и оперировать не только данными, но и контентом своих клиентов, а также контентом, разработанным в их собственной организации. Принимаясь за решение данной задачи сейчас, они смогут лучше подготовиться к будущим трудностям, которые неминуемо будут сопровождать Big Content.

Источник: http://www.aiim.org/community/blogs/community/From-Big-Data-to-Big-Content

Ещё материалы автора
Похожие записи
Комментарии (25)
Михаил Романов 22 мая 2014 г. 16:44  

Давайте писать что-то осмысленное, а не вводить очередной базворд в обращение. Какие инструменты есть у Big Content? Какие вендоры представлены на рынке? ...

Да и вообще, о какой обработке Big Content можно говорить, если до сих пор нет понимания что же такое "обрабатывать Content" - какой? как? для чего?

Максим Кайнер 22 мая 2014 г. 16:57  

Михаил, на нашем ресурсе это же первый материал под тегом "big content"? Для ввода термина в обращение -- хороший переводной блог, свидетельствующий в принципе о том, что западные коллеги сейчас задумываются над зарождающейся проблематикой. И вообще, интересен сам подход к тому, что понятия "большие данные" и "большой контент" разделяются, причем по признаку структурированности. Поулчается, мы наблюдаем зарождение терминологии, это уже само по себе интересно.

Заданные же вами вопросы могут стать поводами для других материалов на эту тему. Если уже знаете на них ответы, можете поделиться с сообществом, будет классно.

Елена Питомцева 22 мая 2014 г. 17:13  

Интересный вопрос - "Новый термин: стоит его вводить или нет?" Если мы будем говорить на одном языке и одинаково понимать термины, то меньше будет противоречий. Это с одной стороны. С другой надо ли плодить. Плюс в том что в термине Big Content больше акцента на неструктурированной информации. Насколько он приживется неизвестно.

Например, Майл Циглер, как представитель европейского ECM-сообщества, использовал в своем докладе на DOCFLOW термин Big Data, подразумевая именно неструктурированную информацию. И делал акцент на  росте не только объемов, но и росте % неструктурированной информации в общем объеме. Посмотрим привьёт ли AIIM новый термин...

Сергей Бушмелев 22 мая 2014 г. 17:17  

Интересно, кто-нибудь сможет сказать, чем big data отличается от уже известного data mining? ;)

Вячеслав Смирнов 22 мая 2014 г. 17:42  
Интересно, кто-нибудь сможет сказать, чем big data отличается от уже известного data mining? ;)

Воспринимаю data mining как процесс анализа и визуализации множества наборов данных. В каждом наборе может быть немного данных, даже до мегабайта не дотягивать. Но наборов данных много. И данные уже связаны со значениями из наборов данных. И значения предсказуемы.

Big data это, например, петабайт почтовых сообщений. Где состав наборов данных скромный (от кого, кому, когда, сколько вложений, текст) но данных много. Или петабайт логов, в каждой строке логов 7 полей. А какие значения у полей заранее неизвестно, там всё что угодно. Для big data, нужен big-поиск, big-статистика и big-резервная копия.

И для big data и для data mining нужна детализация.

 

Михаил Романов 22 мая 2014 г. 17:43  
Для ввода термина в обращение -- хороший переводной блог

А зачем этот термин нужен? Чем принципиально будет отличаться работа с большим и небольшим контентом?

Поулчается, мы наблюдаем зарождение терминологии, это уже само по себе интересно.

А по мне так мы наблюдаем старт чьей-то рекламной компании. Новые громкие и малопонятные обывателю термины, это всегда не плохо.

Заданные же вами вопросы могут стать поводами для других материалов на эту тему. Если уже знаете на них ответы, можете поделиться с сообществом, будет классно.

Не знаю. Я уже лет 10 (собственно, со времени начала работы в сфере ECM) слышу про некие "управление контентом", "обработку неструктурированных данных", "залежах информации", ... и все вот-вот собираются что-то с этим делам. По факту же, подавляющая часть проектов внедрения ECM/СЭД останавливается на управлении документами, на базе введенных вручную метаданных.

 

Вот просто ради интереса - сколько на EJ найдется статей, где бы описывался реальный опыт "управления контентом", который бы выходил за рамки "работа с карточками документа + поиск по тексту". Ну и распознавание скан-образов туда же.

 

Кто может рассказать о реальном примере неручной обработки контента?

 

Елена Питомцева 22 мая 2014 г. 17:56  

Если говорить о технологиях, которые ставил на первое место Майкл Циглер, то это семантический разбор, анализ настроений, и аналитика нового уровня с функциями автоматической классификации данных и возможностями предсказания. Конечно, я сейчас не готова сказать о конкретных проектах или даже продуктах.

Да, для нас, для российских реалий - это все из области "предсказаний", все пока кажется "не про нас". Но, например, анализ упоминаний в СМИ и принятие решений на основе этой информации - это уже реальные продукты и реальные задачи и в России. А на перспективу и обработка информации о "настроениях" в соц.сетях.

Елена Питомцева 22 мая 2014 г. 17:59  

Кстати, появление Compreno - первая ласточка на российском рынке для корпоративного сектора.

Михаил Романов 22 мая 2014 г. 18:17  
Если говорить о технологиях, которые ставил на первое место Майкл Циглер, то это семантический разбор, анализ настроений, и аналитика нового уровня с функциями автоматической классификации данных и возможностями предсказания.

Лен, об этом говорят с конца 80-х, начала 90-х годов. Вопрос - где реальные результаты? Что-то, что ушло за рамки сырых лабораторных разработок?

Но, например, анализ упоминаний в СМИ и принятие решений на основе этой информации - это уже реальные продукты и реальные задачи и в России. А на перспективу и обработка информации о "настроениях" в соц.сетях.

Осталось только понять, как это соотносится с корпоративным контентом.

Кстати, появление Compreno - первая ласточка на российском рынке для корпоративного сектора.

Лен, они далеко не первые, до них были как минимум (что называется "за 2 минуты гугления"):

 

И, думаю, можно найти еще с 10-ок систем разной степени известности. Вот только их не назовут даже профессионалы в области ECM.

Почему? Не потому ли, что реальных результатов, полезных бизнесу, они так и не предложили? (Я не знаю ответа - но сайты компаний намекают, что расцветом там и не пахнет).

Максим Кайнер 22 мая 2014 г. 18:22  
чем big data отличается от уже известного data mining? ;)

Когда слышу словосочетание big data, представляю себе именно набор данных. А вот data mining -- это, все-таки, процесс, на котором может быть завязан анализ данных, как big, так и не big.

 

Елена Питомцева 22 мая 2014 г. 18:26  

Если сейчас что-то не так, это не значит, что так будет всегда, и не нужно прикладывать усилия чтобы изменить это. Некоторые вендоры и ECM-проекты свои свернули 5 лет назад, решив что это никому не нужно, а потом стали внедрять чужие.

Уверена, что как раз с конца 80-х, начала 90-х годов сделали свой виток и вполне готовы выйти на уровень реальных задач. Вот, кстати, на российский рынок "проглядывает" еще один интересный продукт Indigo.

Наталья Храмцовская 23 мая 2014 г. 08:43  

Наблюдение: Потребность в инструментах для обработки «больших данных» в большинстве случаев говорит о неумении эффективно работать с информацией и формировать высококачественные «малые данные».

Кстати, DOCFLOW 2014 показало, что у нас хватает наивных людей, считающих, что большие данные – это очень много байт :)

Михаил Романов 25 мая 2014 г. 12:36  
Уверена, что как раз с конца 80-х, начала 90-х годов сделали свой виток и вполне готовы выйти на уровень реальных задач

А что-то есть, подкрепляющее эту уверенность?

Вообще, если в нашей стране есть ECM-проекты в которых делалсь что-то помимо "большой свалки файлов разных форматов" и "десятка маршрутов обработки", то о них просто необходимо рассказать на том же EJ.

Вот, кстати, на российский рынок "проглядывает" еще один интересный продукт Indigo

Этих "интересных продуктов", было уже столько... А у этого даже координат компании-разработчика попробуй найди (а Акелон почему-то не озаботились дать нормальные координаты в своих материалах)

 

 

Елена Питомцева 26 мая 2014 г. 00:45  

Пока сложно говорить о примерах в ECM. Скорее это вызревание потребностей, которые вендоры должны улавливать, чтобы быть к ним готовыми. Да, конечно, заказчиков с такими потребностями не много. Но с ними как раз и интересно работать. Из примеров  по практической работе с большими данными, я считаю показательным описанное, например, тут http://www.computerra.ru/92102/procter-and-gamble-bigdata/

Михаил Романов 26 мая 2014 г. 08:04  
Из примеров по практической работе с большими данными, я считаю показательным описанное

Лена, это все интересно и замечательно. Уверен, если покопаться в загашниках EPAM, я смогу найти добрый десяток проектов, которые можно будет отнести к "big date". Но мы говорим об обработке контента!

 

Мне кажется, твой комментарий очень показательный - даже ты, человек, который уже 8 лет кропотливо отбирает материалы для EJ (и перелопачивает просто гору статей!), не можешь с ходу привести пример "ECM, не ограниченной простой работой с документами". Может таких примеров и правда нет?

Елена Питомцева 26 мая 2014 г. 08:49  

Миша, спасибо за доверие. :) Хотя тут скорее вопрос к внедренцам, а не ко мне, как к СМИ. Не все рассказывают СМИ. Не все легко найти в СМИ и удержать в памяти ;)

И даже если сейчас нет - уверена будут. Кстати, на DOCFLOW в докладе Василия прозвучала цифра, что компаниям выходящим за мерки срок работы в ECM-системе более 10 лет, 1000 пользователей, 100 видов процессов в системе уже нужно задуматься о необходимости обработки больших данных, иначе данные будут просто "умирать", а не работать. Нужны технологии автоматической категоризации или анализа нового уровня. К примеру, поиск по тексту будет бессмысленнен - слишком много результатов, а найти нужное нет возможности. Далее, пользователи упорно не соблюдают правила "ручной" категоризации, и документы, которые могли бы пригодиться в будущем падают в "лету".

Так что пока нет, но ждем. И если что-то найдется, то сразу расскажем.

Елена Питомцева 26 мая 2014 г. 09:00  

Кстати, я уже приводила в пример СЭД РЖД. http://www.rzd-partner.ru/interviews/comments/ielektronnyi-dokumentooborot---prochnaia-osnova-logistiki/ Если полностью реализуют свои замыслы - то получат бигдата. РЖД могут себе позволить супер-технологии и могут получить выгоды от их правильной обработки.

Виктор Золотов 26 мая 2014 г. 10:11  
Акелон почему-то не озаботились дать нормальные координаты в своих материалах

Раз уж помянули... Никаких контактов нет, поскольку нет никаких продаж. Пока идет "изучение" рынка. На выбранных клиентах и специализированной публике. Даже на сайте нет ничего на этот счет. Искренне хочется верить, что новое что-то заинтересует людей...

 

Михаил Романов 26 мая 2014 г. 11:22  
докладе Василия прозвучала цифра, что компаниям выходящим за мерки срок работы в ECM-системе более 10 лет, 1000 пользователей, 100 видов процессов в системе уже нужно задуматься о необходимости обработки больших данных, иначе данные будут просто "умирать", а не работать

Откровенно говоря, не очень понимаю, откуда такие выводы...

 

Большая часть контента, генерируемая в процессе оперативной деятельности, с вероятностью 99% и не нужна никому. Её хранят для исключительных случаев, или потому, что так требует законадательство, или потому что кто-то внушил заказчикам мысль "проще хранить все" и они не стали заморачиваться выстраиванием процедур оценки ценности документов, а потом неожиданно обнаруживают в системе залежи абсолютно ненужных данных.

Михаил Романов 26 мая 2014 г. 11:32  
Если полностью реализуют свои замыслы - то получат бигдата

Все правильно, в этой задаче (с уверенеоостью близкой к 100%) и не нужен никакой пресловутый "big content" - все данные сразу же лучше передавать в структурированном виде.

 

Лен, оставь в стороне вопросы big data, пусть это и маркетинговый термин, но про него хоть понятно, где примерно и какие примерно инструменты для него применяют. Меня интересует, где уважаемый автор углядел потребность в big content и что это за зверь такой?

Сейчас обсуждают
Евгений Кочуров 20 марта 2017 г. 07:49  
Юрий Зерин 18 марта 2017 г. 19:18  
Сергей Бушмелев 15 марта 2017 г. 22:47  
Елена Истомина 15 марта 2017 г. 13:08  
Сергей Бушмелев 15 марта 2017 г. 10:46  
Больше комментариев