Клаус Шульц:
На вопросы ECM-Journal от семантического распознования до стандартов DataCapture ответил Клаус Шульц, руководитель отдела по маркетингу продукции в регионе EMEA, PFU Imaging Solutions.
Параллельное использование бумажных и электронных документов является реальностью текущего состояния в сфере управления документами в компаниях, что неизбежно повышает интерес к теме захвата данных с бумажных носителей и преобразованию их в электронный вид. Сегодня мы поговорим с одним из экспертов в этой сфере. На вопросы ECM-Journal отвечает Клаус Шульц, руководитель отдела по маркетингу продукции в регионе EMEA, PFU Imaging Solutions.
Можно ли говорить об усилении интереса к ECM-тематике в этом году (в частности, на различных отраслевых мероприятиях)? Ведь задачи электронного документооборота всегда были актуальными. В чем, на ваш взгляд, причина этого?
И да, и нет. Презентации, которые мы проводим, демонстрируют поступательное развитие российского рынка сканирования документов, а также наши достижения в этой области. По нашим данным (об этом же свидетельствуют независимые исследования рынка), совершенно очевидно, что по сравнению с существенным спадом в кризисном 2009 году, в 2010 мы пережили постепенное восстановление рынка, а уже в 2011 произошло увеличение объема продаж. При этом мы предоставляем только возможности сканирования документов. Но можно предположить, что если я заказываю один сканер, то, с высокой долей вероятности, я куплю и несколько лицензий ECM-системы. И факты, которые стоят за этим, то, что мы наблюдаем на рынке как один из крупнейших производителей сканирующего оборудования, говорят в пользу того, что российский рынок полностью оправился от экономического кризиса. И эта тенденция к росту сохраняется, поскольку растет понимание того, что эффективное управление документами, электронными или бумажными, позволяет значительно снизить издержки бизнеса.
В этом году в России было снято последнее ограничение по обмену электронными счетами-фактурами. Каким-то образом это влияет на бизнес Fujitsu?
Пока не ощущается. В основном, даже если мы снимем существующие барьеры на законодательном уровне или, например, исключим из требований регуляторов предоставление бумажного экземпляра документа, огромное количество представителей бизнеса будут придерживаться заведенного порядка и правил, сложившихся много лет назад. И до тех пор, пока кто-то из моих поставщиков выставляет счета-фактуры в бумажном виде, мой офис должен быть оснащен соответствующими устройствами для захвата этой информации, даже если ее станет значительно меньше. При этом я должен буду встроить это в существующие процессы электронного документооборота. И, честно говоря, 5 лет назад мы наблюдали серьезную попытку коммунальной компании в Германии заставить своих поставщиков предоставлять данные в цифровом виде. Через год этих усилий они отказались от этой идеи, потому что не могли контролировать этот процесс.
Как сейчас решается проблема «больших данных»?
Действительно, необходимость сканирования сотен тысяч документов имеет прямое отношение к «большим данным». Это легко проиллюстрировать, умножив количество документов в современной организации примерно на 30Кб для черно-белых образов документов или на 200 Кб — для цветных. И, разумеется, эта информация где-то должна храниться. То, что мы наблюдаем — это растущая потребность в «умной» ИТ-инфраструктуре, как в on-premise варианте, так и существующей за пределами компании в облаках, в зависимости от того, какую информацию я планирую разместить. Мы поддерживаем ежедневное сканирование документов, размещенных как в локальных хранилищах, так и в облаках. Актуальной в данный момент задачей является возможность в ходе сканирования перемещать образы различных документов в разные хранилища.
Подобные задачи требуют согласованных действий всего сообщества. Насколько хорошо сейчас решается эта задача?
По опыту последних лет, мы видели очень мало стандартных совместных решений: ведь наша индустрия преимущественно занималась архивированием документов. Но сегодня мы активно работаем над решениями для преобразования информации, которая содержится на бумажных носителях, в цифровой формат с целью ускорения рабочих процессов. Зачастую такие решения формируются от кейса к кейсу. С нашей точки зрения как производителя оборудования, с этой ситуацией можно работать: существуют методы, позволяющие легко интегрировать сканер с любой базой данных, чтобы он мог взаимодействовать с конкретной системой. Разумеется, почти в каждом сегменте индустрии (например, среди систем обработки платежных документов) можно найти готовые к использованию решения, не требующие какой-либо предварительной настройки. Однако зачастую интегрированные системы должны соответствовать индивидуальным особенностям бизнеса, в результате появляются специфические подходы и решения.
Необходимость стандартов — она вообще существует в этой сфере? В частности в России.
На самом деле с нашей точки зрения было бы проще, если бы такие стандарты существовали. Например, можно было бы добиться такой стандартизации на платформе MS SharePoint. Было бы проще выкладывать в SharePoint документы в едином формате. С другой стороны, стандарты часто воспринимаются как некие лимитирующие факторы. Как правило, работая с вендорами и клиентами, мы поддерживаем создание решений, которые могут адаптироваться к конкретным потребностям.
И если будут существовать стандарты, то мы, конечно, будем их учитывать при разработке решений для сканирования. Как производитель оборудования и поставщик настраиваемых решений мы должны понимать требования клиента и предоставлять именно те решения, которые ему нужны.
Больше внимания сейчас стало уделяться семантическим технологиям распознавания. Какие есть способы интеллектуализировать этот процесс?
Это интересный вопрос, который широко обсуждается последние годы и приобретает особую остроту по мере тотального распространения компьютеров всех видов. Сегодня разработчики ПО сосредоточились на ускорении распознавания полуструктурированных (условно структурированных) документов, в которых есть 4-5 информационных блока. Это могут быть счета, контракты, списки получения, то есть документы, где есть конкретные информационные блоки.
Если же говорить о потребностях, где может понадобиться технология распознавания неструктурированного контента, то на ум приходит в первую очередь почта и архивирование. Когда в конце жизненного цикла какого-то документа его необходимо отсканировать и добавить в электронный архив. Однако, возможно, было бы лучше сканировать подобные документы на ранних этапах, извлекать всю текстовую информацию с помощью технологии оптического распознавания и передавать эту информацию в систему семантической интерпретации, которая выполняет классификацию контента и передает данные в общедоступную систему управления знаниями.
В последнее время наблюдается следующая тенденция: в компаниях и государственных организациях сканирование документа выполняется не в конце жизненного цикла, а по мере получения. Поэтому общее число сканеров, конечно, растет. Но объем отсканированных материалов в расчете на одного человека уменьшается: до всего лишь 20 страниц в день на человека. Как это можно сделать, упростив жизнь сотруднику? Одна методика состоит в том, чтобы использовать специальные дополнительные листы (обложки/разделители), которые и будут указывать, какого типа документы за ними следуют. И в соответствии с информацией на этом листе документы в отсканированном и распознанном виде будут помещаться в определенную папку или отправляться на последующую обработку. Каким образом будет выполняться обработка — тоже будет определено с помощью таких листов.
Расширение сферы ЕСМ, по мнению экспертов, приводит к конвергенции между системами (ну или в каких-то случаях — интеграции). Какие новые задачи появляются в связи с этим?
Меня как представителя производителя волнует вопрос сканирования. То есть, как ускорить процесс ввода данных со страницы и попадания документа/файла в дальнейшую обработку — в какое-то хранилище или рабочий процесс. Мы думаем, как сделать этот процесс более интеллектуальным, как передавать полученную информацию приложениям либо в определенную директорию. То же самое касается и полуструктурированного контента. Наше ПО, которое идет вместе со сканерами, способно определять программным способом какие-то блоки, тип документа и позволяет переносить информацию в определённую директорию — или даже приложение, например Microsoft SharePoint. Также мы предоставляем встроенные функции оптического распознавания символов (на базе Fine Reader от ABBYY). Однако на сегодняшний день наше программное обеспечение может находить и распознавать только отдельные символы, а не общий контекст, в рамках которого слова и предложения образуют значимые конструкции.
Ваша компания думает не только о простом сканировании, верно?
И да, и нет. С одной стороны мы как производители аппаратного обеспечения не имеем планов выходить за рамки первоочередного фокуса на оборудовании (концентрируемся на функциях сканирования). Мы осуществляем научно-исследовательские разработки в области технологий сканирования и распознавания данных — и используем свои изобретения в наших продуктах. Да, конечно, у нас есть определенный софт, который идет с нашими продуктами, но мы не занимаемся активно системами электронного документооборота (DMS) и системами управления корпоративным контентом (EMC), поскольку на этих рынках не являемся экспертами. Зато мы обеспечиваем беспроблемную интеграцию с решениями лидеров упомянутых рынков. Наша область специализации — системы сканирования и извлечения информации, с помощью которых можно быстро передавать данные на обработку и эффективно использовать их в бизнес-процессах организации. В этой сфере мы обладаем богатым опытом и обширными знаниями и являемся признанными экспертами.
Большое спасибо за интервью!
Источник: ECM-Journal
Комментарии 0