Серия практических онлайн-семинаров от экспертов сообщества DIRECTUM

Опрос: Какие инструменты для описания бизнес-процессов наиболее популярны?

Ретроконверсия – важный этап создания электронного архива 

Алексей Назаренко30 июня 2011 г. 13:12

А.А. Назаренко, директор по качеству, компания «ИнтерТраст»

Важным этапом создания электронного архива является процесс ввода в него архивной документации. Обычно данный процесс представляет собой прямую передачу надлежащим образом оформленных дел из корпоративной системы электронного документооборота в ее специализированный модуль «электронный архив». Даже если дела в СЭД нуждаются в дополнениях, к примеру в создании описей, а также сдаточной документации, тем не менее этот процесс является практически полностью автоматизированным. Совершенно другим, значительно более затратным и по времени и по финансам является процесс ретроконверсии – оцифровки бумажного архива организации.

Каковы этапы ретроконверсии?

Их несколько:

●   получение образа документа. Для этого может быть использовано разнообразное оборудование.

Самым дешевым являются офисные сканеры, функциональность которых может быть расширена лотком автоподачи и системой двустороннего сканирования документа. Далее идут документные сканеры, затем потоковые сканеры, обеспечивающие самую высокую скорость сканирования, богатые возможности, но при этом отличающиеся высокой стоимостью. Штативные фотосканеры переводят документы в цифровую форму посредством фотографирования;

Важно знать!

Просмотр PDF-, графических многостраничных (TIFF) и одностраничных (JPEG, PNG), звуковых (WAV, MP3, AMR) файлов и медийных дисков в формате образа (ISO) достигается с помощью дополнительно установленных в системе просмотрщиков/проигрывателей/монтировщиков.

●   формирование метаданных, то есть хранимых отдельно от контента документа полей с описательной информацией, позволяющей ECM-системе этот документ корректно обрабатывать;

●   маркировка документа, производимая для автоматизированного заполнения метаданных в архивной системе (для этого используются программное обеспечение для генерации штрихкода, принтер штрихкода, программный считыватель штрихкода, ручной сканер штрихкода, необходимый при непосредственной работе с маркированными документами).

Работая в комплексе, подсистема маркировки, построенная таким образом, обеспечивает возможность проведения процедуры ретроконверсии на адекватном техническом уровне;

●   извлечение (распознавание) контента. Производится с использованием OCR-системы. Для этих целей преимущественно используется Abbyy FineReader 7.0 Scripting Editiion. В задачу данной системы входит перевод изображения (образа) документа в текстовый формат с сохранением форматирования либо без такового.

Не оснащенная этим функционалом архивная система не сможет обеспечить полноценную индексацию, а также исключит возможность использования полнотекстового поиска по хранимой в системе документации.

В совокупности перечисленные пункты описывают затраты, необходимые для проведения ретроконверсии документов в рамках одного проекта (не используя аутсорсинг). Эта сумма должна быть разделена на время эксплуатации оборудования и ПО, применяемых для ретроконверсии, стоимость расходных материалов за тот же период, а также затраты на персонал, осуществляющий ввод документных данных в архивную систему. Соотнеся полученные затраты с объемом ретроконверсированной документации, мы получим стоимость ввода в систему единичного документа. Также немаловажно, что само сканирование не является достаточным условием для ввода документа в систему, так как ECM-система требует получения метаданных документа, а поисковая подсистема – текстового контента. Лишь тогда мы можем говорить о полноценном вводе документа в соответствии с требованиями системы электронного архива.

Процесс ретроконверсии столь трудоемок, что перед организацией сразу встает вопрос: проводить ли оцифровку самостоятельно либо передать ее на аутсорсинг компании, для которой этот комплекс задач является профильным.

Рассматривая аутсорсинг именно процедуры ретроконверсии (т. е. пополнения фонда электронного архива из имеющегося архивного фонда предприятия или органа власти), необходимо отметить, что этот рынок настолько мал, что силами единственной хорошо оснащенной компании он покрывается практически полностью (крупнейшей из них, обладающей самой совершенной методической и технической базой, является корпорация «Электронный архив»).

Каковы же причины этого? Самая актуальная  – низкая востребованность. Многие компании, обладающие обширным архивным фондом, не нуждаются в возможностях ни электронного доступа к образам документов, ни полнотекстового поиска информации по архивам. Главная их потребность – автоматизация функционала архивной картотеки, так как имеющаяся классическая картотека заметно снижает производительность работы архива. Таким образом, вложения в ретроконверсию слишком затратны и одновременно не так сильно необходимы. Рассмотрим в качестве примера две крупных отечественных компании.

Аэрофлот, крупнейший пассажирский авиаперевозчик в стране, согласно собственным локальным актам, дополнительно регулирующим деятельность архива компании, осуществляет хранение всех корешков билетов всех пассажиров, перевозка которых была осуществлена, на всех рейсах с 1923 г. В современных условиях это означает пополнение документного фонда, передаваемого затем на архивное хранение, не менее чем на 20–25 млн документов в год. Безусловно, хранение образов документов в условиях такого обширного документопотока не является эффективным, учитывая, что истребование документации из архивов компании осуществляется только при чрезвычайных ситуациях. Решение в виде архивной картотеки для этих целей более предпочтительно, чем хранение всех образов документов и их контента.

Сберегательный банк Российской Федерации комплектует свои архивы с 1841 г., когда император Николай I принял устав сберегательных касс. С того момента документы, подтверждающие проведение всех финансовых операций в банке, передаются по окончании текущего делопроизводства по ним в архивы организации. В настоящее время филиальная сеть банка насчитывает более 19 000 офисов и является крупнейшей в Восточной Европе. Документы, подтверждающие каждую оплату коммунальных услуг, услуг связи и иные платежи, сохраняются банком для возможности дальнейшего использования. В таких условиях провести процедуру ретроконверсии не представляется возможным в принципе, и даже  внедрение архивной системы типа автоматизированной картотеки вызывает большие затруднения вследствие огромного количества дел в архиве этой организации.

 

Крупные и средние компании в большинстве своем обзавелись системами электронного документооборота и архива. А что делать небольшим организациям, не обладающим мощными материальными ресурсами для приобретения дорогостоящего ПО?

Если еще год или два назад таким предприятиям СЭД была просто не по карману (необходимость поддержания ее работы требовала немыслимых для малого предприятия затрат), то в настоящее время ситуация изменилась. Принципиально новый подход к созданию СЭД для небольших компаний появился параллельно с массовым проникновением сети Интернет в нашу жизнь и в бизнес – возникла идея не передавать программное обеспечение конечному пользователю, а предлагать ему возможность пользоваться находящимся у исполнителя ПО на временной основе с оплатой по количеству рабочих мест за определенный временной срок. Такая модель предоставления услуг по организации электронного документооборота, получившая название SaaS (software as a service), значительно удешевляет проект. Система электронного документооборота лишилась ключевого для предприятий сектора среднего и малого бизнеса недостатка: больших вложений в техническую поддержку ПО, которая передается на аутсорсинг профильной IT-компании. Доступ в СЭД (с определенного договорными отношениями количества рабочих мест) осуществляется через сеть Интернет.

Пока остается открытым вопрос безопасности хранимых в такой системе документов. Решить возникшую задачу способны современные мощные системы криптографии, которые обеспечивают хранение на сервере зашифрованных криптоалгоритмом документов. Потребность в электронном архиве, создаваемом по модели SaaS, возникнет примерно через 3-4 года после появления на рынке полноценной SaaS-системы электронного документооборота. И это вполне объяснимо жизненным циклом документа, который начинается в форме проекта. В дальнейшем документы формируются в дела, лишь через три года после завершения дела они при условии наличия в них документации, имеющей важность для работников, общества или государства, сдаются на хранение в архив организации. По истечении срока хранения в архиве документация, утратившая актуальность, уничтожается. Для отдельных видов документов срок хранения может быть продлен. Третьи виды документов, имеющих ценность лишь для государства, передаются на хранение в структуры федерального архивного агенства (Росархива). Пока же полноценной СЭД, предлагаемой по модели SaaS, на рынке нет.

Тем не менее подвижки в преодолении недоверия к облачным технологиям уже заметны: появились SaaS-учетные системы, SaaS-CRM-системы. В скором времени можно ожидать и появление полноценных SaaS-СЭД, которые поначалу будут использоваться компаниями малого бизнеса. Возможно, это произойдет уже в 2012–2013 гг., а решения архивных хранилищ следующего поколения появятся не ранее 2015–2017 гг.

Примечание: эта публикация представляет собой часть статьи «Об электронных архивах: отдельные аспекты».


Тип: Статьи

 (2,00 - оценило 6 чел.)
Комментарии
Станислав Ким  02 июля 2011 05:26

 

Уважаю автора как специалиста по менеджменту качества, но в вопросах оцифровки больших массивов бумажной документации, судя по написанному у Алексея опыта нет.

Итак по порядку.

До получения образа документа присутствует еще несколько важных этапов без которых результаты работы с большой вероятностью можно выкинуть в помойку:

- Обследование бумажного архива и проведение архивной обработки с выделением массивов определением порядка их оцифровки. На этом же этапе можно проводить оценку качества исходных документов с составлением дефектных ведомостей.

- Написание технического задания с учетом требований заказчика: определение форматов, выходного качества, структуру данных, требования к железу и т.д.

- Получение образа документа. Офисные сканеры с автоподатчиками и МФУшки в проектах по оцифровке лучше не использовать, если только речь не идет о 100 листах в день. Данные аппараты на приличные нагрузки не рассчитаны и выйдя из строя на первой же неделе будут ремонтироваться 2-3 недели. Не понял разделения сканеров на документные и потоковые, это одно и то же (синонимы). Документные сканеры различаются по скорости и ежедневной нагрузке см. сайт http://docscan.ru/docscan.asp Штативные фотосканеры наверно имелись в виду оверхед сканеры для сшитых документов типа АТИЗ www.atiz.ru, кроме них есть еще много «книжных» сканеров.

- маркировка документа штрихкодом, меткой RFID или каким-либо другим идентификатором не является обязательным, не определяет адекватность технического уровня, занимает много времени, соответственно удлиняет сроки оцифровки и значительно удорожает проект. Плюс не каждый заказчик согласится на документы (свидетельства собственности, контракты) лепить штрихкоды.

- извлечение (распознавание) контента. Жизненную необходимость в этой функции я слышу от всех клиентов обработанных указанной вами OCR-компанией и ее партнерами. Простой вопрос, зачем пользователю контекстный поиск по контрактам, первичке? Вся необходимая поисковая информация умещается в 5-8 атрибутах карточки. Вы посчитайте стоимость лицензий на OCR, цену написания шаблона под Flexicapture, стоимость работы верификаторов и поймете, что учитывая отсутствие потребности в контекстном поиске, вопрос того не стоит, если только не стоит задача раскрутить заказчика на дополнительные бабки.
 

- про покрываемость рынка оцифровки Эларом. Не согласен, иначе нашей компанией на этом рынке было бы совсем нечего делать :) И с отсутствием потребности тоже не соглашусь. Говоря про электронные архивы, вы говорите про автоматизацию архивных подразделений, что значительно сужает предметную область. Про то какие электронные архивы бывают и как часто ими пользуются и какие подразделения можно почитать на нашем сайте http://stor-m.ru/ Наиболее частые коммерческие проекты — архивы контрактов и первички.


Я объясню в чем причина высокой стоимости проектов по оцифровке и почему ни каждая компания может себе позволить реализацию такого проекта:

1) Сложность проекта, требуются опытные специалисты разных специализаций: архивисты, операторы на разброшюровку/брошюровку документов, операторы-сканирировщики, операторы по качеству, менеджеры разного уровня, сисадмины, программисты, логистика и т.д. Одна рабочая группа для выездного сканирования готовится от 3 месяцев до полугода.

2) Техническое оснащение: документные, планшетные, широкоформатные протяжные и книжные сканеры, серверы, коммутационное оборудование, мобильные хранилища и т.д. по перечню в среднем на одну выездную группу от 50 до 150 тыс долларов. Не каждая компания может себе такое позволить, даже крупный ИТ-интегратор.
3) Программное обеспечение. В своих проектах по сканированию мы используем до 20 различных программных продуктов, причем основная масса самописная, т.к. На рынке таких продуктов нет или их стоимость запредельная и не соответствует нашим потребностям. Речь идет о различных сортировщиках, обработчиках изображений (разворот, автоконтраст, вытягивание цветности, устранение шумов и дефектов, сборщики мультистраничных документов, атрибутирование, структоризаторы и т.д.) На рынке есть попытки реализации таких программных пакетов
(Kofax, Captiva), но они подходят не под все проекты и сложны и дороги.
 

Рынок с разных сторон пытается подойти к проблеме и я надеюсь в ближайшие пять лет что-нить изменится в лучшую сторону. 

Мария Полозова  04 июля 2011 14:15

 

Присоединяюсь к Станиславу. Тоже сразу бросилось в глаза отсутствие этапа подготовки к сканированию - и написание ТЗ, и обследование бумажного архива на предмет количества/состояния документов, и составление описей, и расшивка, и хотя бы удаление скрепок, скобок и т.д.
 
К тому же был упущен еще один достаточно важный этап, касаемый работы именно с бумажным оригиналом - приведение документов в исходный вид.  Очень часто на проекте приходится работать со сшитыми документами - например, архивными делами. Помимо того, что их нужно тщательно готовить к процессу сканирования, после него чаще всего надо:
а) проверить порядок расположения листов в бумажном деле (понятно, что, когда в деле их 400+, оператор может легко перепутать, к тому же часто встречаются две страницы с одним и тем же номером или с буквенными префиксами)
б) привести дело в исходный вид - речь об архивной сшивке, качество которой также проверяется заказчиками.
 
Кстати, надо упомянуть и о контроле качества на проекте: проверке качества полученных данных (сверяем сканы сомнительного качества с дефектной ведомостью и бумажным оригиналом, если есть возможность улучшить - пересканируем), пропущенных при сканировании листов  и т.д.