Павел Овчинников на днях опубликовал пост об одном проекте по оцифровке газет, основная отличительная черта которого - использование полностью ручного труда (по крайней мере так указано в первоисточнике на который он ссылался, точнее там не указано обратное). В ответ на нее появилась запись блога Андрея Колесова Как дела с оцифровкой бумажных архивов в России?, который оставаясь верным себе поднял ряд весьма интересных вопросов.
Видимо, первоначальня тема и впрямь оказалась благодатной, так что даже мне захотелось принять в ней участие :). Но комментарий оказался не удобен и потому я решил записать все отдельным постом (тем более, коллеги как-то охотнее отвечают здесь, и дай бог - в споре родится что-то важное).
Вопрос технической сложности.
Я не участвовал в оцифровке газет (это и правда, не самый распространенный у нас тип проектов), зато однажды мне пришлось на самых ранних стадиях подключаться к проекту оцифровки архива паспортов нефтяных скважин (а затем наблюдать за общим ходом процесса).
Чтобы правильно понимать характер работы и принятые решения нужно представить себе что же такое этот паспорт и другие особенности
В целом паспорт скважины - это обычная папка "Дело" (многие с ними работали так что помнят) в которую подшиты куча разных документов: общее описание скважины, информация об объемах добычи, заключение о закрыти, ... - в общем добрая сотня листов рукописного текста. Именно рукописного, т.к. большинство паспортов заводилось до 80-х годов, а большая часть бумаги пишется в партиях, куда брать, например, печатную машинку - лишний груз.
Вторая проблема - ветхость и загрязненность большинства страниц. Многим паспортам на момент оцифровки было лет по 30, а организацией хранения по всем правилам на месторождениях не озабачивались.
Третья сложность - заказчик был категорически против вывоза паспартов даже на некоторое время с территории месторождения (с чем это было связано сейчас уже не помню, по моему, это какие-то общеотраслевые требования).
Четвертая особенность - заказчику требовались и сканы страниц (чтобы сохранить копии в электронном виде), и (!) часть цифровых и тестовых данных для внесения в общую базу скважин месторождения.
Ну и, конечно (как же без этого :)) ограниченность финансирования.
В результате была выработана следующая схема:
-
на самом месторождении работала группа сканировщиков с обычными планшетными сканерами, которые расшивали дела, сканировали паспорта, записывали результаты на болванки и сшивали все обратно.
-
болванки партиями передавались в офис оцифровки (поездом почти день), где изображения слегка обрабатывали (чистили отмусора) и передвали на собственно оцифровку.
-
оцифровкой занимались пара десятков студентов технического вуза, которые читали сканы и вносили нужные цифры в специально написанную базу.
-
чтобы снизить вероятность ошибки данные параллельно вбивались несколько раз + выборочно верефицировались контролерами (уже не из числа операторов).
Собственно в данном случае отказ от потокового сканирования и машинного распознования был почти очевиден и обуславливался:
-
характером данных (рукописные листы, без разбивки по полям и графам)
-
количеством данных (с каждого листа вводилось всего несколько цифр)
-
плохим состоянием бумаги
-
высокой стоимостью аренды и доставки потокового сканера, имеющего работать с ветхой бумагой (при примерным прикидках выяснилось, что покупка и доставка такого принтера почти полностью исчерпает весь бюджет)
Как видно, здесь ситуация подталкивала к принятым техническим решениям.
Что касается ситуации изложенной в статье, то там, судя по всему, происходит нечто подобное: заранее отсканированные (и скорее всего распознанные) газетные полосы отдаются на тэгирование. На сегодгя такую работу может проделать либо специализированное лингвистическое ПО, которое, правда нужно контролировать, а предварительно еще и настраивать, либо вручную
Единственный вопрос - на сколько адекватными будут результаты работы людей, чей уровень знания английского и уж тем более особенностей европейской жизни (и совсем уж жизни 100 лет назад) ограничиваются шестью месяцами занятий.
Кому нужны электронные архивы в России? Или кто оцифровывал здесь газеты?
Ответ, мне кажется очевидным - тому, кто видит как на таком архиве можно зарабатывать или хотябы экономить.
Архивы конструкторской документации или финансовых документов очевидно имеют ряд достоинств - в первую очередь ониобходятся на много дешевле если нужно использовать внеофисное хранение (извлекать на каждый чих документы из хранилища, которое расположено обычно вне черты города - крайне дорого).
А вот как можно использовать архивы газет - большой вопрос. В исходной статье говорилось о коммерциализации архива одной из старейших газет Норвегии. По ссылке и правда имеется форма для покупки абонемента на доступ к архиву. Однако на сколько окупились затраты на создание архива и кто был первоначальным спонсором проекта - не ясно. При таком возрасте газеты это легко мог быть проект с большой долей государственного финансирования.
Кстати, как я понял при беглом осмотре - указанный по ссылке сайт архива предоставляет только следующие сервисы:
-
просмотр сканов
-
листание по номерам (датам)
-
полнотекстовый поиск
Возможно, что-то большее доступно если все-таки купить абонемент...
Итак, основной вопрос - а кому нужны архивы СМИ в России?