Добавить в закладки могут только зарегистрированные пользователи.
Электронные архивы в России (в продолжение статьи про оцифровку газет) 

Михаил Романов31 октября 2010 г. 09:39

Павел Овчинников на днях опубликовал пост об одном проекте по оцифровке газет, основная отличительная черта которого - использование полностью ручного труда (по крайней мере так указано в первоисточнике на который он ссылался, точнее там не указано обратное). В ответ на нее появилась запись блога Андрея Колесова Как дела с оцифровкой бумажных архивов в России?, который оставаясь верным себе поднял ряд весьма интересных вопросов.

Видимо, первоначальня тема и впрямь оказалась благодатной, так что даже мне захотелось принять в ней участие :). Но комментарий оказался не удобен и потому я решил записать все отдельным постом (тем более, коллеги как-то охотнее отвечают здесь, и дай бог - в споре родится что-то важное).

Вопрос технической сложности.

Я не участвовал в оцифровке газет (это и правда, не самый распространенный у нас тип проектов), зато однажды мне пришлось на самых ранних стадиях подключаться к проекту оцифровки архива паспортов нефтяных скважин (а затем наблюдать за общим ходом процесса).

Чтобы правильно понимать характер работы и принятые решения нужно представить себе что же такое этот паспорт и другие особенности

В целом паспорт скважины - это обычная папка "Дело" (многие с ними работали так что помнят) в которую подшиты куча разных документов: общее описание скважины, информация об объемах добычи, заключение о закрыти, ... - в общем добрая сотня листов рукописного текста. Именно рукописного, т.к. большинство паспортов заводилось до 80-х годов, а большая часть бумаги пишется в партиях, куда брать, например, печатную машинку - лишний груз.

Вторая проблема - ветхость и загрязненность большинства страниц. Многим паспортам на момент оцифровки было лет по 30, а организацией хранения по всем правилам на месторождениях не озабачивались.

Третья сложность - заказчик был категорически против вывоза паспартов даже на некоторое время с территории месторождения (с чем это было связано сейчас уже не помню, по моему, это какие-то общеотраслевые требования).

Четвертая особенность - заказчику требовались и сканы страниц (чтобы сохранить копии в электронном виде), и (!) часть цифровых и тестовых данных для внесения в общую базу скважин месторождения.

Ну и, конечно (как же без этого :)) ограниченность финансирования.

В результате была выработана следующая схема:

  • на самом месторождении работала группа сканировщиков с обычными планшетными сканерами, которые расшивали дела, сканировали паспорта, записывали результаты на болванки и сшивали все обратно.
  • болванки партиями передавались в офис оцифровки (поездом почти день), где изображения слегка обрабатывали (чистили отмусора) и передвали на собственно оцифровку.
  • оцифровкой занимались пара десятков студентов технического вуза, которые читали сканы и вносили нужные цифры в специально написанную базу.
  • чтобы снизить вероятность ошибки данные параллельно вбивались несколько раз + выборочно верефицировались контролерами (уже не из числа операторов).

Собственно в данном случае отказ от потокового сканирования и машинного распознования был почти очевиден и обуславливался:

  • характером данных (рукописные листы, без разбивки по полям и графам)
  • количеством данных (с каждого листа вводилось всего несколько цифр)
  • плохим состоянием бумаги
  • высокой стоимостью аренды и доставки потокового сканера, имеющего работать с ветхой бумагой (при примерным прикидках выяснилось, что покупка и доставка такого принтера почти полностью исчерпает весь бюджет)

Как видно, здесь ситуация подталкивала к принятым техническим решениям.

Что касается ситуации изложенной в статье, то там, судя по всему, происходит нечто подобное: заранее отсканированные (и скорее всего распознанные) газетные полосы отдаются на тэгирование. На сегодгя такую работу может проделать либо специализированное лингвистическое ПО, которое, правда нужно контролировать, а предварительно еще и настраивать, либо вручную

Единственный вопрос - на сколько адекватными будут результаты работы людей, чей уровень знания английского и уж тем более особенностей европейской жизни (и совсем уж жизни 100 лет назад) ограничиваются шестью месяцами занятий.

Кому нужны электронные архивы в России? Или кто оцифровывал здесь газеты?

Ответ, мне кажется очевидным - тому, кто видит как на таком архиве можно зарабатывать или хотябы экономить.

Архивы конструкторской документации или финансовых документов очевидно имеют ряд достоинств - в первую очередь ониобходятся на много дешевле если нужно использовать внеофисное хранение (извлекать на каждый чих документы из хранилища, которое расположено обычно вне черты города - крайне дорого).

А вот как можно использовать архивы газет - большой вопрос. В исходной статье говорилось о коммерциализации архива одной из старейших газет Норвегии. По ссылке и правда имеется форма для покупки абонемента на доступ к архиву. Однако на сколько окупились затраты на создание архива и кто был первоначальным спонсором проекта - не ясно. При таком возрасте газеты это легко мог быть проект с большой долей государственного финансирования.

Кстати, как я понял при беглом осмотре - указанный по ссылке сайт архива предоставляет только следующие сервисы:

  • просмотр сканов
  • листание по номерам (датам)
  • полнотекстовый поиск

Возможно, что-то большее доступно если все-таки купить абонемент...

Итак, основной вопрос - а кому нужны архивы СМИ в России?


Тип: Записи блогов

 (3,14 - оценили 7 чел.)

Комментарии
  • Сохранить комментарий
  • Цитировать выделенное
  • Предпросмотр