Электронные архивы в России (в продолжение статьи про оцифровку газет)
Некоторые мысли в продолжение статьи об оцифровке газет в Камбодже.
Павел Овчинников на днях опубликовал пост об одном проекте по оцифровке газет, основная отличительная черта которого - использование полностью ручного труда (по крайней мере так указано в первоисточнике на который он ссылался, точнее там не указано обратное). В ответ на нее появилась запись блога Андрея Колесова Как дела с оцифровкой бумажных архивов в России?, который оставаясь верным себе поднял ряд весьма интересных вопросов.
Видимо, первоначальня тема и впрямь оказалась благодатной, так что даже мне захотелось принять в ней участие :). Но комментарий оказался не удобен и потому я решил записать все отдельным постом (тем более, коллеги как-то охотнее отвечают здесь, и дай бог - в споре родится что-то важное).
Вопрос технической сложности.
Я не участвовал в оцифровке газет (это и правда, не самый распространенный у нас тип проектов), зато однажды мне пришлось на самых ранних стадиях подключаться к проекту оцифровки архива паспортов нефтяных скважин (а затем наблюдать за общим ходом процесса).
Чтобы правильно понимать характер работы и принятые решения нужно представить себе что же такое этот паспорт и другие особенности
В целом паспорт скважины - это обычная папка "Дело" (многие с ними работали так что помнят) в которую подшиты куча разных документов: общее описание скважины, информация об объемах добычи, заключение о закрыти, ... - в общем добрая сотня листов рукописного текста. Именно рукописного, т.к. большинство паспортов заводилось до 80-х годов, а большая часть бумаги пишется в партиях, куда брать, например, печатную машинку - лишний груз.
Вторая проблема - ветхость и загрязненность большинства страниц. Многим паспортам на момент оцифровки было лет по 30, а организацией хранения по всем правилам на месторождениях не озабачивались.
Третья сложность - заказчик был категорически против вывоза паспартов даже на некоторое время с территории месторождения (с чем это было связано сейчас уже не помню, по моему, это какие-то общеотраслевые требования).
Четвертая особенность - заказчику требовались и сканы страниц (чтобы сохранить копии в электронном виде), и (!) часть цифровых и тестовых данных для внесения в общую базу скважин месторождения.
Ну и, конечно (как же без этого :)) ограниченность финансирования.
В результате была выработана следующая схема:
- на самом месторождении работала группа сканировщиков с обычными планшетными сканерами, которые расшивали дела, сканировали паспорта, записывали результаты на болванки и сшивали все обратно.
- болванки партиями передавались в офис оцифровки (поездом почти день), где изображения слегка обрабатывали (чистили отмусора) и передвали на собственно оцифровку.
- оцифровкой занимались пара десятков студентов технического вуза, которые читали сканы и вносили нужные цифры в специально написанную базу.
- чтобы снизить вероятность ошибки данные параллельно вбивались несколько раз + выборочно верефицировались контролерами (уже не из числа операторов).
Собственно в данном случае отказ от потокового сканирования и машинного распознования был почти очевиден и обуславливался:
- характером данных (рукописные листы, без разбивки по полям и графам)
- количеством данных (с каждого листа вводилось всего несколько цифр)
- плохим состоянием бумаги
- высокой стоимостью аренды и доставки потокового сканера, имеющего работать с ветхой бумагой (при примерным прикидках выяснилось, что покупка и доставка такого принтера почти полностью исчерпает весь бюджет)
Как видно, здесь ситуация подталкивала к принятым техническим решениям.
Что касается ситуации изложенной в статье, то там, судя по всему, происходит нечто подобное: заранее отсканированные (и скорее всего распознанные) газетные полосы отдаются на тэгирование. На сегодгя такую работу может проделать либо специализированное лингвистическое ПО, которое, правда нужно контролировать, а предварительно еще и настраивать, либо вручную
Единственный вопрос - на сколько адекватными будут результаты работы людей, чей уровень знания английского и уж тем более особенностей европейской жизни (и совсем уж жизни 100 лет назад) ограничиваются шестью месяцами занятий.
Кому нужны электронные архивы в России? Или кто оцифровывал здесь газеты?
Ответ, мне кажется очевидным - тому, кто видит как на таком архиве можно зарабатывать или хотябы экономить.
Архивы конструкторской документации или финансовых документов очевидно имеют ряд достоинств - в первую очередь ониобходятся на много дешевле если нужно использовать внеофисное хранение (извлекать на каждый чих документы из хранилища, которое расположено обычно вне черты города - крайне дорого).
А вот как можно использовать архивы газет - большой вопрос. В исходной статье говорилось о коммерциализации архива одной из старейших газет Норвегии. По ссылке и правда имеется форма для покупки абонемента на доступ к архиву. Однако на сколько окупились затраты на создание архива и кто был первоначальным спонсором проекта - не ясно. При таком возрасте газеты это легко мог быть проект с большой долей государственного финансирования.
Кстати, как я понял при беглом осмотре - указанный по ссылке сайт архива предоставляет только следующие сервисы:
- просмотр сканов
- листание по номерам (датам)
- полнотекстовый поиск
Возможно, что-то большее доступно если все-таки купить абонемент...
Итак, основной вопрос - а кому нужны архивы СМИ в России?
Комментарии 5
Да, тема интересная. Я тоже написал пост-продолжение http://www.pcweek.ru/ecm/blog/andrey-kolesov/243.php
Думаю, что ваши сомнения по поводу качества результата необоснованы. А вот нам было бы полезно освоих их опыт подготовки кадров.
НУжноы ли нам такие проекты: это нужно обсудить отдельно. Но было бы интересно все же услышать про наш аналогичный опыт.
Вот сходу пример, опубликованный у нас Оцифрованы все первые страницы газеты "Нью-Йорк Таймс". Вообще все. Есть и сведения о коммерческой составляющей.
Коллеги, прошу прощения, что пропал с воскресенья - дел на работе оказалось как всегда больше, чем рабочего времени :)
Как видите, это очень сильно отличается от работы по оцифровке газет. Причем основное отличие, что понятно, не на этапе ввода, а именно при дальнейшей обработке, а главное - в методах обеспечения качества.
Т.к. в статье явного указания на это нет - все дальнейшее только мои предположения...
Собственно, основной вопрос - какую работу могли бы выполнять операторы и какой квалификацией они должны для этого обладать:
Примерно так. Может я что-то и упускаю.
В любом случае, дополнительные подробности и примеры аналогичных проектов были бы весьма кстати.