Михаил Романов 31 октября 2010

Электронные архивы в России (в продолжение статьи про оцифровку газет)

Архив

Время чтения: 5 минут

Павел Овчинников на днях опубликовал пост об одном проекте по оцифровке газет, основная отличительная черта которого - использование полностью ручного труда (по крайней мере так указано в первоисточнике на который он ссылался, точнее там не указано обратное). В ответ на нее появилась запись блога Андрея Колесова Как дела с оцифровкой бумажных архивов в России?, который оставаясь верным себе поднял ряд весьма интересных вопросов.

Видимо, первоначальня тема и впрямь оказалась благодатной, так что даже мне захотелось принять в ней участие :). Но комментарий оказался не удобен и потому я решил записать все отдельным постом (тем более, коллеги как-то охотнее отвечают здесь, и дай бог - в споре родится что-то важное).

Вопрос технической сложности.

Я не участвовал в оцифровке газет (это и правда, не самый распространенный у нас тип проектов), зато однажды мне пришлось на самых ранних стадиях подключаться к проекту оцифровки архива паспортов нефтяных скважин (а затем наблюдать за общим ходом процесса).

Чтобы правильно понимать характер работы и принятые решения нужно представить себе что же такое этот паспорт и другие особенности

В целом паспорт скважины - это обычная папка "Дело" (многие с ними работали так что помнят) в которую подшиты куча разных документов: общее описание скважины, информация об объемах добычи, заключение о закрыти, ... - в общем добрая сотня листов рукописного текста. Именно рукописного, т.к. большинство паспортов заводилось до 80-х годов, а большая часть бумаги пишется в партиях, куда брать, например, печатную машинку - лишний груз.

Вторая проблема - ветхость и загрязненность большинства страниц. Многим паспортам на момент оцифровки было лет по 30, а организацией хранения по всем правилам на месторождениях не озабачивались.

Третья сложность - заказчик был категорически против вывоза паспартов даже на некоторое время с территории месторождения (с чем это было связано сейчас уже не помню, по моему, это какие-то общеотраслевые требования).

Четвертая особенность - заказчику требовались и сканы страниц (чтобы сохранить копии в электронном виде), и (!) часть цифровых и тестовых данных для внесения в общую базу скважин месторождения.

Ну и, конечно (как же без этого :)) ограниченность финансирования.

В результате была выработана следующая схема:

на самом месторождении работала группа сканировщиков с обычными планшетными сканерами, которые расшивали дела, сканировали паспорта, записывали результаты на болванки и сшивали все обратно.
болванки партиями передавались в офис оцифровки (поездом почти день), где изображения слегка обрабатывали (чистили отмусора) и передвали на собственно оцифровку.
оцифровкой занимались пара десятков студентов технического вуза, которые читали сканы и вносили нужные цифры в специально написанную базу.
чтобы снизить вероятность ошибки данные параллельно вбивались несколько раз + выборочно верефицировались контролерами (уже не из числа операторов).

Собственно в данном случае отказ от потокового сканирования и машинного распознования был почти очевиден и обуславливался:

характером данных (рукописные листы, без разбивки по полям и графам)
количеством данных (с каждого листа вводилось всего несколько цифр)
плохим состоянием бумаги
высокой стоимостью аренды и доставки потокового сканера, имеющего работать с ветхой бумагой (при примерным прикидках выяснилось, что покупка и доставка такого принтера почти полностью исчерпает весь бюджет)

Как видно, здесь ситуация подталкивала к принятым техническим решениям.

Что касается ситуации изложенной в статье, то там, судя по всему, происходит нечто подобное: заранее отсканированные (и скорее всего распознанные) газетные полосы отдаются на тэгирование. На сегодгя такую работу может проделать либо специализированное лингвистическое ПО, которое, правда нужно контролировать, а предварительно еще и настраивать, либо вручную

Единственный вопрос - на сколько адекватными будут результаты работы людей, чей уровень знания английского и уж тем более особенностей европейской жизни (и совсем уж жизни 100 лет назад) ограничиваются шестью месяцами занятий.

Кому нужны электронные архивы в России? Или кто оцифровывал здесь газеты?

Ответ, мне кажется очевидным - тому, кто видит как на таком архиве можно зарабатывать или хотябы экономить.

Архивы конструкторской документации или финансовых документов очевидно имеют ряд достоинств - в первую очередь ониобходятся на много дешевле если нужно использовать внеофисное хранение (извлекать на каждый чих документы из хранилища, которое расположено обычно вне черты города - крайне дорого).

А вот как можно использовать архивы газет - большой вопрос. В исходной статье говорилось о коммерциализации архива одной из старейших газет Норвегии. По ссылке и правда имеется форма для покупки абонемента на доступ к архиву. Однако на сколько окупились затраты на создание архива и кто был первоначальным спонсором проекта - не ясно. При таком возрасте газеты это легко мог быть проект с большой долей государственного финансирования.

Кстати, как я понял при беглом осмотре - указанный по ссылке сайт архива предоставляет только следующие сервисы:

просмотр сканов
листание по номерам (датам)
полнотекстовый поиск

Возможно, что-то большее доступно если все-таки купить абонемент...

Итак, основной вопрос - а кому нужны архивы СМИ в России?

Чтобы прочитать эту статью до конца,
или

управление контентом электронный документ

Комментарии 5

Андрей Колесов 1 ноября 2010

Да, тема интересная. Я тоже написал пост-продолжение http://www.pcweek.ru/ecm/blog/andrey-kolesov/243.php

Думаю, что ваши сомнения по поводу качества результата необоснованы. А вот нам было бы полезно освоих их опыт подготовки кадров.

НУжноы ли нам такие проекты: это нужно обсудить отдельно. Но было бы интересно все же услышать про наш аналогичный опыт.

Наталья Храмцовская 1 ноября 2010

кому нужны архивы СМИ в России?

Во-первых, такие архивы уже существуют, и на платной основе к ним можно получить доступ, - например, на такие базы публикаций в русскоязычных СМИ подписан ряд зарубежных университетов. Интерес к ним проявляют аналитики разного рода – от историков до разведчиков, однако пока что это не слишком большая группа потенциальных клиентов.

Есть в России и опыт успешного выполнения уникальных по масштабу и сложности проектов оцифровки – таких, как документы Коминтерна или база «Мемориал» (последняя, кстати говоря, используется гражданами всё активнее).

Во-вторых. IMHO оцифровка старых газет и т.д. – важнейший элемент современной идеологической борьбы, в том числе борьбы за доминирование «своего» контента в интернете или, например, в сфере образования. Если российская (начиная от времен Рюрика и до сегодняшнего дня) точка зрения на мировые события недоступна в сети, то получает колоссальное преимущество зарубежная идеология – в основном, англосаксонских стран.

Поскольку крупно заработать на оцифровке сложно, то здесь необходима поддержка со стороны государства. Причём, вкладывая в эту работу деньги, государство создает ту «руду», на основе которой могут возникнуть разнообразные инновационные коммерческие проекты (можно вспомнить правовые системы, предоставляющие удобный интегрированный доступ к законодательно-нормативной базе, судебным решениям, журнальным публикациям и другим взаимосвязанным материалам – они точно так же возникли на базе предоставляемой государством информационной «руды»).\

Далее, оцифрованные и распознанные материалы нужно ещё грамотно прорекламировать – чтобы, например, те же любители генеалогии (которых стало очень много), поняли, что это для них ценный ресурс, стоящий того, чтобы заплатить за его использование какую-то копеечку.

Для справки: в США и Англии полностью оцифрованы практически все мало-мальски заметные газеты и журналы национального и регионального масштаба. В свободном доступе их, правда, нет, но практически все колледжи и университеты оплачивают доступ хотя бы к некоторым таким базам.

Елена Питомцева 1 ноября 2010

Вот сходу пример, опубликованный у нас Оцифрованы все первые страницы газеты "Нью-Йорк Таймс". Вообще все. Есть и сведения о коммерческой составляющей.

Михаил Романов 4 ноября 2010

Коллеги, прошу прощения, что пропал с воскресенья - дел на работе оказалось как всегда больше, чем рабочего времени :)

IMHO оцифровка старых газет и т.д. – важнейший элемент современной идеологической борьбы, в том числе борьбы за доминирование «своего» контента в интернете или, например, в сфере образования.

Возможно, так и есть - мне как не историку, не социологу и не политику об этом трудно судить.

В любом случае, мне кажется, можно вполне обоснованно говорить о том, что как чисто коммерческое предприятие, перевод архивов газет (и, возможно, журналов) врятли возможен - слишком дорого, что просто окупиться. И самым вероятным заказчиком будет всегда государство.

В общем, нечто подобное я и предполагал.

такие архивы уже существуют, и на платной основе к ним можно получить доступ, - например, на такие базы публикаций в русскоязычных СМИ подписан ряд зарубежных университетов.

Увы, о них мне ничего не известно, но было бы очень интересно узнать!

Кстати, могу ошибаться, но почему-то упорно всплывает мысль (откуда я это взял не помню), что база "Мемориал" - это во многом результат работы добровольцев. Не могу ни подтвердить, ни опровергнуть. Возможно, тот от кого я это слышал, имел в виду, что сейчас она пополняется за счет работы поисковиков (тех, кто занимается поиском и перезахоронением на полях Второй мировой), а это добровольческие команды.

Думаю, что ваши сомнения по поводу качества результата необоснованы.

Скорее всего сомнения рождены из-за недостатка информации в исходной статье (а искать более подробное описание, если оно есть, совсем нет времени).

Собственно, если вернуться к тому примеру, который я приводил (хоть, повторюсь, я принимал в нем очень незначительное участие и в основном наблюдал за результатом со стороны), то получается следующее:

в оцифровке паспортов скважин принимали участие неквалифицированные/низкоквалифицированные операторы. Несмотря на то, что это были студенты технического ВУЗа, от них требовалось ровно одно - сносное владение компьютером. А все дело в том, что от них требовалось лишь находить в отсканированном тексте некоторые цифры (в принципе, даже там где не было четких бланков найти их было не сложно - сложнее разобрать подчерк) и вносить в поля специально написанной программы
качество работ достигалось за счет:
- дублирования при вводе (не уверен, что дублировалось на 100% - возможно только часть) - недорогая рабочая сила это позволяла.
- контроля со стороны более опытных специалистов (периодические сверки, контроль на первых этапах работы нового оператора, ...)
- автоматических проверок данных. Тут уже четко помогало знание предметной области - что данные скважин на одном месте мало отличаются друг от друга, т.е. данные можно было сверять статистически и выдавать предупреждения о потенциальных ошибках ввода. Скажу даже более, команда, которая организовывала оцифровку, занималась автоматизацией обработки каротажных диаграм (правда не знаю, использовали ли они свои наработки здесь).

Как видите, это очень сильно отличается от работы по оцифровке газет. Причем основное отличие, что понятно, не на этапе ввода, а именно при дальнейшей обработке, а главное - в методах обеспечения качества.

Т.к. в статье явного указания на это нет - все дальнейшее только мои предположения...

Собственно, основной вопрос - какую работу могли бы выполнять операторы и какой квалификацией они должны для этого обладать:

Необходимо разделить по полосам, а затем по отдельным текстам (фрагментам, ...) весь отсканированный материал. Это можно делать не понимая языка - ориентируясь на шрифт заголовков и другие элементы оформления. В принципе, технологии ICR сейчас, мне кажется, уже вполне позволяют эту задачу автоматизировать (тем более, что речь идет о конкретной газете, шрифты и правила набора которой меняются крайне редко).
Нужно проверить правильность распознавания отдельных букв - там где ПО сомневается. Это в любом случае чисто операторская работа. Нужно ли тут, например, знание языка - да не очень, в большинстве случаев хватает умения сопоставить букву с образцом.
Нужно снабдить тексты метаинформацией/тегами. Первое - вполне возможно, т.к. метаинформация, будет в основном из заголовка газеты (номер, дата, ...). А вот второе - под вопросом. Человек не знающий языка и уж тем более культурных особенностей страны сделает это не лучше как-либо программы-классификатора. Но вот тут как раз и вопрос - а делается ли такое тэгирование?

Примерно так. Может я что-то и упускаю.

В любом случае, дополнительные подробности и примеры аналогичных проектов были бы весьма кстати.

Для справки: в США и Англии полностью оцифрованы практически все мало-мальски заметные газеты и журналы национального и регионального масштаба.

Было бы интересно узнать в каком формате это было сделано и каков был процесс оцифровки.

Павел Овчинников 8 ноября 2010

Это действительно так. Я лично знаком с поисковиками, которые лично "ручками" обрабатывали распечатки ВНИИДАД, данные которых шли в основу новых изданий региональных Красных Книг. Эти же данные использовались для ОБД "Мемориал". И работа эта шла на голом энтузиазме.

Кстати, поисковое движение сейчас во многом переживает кризис именно потому, что доборовольческим командам все труднее работать - и время свое берет, и административные перепоны мешают, и просто денег нет. Это очень плохо, потому что поисковики зачастую находят в военных архивах гораздо более интересные и полезные вещи, чем остепененные научные деятели.

Чтобы прокомментировать, или

Электронные архивы в России (в продолжение статьи про оцифровку газет)

Комментарии 5

Похожие статьи

Единый архив бумажной и электронной первички - как организовать? Советы эксперта.

Заменят ли сервисы обмена файлами вашу ECM-систему?

Долговременный электронный архив. 1000 и 1 вопрос