Империализм информационного общества
Интересную историю опубликовали на портале для публицистов и аналитиков МедиаПедия (mediapedia.ru): западные газеты оцифровывают свои архивы с помощью… ручного труда наборщиков третьих стран.
История, рассказанная на портале МедиаПедия, могла бы стать ярчайшей иллюстрацией к статье о западном империализме в каком-нибудь советском учебнике истории: некоторые западные издания вовсю оцифровывают свои архивы, но не с помощью последних достижений в области потокового ввода и распознавания текста, а… дешевым трудом наборщиков из третьих стран.
Всем понятно, что оцифровать архив пусть не особо большой, но выходящий хотя бы несколько лет газеты — непростая задача. А для старых изданий, существующих многие годы, задача может оказаться и вовсе непосильной. Потому не удивительно, что издания стремятся отдать эту работу на аутсорсинг организациям, которые специализируются на оцифровке данных. А эти организации, в свою очередь, перезаказывают самые трудоемкие работы компаниям третьих стран, где подобный труд стоит очень дешево.
Одна из таких компаний — Digital Devide Data — расположена в городе Пномпень, столице Камбоджи. Более 600 (шестисот) сотрудников этой компании «ручками» выполняют самую утомительную работу: перебирают полученные данные, структурируют информацию, добавляют к каждому материалу метатеги и дважды проверяют правильность полученного результата. Группа из сотни работников обрабатывают 200 000 газетных полос за один месяц — это почти полтысячи страниц на одного «оператора» в неделю. В результате заказчик получает уникальную XML-базу, которая действительно позволяет быстро и эффективно использовать информацию.
Подробнее об этой практике вы можете прочитать в статье на МедиаПедии. В ней же вы узнаете, что сарказм в названии данного поста полностью нивелируется тем, что Digital Devide Data — это на самом деле некоммерческое предприятие, которое не ставит перед собой цель нажиться на неквалифицированном труде (а он на самом деле очень отличается от сбора риса в болоте). Задача компании — помочь камбоджийцам, находящимся за чертой бедности, получить высшее образование. И с этой задачей Digital Devide Data справляется прекрасно.
Комментарии 9
Конечно, недавно советовала Елена для создания электронных архивов использовать недорогую "команду залповго ввода", но вот варианта с Камобжей у нее, наверняка, в мыслях не было. :)
Есть такая интересная математическая хохма: бесконечное число обезьянок, беспорядочно бьющих по печатным машинкам, могут написать сонет Шекспира. Так вот, бесконечное число камбоджийцев сведут на нет прогресс в области потокового ввода:)
Как правильно отмечено в статье - это пример решения социальных задач, а не технологических.
Но я отлично помню с чего начиналось у нас создание полнотекстовых баз данных печатных СМИ. В середине 90х годов этим занималось агентство "Постфактум" (было такое, потом ушло с рынка). И занималось оно первые годы именно таким же методом -- перепечатки статей.
С одной стороны, качество распознавалок был еще низкое, а стоимость оборудования для сканирования - высокой
С другой стороны, та же самая социальная задача. В России из-за начала массовго внедерния ПК без работы оказалась огромная армия "машинисток", при этом работать на ПК они не умели (все же с программами нужно было учиться работать). Через вот такой механизм "оцифровки" прошли очень многие -- это был и заработок и обучение.
Но, кстати, пример решения и технических задач.
Признаться, меня удивило то, что пост отмечен тегом "юмор". А что тут забавного?
Вопрос: ваша компания имеет опыт реализации подобных проектов? Как вы их выполняете?
Я по этому поводу тоже написал пост: http://www.pcweek.ru/ecm/blog/andrey-kolesov/240.php
Вспомнился один бородатый анекдот:
- Когда начнется всемирный голод?
- Когда китайцы научатся есть вилками.
В каждой шутке есть доля шутки. Во многом работоспособность западной экономической модели обеспечивается существованем так называемого "третьего мира". Пока еще низкая заработная плата в странах третьего мира позволяет размещать там такие "ресурсоемкие производства". Но это все до поры до времени... В Китае уже начался рост заработной платы, те же работники сборочного гиганта Foxconn за год добились повышения зарплаты на 30% плюс улучшение условий труда. Индийский аутсорсинг тоже дорожает, а если остается фиксированной цена, то ниже становится качество. Остается Камбоджа, Вьетнам, Бангладеш и кто еще там. Да и они, думаю, не собираются все время прозябать на задворках цивилизации, делая черную работу на благо "первосортных" граждан... Так что камбоджийцы камбоджийцами, а потоковые сканеры не стоит упускать из виду ;)
Я впервые познакомился с такими проектами году в 95-м. Этот прием называется «key from image» (KFI). Речь шла об «автоматизированной» сортировке американской почтовой корреспонденции. Там письма и бандероли двигались по транспортной ленте, специализированные сканеры снимали сканы и потом эти сканы отправлялись в Мексику, где трудились мексиканки. Рабочие места для них были оборудованы в таких помещениях типа авиационного ангара. Они по имиджу определяли код получателя, возвращали его в сортировочный центр и манипулятор сталкивал соответствующее отправление в подходящий карман. Не помню точно, кто был интегратором этого решения, кажется Pitney Bowes. Сортировочное оборудование со встроенными сканерами для почтовой обработки делали (и сейчас еще делают) Pitney Bowes, IBML, Banctec и др. Инфраструктуры Интернет в сегодняшнем смысле тогда еще фактически не было, но высокоскоростные линии связи в Мексику уже пришли. Любопытно, что там была задействована OCR (производства, кстати, российской компании Paragraph), так что мексиканкам доставалось где-то 50% работы. Там при распознавании была поставлена задача минимизации ошибок второго рода и в 50% случаев OCR распознавала код адресата, считай, со 100%-ной гарантией. А в случае 0,0000…1 сомнений, скан отправлялся в Мексику.
KFI широко используется в отечественных решениях. В проектах ЭЛАРа часто принимают участие многочисленные домохозяйки, которые на своих домашних компьютерах готовят текстовые описания документов и получают за это поштучную оплату. В этом же ряду стоят недавние решения АйТи и ЛАНИТ для крупных страховых компаний, когда страховые заявки/договоры/… сканируются на местах и сканы складируются в централизованном хранилище. Дальнейшие технические операции (например, ввод данных в учетную систему) выполняются в провинции, а, например, рассмотрение заявок и принятие решений – в столице. Империализма тут никакого нет, это один из вариантов доставки конкретной работы в местность, где для этой работы наличествует релевантный персонал в достаточном количестве.
Продолжение обсуждения в блоге Михаила Романова Электронные архивы в России (в продолжение статьи про оцифровку газет).