Наверх

Пасьянс из электронных документов

Время чтения: 3 минуты
6
Пасьянс из электронных документов

Решение для автоматической категоризации документов Smart Document Reviewer от Xerox завораживает, но можно ли обойтись без "электронного стола"?

 

В недрах компании-пионера графического интерфейса и электронного документооборота Xerox  родилось интересное решение - Smart  Document  Reviwer. Большая горизонтальная тач-панель используется, чтобы группировать и категоризировать документы. На видео люди без единой тени улыбки лихо оперируют сотнями документов, раскладывая причудливые пасьянсы, перемещая документы по столу, поворачивая и масштабируя их без малейшего сомнения. Интерфейс явно киношный, разве что в фильмах изменения на экране обычно сопровождаются футуристически-индустриальными звуками.  Думаю, это надо просто смотреть, пересказывать происходящее в ролике так же трудно, как и любовные батальные сцены в голливудских фильмах - не обойтись бес помощи рук. Если у вас "закрыт" на работе Flash, можете скачать flv-файл  прямо с сайта ecm-journal. Файл имеет размер примерно 20 МБ и для просмотра может потребоваться кодек.

Собственно, все эти дивные пассы над электронным столом -  только часть процесса. Обученная еще раз "вручную" и без того самообучающаяся система разложит весь ворох электронных документов "по полочкам". Система автоматически относит документ к той или иной категории (а может, и нескольким категориям), анализируя содержание документа и особые ключевые слова.

Когда марево восторга рассеялось, у меня возникло два вопроса: можно ли обойтись без "столика" и когда вообще может потребоваться массовая автоматическая категоризация.

Думаю, без столика все же можно обойтись. Стоять, склонившись вокруг одного девайса, не очень-то удобно, а если сидеть, то размер стола должен быть больше. Да и понятие "коллективная работа" в XXI-м веке не обязательно подразумевает работу в одном помещении и за одним столом. Хотя на видео все смотрится безумно эффектно.

 Второй вопрос, на мой взгляд, посложнее. Вроде бы как массовая категоризация может потребоваться на этапе "залпового" ввода сканированных документов в систему. Но бумажные оригиналы были же как-то структурированы, сгруппированы. Не поверю, чтобы в офисе, где-нибудь в углу лежала куча документов и все в ней барахтались, выискивая нужный документ. Хотя даже если документы собраны в дела, без описи трудно будет сразу найти нужный. Если это изначально электронные документы, то где они были до этого? В общих или локальных папках? А если к ним не обращались, то нужны ли они в системе? Возможно, быстро перелопатить ворох электронных документов нужно при аудите, или в процессе подготовки к какой-либо проверке или сертификации? А может, такое решение будет находкой для какого-либо архива, когда нужно будет быстро классифицировать, скажем, наследие какой-нибудь организации? Вы как думаете?

Чтобы прочитать эту статью до конца,
или зарегистрируйтесь

Комментарии 6

Андрей Подкин 22 декабря 2010
Думаю, без столика все же можно обойтись. Стоять, склонившись вокруг одного девайса, не очень-то удобно, а если сидеть, то размер стола должен быть больше.

Просто надо столик сделать вертикальным (т.е. превратить его в доску). Получится как в фильме "Особое мнение" / "Minority report" (ролик на youtube).

Второй вопрос, на мой взгляд, посложнее. Вроде бы как массовая категоризация может потребоваться на этапе "залпового" ввода сканированных документов в систему. Но бумажные оригиналы были же как-то структурированы, сгруппированы. Не поверю, чтобы в офисе, где-нибудь в углу лежала куча документов и все в ней барахтались, выискивая нужный документ. Хотя даже если документы собраны в дела, без описи трудно будет сразу найти нужный.
Подозреваю, что основная фишка - в свободной каталогизации: если бумажный документ лежит только в одной папке, то электронному можно указать большое число категорий (как бы положить во множество папок одновременно).
Ivan Steblenko 22 декабря 2010
Просто надо столик сделать вертикальным (т.е. превратить его в доску).
Согласен с Андреем. Возможно это следующий этап развития флипчартов? =)
когда вообще может потребоваться массовая автоматическая категоризация
Поиск. Например, пользователь может не помнить название ресурса (т.е. не только документ, это может быть письмо, видео и пр.), а категоризация поможет ему уточнить запрос и в итоге прийти к нужному. Те же интернет поисковики сразу проводят автоматическую категоризацию, и нам уже значительно проще оперировать информацией (http://www.bing.com/Finance/search?q=US:XRX&FORM=DTPFIO).
Максим Галимов 22 декабря 2010


Классификация (кластеризация) документов нужна в разных ситуациях; залповый ввод лишь одна из них. Навскидку: имеются материалы "дела" (в самом широком смысле; например, по сделке слияния или это просто материалы проекта), которые надо перереботать. Да, они как-то классифицированы в архиве (и в цифровом архиве в т.ч.), но для конкретной задачи имеет смысл их перегруппировать в более удобную структуру. Еще задача - перетряска уже устоявшихся архивов: сегодня коммерческие документы (договоры, акты, счета...) сгруппированы одним способом (по дате и организации), а завтра на нужен другой -- нет, пять других способов для простой навигации.

 


Андрей Подкин 22 декабря 2010
Возможно это следующий этап развития флипчартов?
Помнится, Microsoft после интерактивного стола как раз представила стену. Может быть и Xerox пойдет тем же путем.
Дмитрий Лазарев 24 декабря 2010
Система автоматически относит документ к той или иной категории (а может, и нескольким категориям), анализируя содержание документа и особые ключевые слова.

Вот что самое интересное - каким образом она, Система, все это "разбирает". Просто по ключевым словам?! Не очень интересно - жизнь намного богаче, чтобы все документы в которых есть слова "требования" и "задание" относить к  категории "Технические документы".
Максим Галимов 27 декабря 2010

По-моему, стол действует по классической схеме кластеризации: задается требуемое число кластеров, а дальше действуют механизмы выделения значимых факторов (возможно, это ключевые слова из метаданных документа или идет все-таки анализ текста документа) и расчет близости и удаленности документов для объединения в кластеры.

Чтобы прокомментировать, или зарегистрируйтесь