Пасьянс из электронных документов
Решение для автоматической категоризации документов Smart Document Reviewer от Xerox завораживает, но можно ли обойтись без "электронного стола"?
В недрах компании-пионера графического интерфейса и электронного документооборота Xerox родилось интересное решение - Smart Document Reviwer. Большая горизонтальная тач-панель используется, чтобы группировать и категоризировать документы. На видео люди без единой тени улыбки лихо оперируют сотнями документов, раскладывая причудливые пасьянсы, перемещая документы по столу, поворачивая и масштабируя их без малейшего сомнения. Интерфейс явно киношный, разве что в фильмах изменения на экране обычно сопровождаются футуристически-индустриальными звуками. Думаю, это надо просто смотреть, пересказывать происходящее в ролике так же трудно, как и любовные батальные сцены в голливудских фильмах - не обойтись бес помощи рук. Если у вас "закрыт" на работе Flash, можете скачать flv-файл прямо с сайта ecm-journal. Файл имеет размер примерно 20 МБ и для просмотра может потребоваться кодек.
Собственно, все эти дивные пассы над электронным столом - только часть процесса. Обученная еще раз "вручную" и без того самообучающаяся система разложит весь ворох электронных документов "по полочкам". Система автоматически относит документ к той или иной категории (а может, и нескольким категориям), анализируя содержание документа и особые ключевые слова.
Когда марево восторга рассеялось, у меня возникло два вопроса: можно ли обойтись без "столика" и когда вообще может потребоваться массовая автоматическая категоризация.
Думаю, без столика все же можно обойтись. Стоять, склонившись вокруг одного девайса, не очень-то удобно, а если сидеть, то размер стола должен быть больше. Да и понятие "коллективная работа" в XXI-м веке не обязательно подразумевает работу в одном помещении и за одним столом. Хотя на видео все смотрится безумно эффектно.
Второй вопрос, на мой взгляд, посложнее. Вроде бы как массовая категоризация может потребоваться на этапе "залпового" ввода сканированных документов в систему. Но бумажные оригиналы были же как-то структурированы, сгруппированы. Не поверю, чтобы в офисе, где-нибудь в углу лежала куча документов и все в ней барахтались, выискивая нужный документ. Хотя даже если документы собраны в дела, без описи трудно будет сразу найти нужный. Если это изначально электронные документы, то где они были до этого? В общих или локальных папках? А если к ним не обращались, то нужны ли они в системе? Возможно, быстро перелопатить ворох электронных документов нужно при аудите, или в процессе подготовки к какой-либо проверке или сертификации? А может, такое решение будет находкой для какого-либо архива, когда нужно будет быстро классифицировать, скажем, наследие какой-нибудь организации? Вы как думаете?
Комментарии 6
Просто надо столик сделать вертикальным (т.е. превратить его в доску). Получится как в фильме "Особое мнение" / "Minority report" (ролик на youtube).
Классификация (кластеризация) документов нужна в разных ситуациях; залповый ввод лишь одна из них. Навскидку: имеются материалы "дела" (в самом широком смысле; например, по сделке слияния или это просто материалы проекта), которые надо перереботать. Да, они как-то классифицированы в архиве (и в цифровом архиве в т.ч.), но для конкретной задачи имеет смысл их перегруппировать в более удобную структуру. Еще задача - перетряска уже устоявшихся архивов: сегодня коммерческие документы (договоры, акты, счета...) сгруппированы одним способом (по дате и организации), а завтра на нужен другой -- нет, пять других способов для простой навигации.
По-моему, стол действует по классической схеме кластеризации: задается требуемое число кластеров, а дальше действуют механизмы выделения значимых факторов (возможно, это ключевые слова из метаданных документа или идет все-таки анализ текста документа) и расчет близости и удаленности документов для объединения в кластеры.