Cognitive Forms cистема массового ввода структурированных документов




Скачать 21.72 Kb.
НазваниеCognitive Forms cистема массового ввода структурированных документов
Дата04.02.2016
Размер21.72 Kb.
ТипДокументы

Cognitive Forms - cистема массового ввода структурированных документов.



Арлазаров В.В., Постников В.В., Шоломов Д.Л.


Приводится обзор системы массового ввода форм документов Cognitive Forms. Рассматриваются основные этапы технологии ввода структурированных документов – сканирование, распознавание, верификация и экспорт; рассматриваются основные компоненты системы, осуществляющие поддержку этих этапов.

Введение


В современном мире ежедневно вводится в компьютер несколько десятков миллионов страниц однотипных заполненных бланков – почтовых карточек, платежных поручений, таможенных или налоговых деклараций, банковских чеков, бюллетеней для голосования, разного рода анкет и т.п. Сотни тысяч операторов выполняют однообразную последовательность действий – бросают взгляд на очередную страницу, находят и читают текст заполнения, быстро набирают его на клавиатуре. Скорость набора текста у профессиональной машинистки составляет несколько сотен ударов в минуту, но в среднем за рабочую смену оператор может ввести порядка 10000 слов или чисел.


Как альтернатива ручному вводу, существуют технологии автоматизированного ввода форм, которые обладают рядом явных преимуществ: cовременные модели сканеров могут вводить до 200 страниц в минуту, программы оптического распознавания текста "читают" несколько сотен символов в секунду и могут делать это без перерыва на обед.


Помимо выигрыша в стоимости и качестве ввода, технологии сканирования и распознавания документов имеют и другое существенное преимущество – корректно идентифицированный поток документов, включающий распознанную информацию и графические образы, может составлять основу электронного архива, представляющего функции быстрого поиска документа, извлечения, пересылки и печати графического образа документа (по качеству аналогичной ксерокопии документа). Развитие глобальных компьютерных сетей и возможность организации удаленного доступа к таким архивам подчеркивают это технологическое преимущество, постепенно выдвигают его на первый план.


В данной статье приводится краткий обзор системы Cognitive Forms, реализующей такого типа технологию – технологию автоматизированного ввода структурированных документов.


Технология автоматизированного ввода форм включает в себя решение ряда задач, зачастую достаточно сложных и не всегда имеющих универсальное и эффективное решение. К ним относятся, в частности, задачи анализа и обработки графического образа документа (бинаризация, определение угла наклона, выделение графических примитивов), задачи моделирования структурированного документа и идентификации документа по набору шаблонов предопределенной структуры, задачи распознавания печатного и рукопечатного текста, задачи контекстного анализа и логического контроля и другие. Многие из перечисленных задач рассмотрены в работах [1]-[23], часть приведенных в этих работах решений используется в системе Cognitive Forms. В рамках данной работы мы не будем углубляться в специфику решения этих задач, а лишь покажем, как объединяясь в функциональные модули, реализованные решения позволяют создать набор средств, на базе которых могут строиться конвейерные технологические цепочки массового ввода структурированных документов.

Обзор системы


Система Cognitive Forms представляет собой программный комплекс, предназначенный для организации технологических цепочек массового ввода стандартизованных форм документов. Модули системы устанавливаются на компьютерах, соединенных в локальную вычислительную сеть, и, взаимодействуя между собой, организуют конвейер обработки данных, позволяющий вводить до 10 000 и более страниц за сутки. Система функционирует на платформе Win32, ограниченный вариант системы портирован на Power Macintosh. Система включает 14 исполняемых модулей (основных и вспомогательных) и 84 динамически подгружаемые библиотеки. Основная часть системы реализована на языке C++, общий объем кода составляет около 800 000 строк.

Этапы технологической цепочки ввода стандартных форм


Общая схема обработки документов состоит из двух этапов:

  • подготовительного, на котором происходит дизайнирование машиночитаемого документа и его подготовка к распознаванию – созданию шаблона документа,

  • и основного, на котором происходит сканирование, распознавание, верификация потока документов и экспорт результатов во внешнюю информационную систему.

Рисунок 1 отображает эту схему. Пунктирные стрелки на схеме отображают необязательные варианты связей: шаблон документа может строиться как на основе графического образа отсканированного существующего документа, так и без него; построенный шаблон может использоваться для печати бланков документов.



Рисунок 1. Подготовительный и основной этапы технологии ввода стандартных форм

Подготовка технологической цепочки


Для организации высокопроизводительных технологий ввода может производиться специализированная типографская верстка форм, с использованием специальных шрифтовых элементов (чекбоксов, блоклеттерсов – полей ввода рукописных букв, шаблонов цифр и др.). Для верстки такого типа форм в системе разработаны специальные шрифты и инструкции.


После того, как бланки форм сверстаны и напечатаны, отдельным технологическим этапом, настраивающим работу остальной цепочки, является создание шаблонов документов в модуле Cognitive Forms Designer.

Основные технологические этапы обработки


Основными технологическими этапами обработки являются:

  • Сканирование

На этапе сканирования заполненные бланки форм загружаются в сканер, в результате получается набор графических файлов (обычно в формате TIFF, упакованный в стандарте CCITT Group 4).

  • Сортировка и комплектация

На этапе сортировки пачки документов, объединенные в один пакет для повышения производительности сканера, разбиваются на документы – посредством выделения специальных форм, являющихся первыми страницами документов. Производится распознавание ключевых полей – контролирующих комплектность документа. Если документ комплектен, – он передается на этап распознавания, иначе на этап Корректирования этапов сортировки

  • Корректирование результатов сортировки

На этапе корректирования результатов сортировки оператору предъявляются пачки документов, у которых не выполнились критерии комплектности или нарушена структура (например, слиплись при сканировании какие-то страницы). Оператор либо корректирует ошибку и отправляет документ на распознавание, либо документ повторно сканируется, либо отбраковывается.

  • Распознавание

На этапе распознавания модуль распознавания определяет тип очередного графического образа страницы, выделяет поля ввода, заданные на шаблоне автоматически выбранной формы, распознает и сохраняет в специализированной базе данных, сохраняющей информацию о типе формы страницы, распознанных значениях полей и их расположении в графическом образе. Полученная база данных передается на этап верификации.

  • Верификация результатов распознавания

На этапе верификации оператору предъявляются поля документа, в которых система не смогла распознать текст, либо не уверена в достоверности распознавания. Кроме того, оператору предъявляются поля, значения которых не удовлетворяют правилам заполнения документа. Оператор может отбраковать страницу или документ в целом – либо произвести экспорт во внешнюю информационную систему (базу данных, банковскую систему или т.п.)

  • Экспорт данных

Этап экспорта завершает технологический цикл обработки документа – документ конвертируется в какой либо стандартный формат (DBF, XML, …) и передается для обработки во внешнюю информационную систему.




Рисунок 2. Пример развертывания модулей системы для организации конвейерного ввода форм документов


На рисунке приведена иллюстрация связи перечисленных этапов обработки. Приводится вариант развертывания модулей системы ввода в локальной сети - технологическая цепочка по вводу документов персонифицированного учета, реализованная на базе технологии Cognitive Forms в 1997-2000 г. в Московском пенсионном фонде.

Основные компоненты системы

Компоненты подготовки технологической цепочки


Этап подготовки технологической цепочки поддерживается программой Cognitive Forms Designer. В рамках данного модуля производится описание шаблона документа. Программа позволяет создать шаблон документа на основе существующего, либо разработать новую форму документа.


Создание шаблона на основе отсканированного образца документа включает автоматическую обработку образца – бинаризацию, определение угла наклона страницы и устранение наклона, выделение графических примитивов – линий разграфки, строк текста, чекбоксов. Идентифицированные примитивы могут быть добавлены в шаблон, модифицированы (Рисунок 2 ).




Рисунок 1. Главное окно программы CF Designer в процессе описания шаблона документа


В шаблоне указываются основные свойства документа и его элементов – жесткий/нежесткий формат, расположение, алфавит и стиль заполнения полей и другие свойства, используемые в дальнейшем в процессе обработки документа.

Компоненты основной технологической цепочки


Основную технологическую цепочку поддерживают:

  • программы сканирования: модуль пакетного сканирования CF ScanPack, модуль автоматического постраничного сканирования CF AutoScan,

  • программа автоматической идентификации и распознавания форм CF Processor

  • программа верификации результатов распознавания CF Editor

а также несколько других программ, предназначенных для работы с пакетами документов, отбракованных на этапах автоматической обработки.


Модули сканирования организуют поток графических образов документов, подлежащих машинной обработке. Модуль CF Processor ( Рисунок 3) поддерживает режим сортировки и комплектации документов. Модуль:

  • производит предобработку графического образа (бинаризацию, определение угла наклона, чистку) и выделение графических примитивов – строк текста, линий разграфки, чекбоксов и других типовых элементов

  • автоматически идентифицирует шаблон документа, наиболее подходящий для обрабатываемого графического образа, сопоставляя шаблон документа и множество выделенных примитивов графического образа

  • выделяет и распознает поля ввода, контролирующие комплектность документа,

  • отслеживает последовательность страниц в документе и соответствие структуры документа указанной в шаблоне синтаксической конструкции, определяющей допустимые варианты следования типов страниц друг за другом.




Рисунок 3. Главное окно Cognitive Forms Processor в процессе автоматической обработки очередного документа

В случае, если документ некомплектен, он отправляется на специальный этап обработки, либо сканируется повторно.


Далее, на этапе распознавания документа, CF Processor:

  • идентифицирует поля ввода документа,

  • распознает введенный печатный или рукопечатный текст, чекбоксы, штрихкоды, контролирует наличие подписей и печатей, вырезает фрагменты графического образа, соответствующие полям фотографий,

  • производит контекстный анализ и логический контроль результатов распознавания полей, выбирая наиболее правдоподобный вариант интерпретации графического образа поля (с учетом оценок от “геометрических” признаков и “логических” оценок, уместности данного текста в данном контексте логические


В конечном счете, модуль передает распознанную информацию на этап верификации, поддерживаемый модулем CF Editor.


Модуль CF Editor служит для выборочного контроля или корректирования значений полей документа – в тех случаях, когда решение о корректности введенных данных не может быть принято автоматически, например, если поле заполнено с нарушением правил заполнения документа, либо качество графического образа заставляет сомневаться в однозначности распознанного значения.




Рисунок 4. Фрагмент главного окна CF Editor в процессе верификации документа.


На рисунке 4 приведен фрагмент главного окна CF Editor в процессе верификации документа. В нижней части – поле формы, требующее подтверждения или корректирования, в верхней части показывается соответствующий фрагмент графического образа. В зависимости от настроек текущего поля, с ним может быть ассоциирован словарь, методы форматирования, например, для полей типа «дата» или «телефон», или другие специальные средства редактирования и контроля.


Вспомогательные средства


Помимо реализации основных этапов обработки в системе организована поддержка средств наблюдения (мониторинга) за прохождением документа этапов обработки, средств администрирования – ведения списка пользователей, паролей, средств формирования отчетности по работе системы, которая может использоваться для расчета оплаты труда операторов, анализа "узких мест" и т.п.


Процесс развития системы включает фазы исследования и встраивания в систему новых методов обработки изображения, распознавания, контекстного анализа, часто требующих тонкой настройки, отладки и балансировки. Для решения таких задач необходимы специальные средства наблюдения и контроля. Важным вспомогательным средством, специально разработанным для наблюдения за процессом идентификации, распознавания и контекстного контроля документа, является программа CF Reader.




Рисунок 2. CF Reader в процессе обработки графического образа; установка точки наблюдения за выделением линий разграфки


Программа реализует механизмы решения перечисленных задач, позволяет устанавливать точки останова в том или ином алгоритме, визуализирует состояние работы алгоритма, в определенных случаях позволяет управлять ходом его исполнения.

Заключение


В данной статье приведен обзор системы массового ввода стандартизованных форм, выделены основные компоненты системы и способы организации технологических цепочек конвейерного ввода документов. Приведен пример организации такого конвейера в реальном промышленном проекте по вводу документов пенсионного страхования.


Скоростные и качественные характеристики, обеспечиваемые реализованной системой и подтвержденные в ряде проектов массового ввода, позволяют судить о перспективности выбранного подхода к решению проблемы автоматизации перевода структурированных документов из бумажного в электронное представление.

Литература





[1]

Арлазаров В.Л., Славин О.А. Алгоритмы распознавания и технологии ввода текстов в ЭВМ. - Информационные технологии и вычислительные системы N 1, 1996, 6 стр. 48-54

[2]

Арлазаров В.Л., Корольков Г.В., Славин О.А. Линейный критерий в задачах OCR. - В сб. " Развитие безбумажных технологий в организациях "1999, с. 17-23

[3]

Богданов К.Е., Славин О.А. Объединение последовательностей объектов распознавания В сб. "Интеллектуальные технологии ввода и обработки информации", 1998, с. 86-96

[4]

Емельянов Н.Е. Теоретический анализ документного интерфейса: Препринт. — М.: ВНИИСИ, 1987

[5]

Емельянов Н.Е. Виды представления структурированных данных//Теоретические основы информационной технологии/Сб. тр. Вып. 22. — М.:ВНИИСИ, 1988

[6]

Емельянов Н.Е., Соловьев А.В., Соловьев Д.В. Средство конечного пользователя для генерации документов по базам данных // Сборник трудов Института системного анализа РАН / Под ред. д.т.н., проф. Арлазарова В.Л. и д.т.н., проф. Емельянова Н.Е., 2000

[7]

Михайлов А.А., Постников В.В., Алгоритмы сегментации рукопечатных символов, - В сб. «Развитие безбумажных технологий в организационных системах», Москва, 1999

[8]

Михайлов А.А., Постников В.В. Диагностика и восстановление неявной регулярной структуры строки текста, - В сб. «Методы и средства работы с документами», Москва, 2000

[9]

Постников В.В., Разработка методов наложения формы на графическое изображение документа. - В сб. «Интеллектуальные технологии ввода и обработки информации», Москва, 1998

[10]

Постников В.В., Flexible Forms Identification (Abstract). Abstracts of the 5th German-Russian Workshop on Pattern Recognition and Image Understanding (GRWS98), Мюнхен, 1998

[11]

Постников В.В., Flexible Forms Identification. Proceedings of the 5th German-Russian Workshop on Pattern Recognition and Image Understanding (GRWS98), Гамбург, Infix, 1999

[12]

Постников В.В., Формальный подход к задаче идентификации графических образов структурированных документов, - В сб. «Развитие безбумажных технологий в организационных системах», Москва, 1999

[13]

Славин О.А., Корольков Г.В., Болотин П.В. Методы распознавания грубых объектов. В сб. "Развитие безбумажных технологий в организациях", 1999, с. 290-311

[14]

Славин О.А. Средства управления базами графических образов символов и их место в системе распознавания. В сб. " Развитие безбумажных технологий в организациях ", 1999, с. 277-289

[15]

Славин О.А., Подрабинович А.А. Древовидное распознавание нормализованных символов. В сб. "Интеллектуальные технологии ввода и обработки информации", 1998, с. 137-157

[16]

T.M. Ha and H. Bunke, “Model-Based Analysis and Understanding

of Check Forms,” Int’l J. Pattern Recognition and Artificial Intel-ligence,

vol. 8, no. 5, pp. 1,053-1,081, 1994

[17]

S.W. Lam, Javanbakht, and S.N. Srihari, “Anatomy of a Form

Reader,” Proc. Second Int’l Conf. Document Anal. Recog., pp. 506-509,

Tsukuba, Japan, 1993

[18]

T. Watanabe, Q. Luo, and Sugie, “Layout Recognition of Multi-kinds

of Table-Form Documents,” IEEE Trans. Pattern Analysis and

Machine Intelligence, vol. 17, no. 4, pp. 432-445, 1995

[19]

R. Casey, D. Ferguson, K. Mohiuddin, and E. Walach, “Intelligent

Forms Processing System,” Machine Vision and Applications, vol. 5,

no. 5, pp. 143-155, 1992

[20]

M.D. Garris, J. Blue, G. Candela, D. Dimmick, J. Geist, P. Grother,

S. Janet, and C. Wilson, “Nist Form-Based Handprint Recognition

System. Nistir 5469,” U.S. Dept. of Commerce, Technology Admini-stration,

Nat’l Inst. Standards and Technology, 1994

[21]

D.S. Doermann and A. Rosenfeld, “The Processing of Form

Documents,” Proc. Second Int’l Conf. Document Anal. Recog, pp.

497-501, Tsukuba, Japan, 1993

[22]

F. Cesarini, M. Gori, S. Marinai, and G. Soda, "INFORMys: A Flexible Invoice-Like Form-Reader System," IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 20, no. 7, pp. 730-745, July 1998

[23]

L. O’Gorman, “The Document Spectrum for Page Layout Analysis,” IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 15, pp. 1,162-1,173, 1993

Похожие:

Cognitive Forms cистема массового ввода структурированных документов iconВозможности ультразвукового контроля при использовании пьезоэлектрических преобразователей с переменным углом ввода пучка
Димо использовать точно подобранные значения угла ввода пучка для разных типоразмеров изделий или даже для отдельных изделий из партии....
Cognitive Forms cистема массового ввода структурированных документов iconАдминистративный регламент
«Организация массового спортивного досуга для населения, обеспечение условий для развития на территории мо «Легойский наслег» физической...
Cognitive Forms cистема массового ввода структурированных документов iconПояснительная записка Изучение спецкурса «Теория массового обслуживания»
Учебная программа составлена на основе базовой учебной программы «Теория массового обслуживания», утвержденной 28 мая 2010 г
Cognitive Forms cистема массового ввода структурированных документов iconКонтрольная работа по предмету: Технические средства управления Тема: Типы и характеристика клавиатуры и мыши
Вопросы организации ввода в вычислительной системе иногда оказываются вне внимания потребителей. Это привело к тому, что при оценке...
Cognitive Forms cистема массового ввода структурированных документов iconМетодические указания к контрольной работе «Моделирование систем массового обслуживания в среде mathcad»
...
Cognitive Forms cистема массового ввода структурированных документов iconResources of inforation technologies in korrektsionno-developing work with children, who has different forms of speech pathology
Ресурсы информационных технологий в коррекционно-развивающей работе с детьми, имеющими различные формы речевой патологии
Cognitive Forms cистема массового ввода структурированных документов iconОбобщение наиболее часто встречающихся ошибок, допускаемых заявителями при оформлении документов, представляемых для государственной регистрации некоммерческих организаций в 2011 году
Основными причинами отказов в государственной регистрации некоммерческих организаций являются: представление документов в неполном...
Cognitive Forms cистема массового ввода структурированных документов iconТемы (направления) курсовой работы студентов 1-го курса магистерской программы
Основные тенденции и перспективы развития сетевых форм взаимодействия между авиакомпаниями и турфирмами / Key trends and development...
Cognitive Forms cистема массового ввода структурированных документов icon8 оэс средней волги татэнерго сети пс бугульма
Повреждение трехзажимного ввода 220 кв атаодтцн-167000: разрушен бакелитово-бумажныйстакан, проходной
Cognitive Forms cистема массового ввода структурированных документов iconАртур Фримен Когнитивная психотерапия расстройств личности (Aaron Beck, Arthur Freeman. Cognitive Therapy of Personality Disorders, 1990)
В качестве иллюстраций приводятся описания случаев из клинической практики. Книга адресована как специалистам, придерживающимся когнитивно-поведенческой...
Разместите кнопку на своём сайте:
Библиотека


База данных защищена авторским правом ©lib2.znate.ru 2012
обратиться к администрации
Библиотека
Главная страница