Об одном подходе к построению согласованного ведения фактографической базы данных и базы изображений.
Акимова Г.П., Деза В.Н., Емельянов Н.Е., Порай Д.С.
Аннотация.
Предлагается технология согласованного ведения существующей фактографической базы данных и вновь создаваемой базы изображений документов. Технология позволяет поддерживать полный жизненный цикл документа, осуществлять хранение документа в электронном виде, осуществлять поиск требуемых документов в архиве, копировать графические образы документов.
Введение. Постановка задачи.
В последнее время в связи с поступлением на рынок компьютерной продукции серверов с сверхбольшим объёмом памяти на жестких дисках появляется возможность организовать архив электронных графических образов оригиналов документов.
Во многих областях науки и техники функционирует большое количество фактографических баз данных (БД), содержащих значения реквизитов различных документов. Изначальные же документы в "бумажном виде" хранятся при этом в специальных хранилищах (архивах).
В процессе работы в ряде учреждений приходится разыскивать изначальные бумажные документы для прочтения или для копирования. Эту процедуру приходится производить вручную и ценою больших временных затрат.
Так, например, известно, что музейные базы данных хранят огромное количество информации, касающейся описания музейных экспонатов, находящихся на хранении в музее. Искусствоведы, работая с этими БД, могут получить интересующую их информацию по специально организованным запросам. Однако, не всегда исследователю достаточно только технического описания того или иного экспоната. Зачастую необходимо увидеть или скопировать фотографию экспоната.
В современных музейных хранилищах каждый экспонат регистрируется в фактографической БД и дополнительно фотографируется. Фотография заносится в специализированную базу изображений (БИ). Если обе эти базы будут "согласованы" в том смысле, что в специализированной БД будут размещены реквизиты документов из фактографической базы и ссылки на соответствующие изображения из базы изображений, то появляется возможность, исследователю получать необходимые изображения тех экспонатов, которые удовлетворяют требованиям специального поиска по реквизитам фактографической БД. Эта система может решить проблему согласованной организации БД и БИ, что обеспечит в дальнейшем поиск по реквизитам, размещаемым в БД документа, имеющего формат электронной фотографии.
Может быть, эта проблема еще более актуальна для финансового - организационного документооборота любого банка. Здесь постоянно требуются оригиналы финансовых документов для предъявления их клиентам банка, для формирования отчетов, для инспекции и т.д. В современном банке обязательно имеется фактографическая БД, содержащая информацию о необходимых реквизитах финансовых документов, а изначальные документы в бумажном виде хранятся в специально охраняемых сейфах, и представляют собою большие ценности.
Если вести базу изображений, получаемых сканированием документов, согласовано с фактографической базой данных, хранящую реквизиты этих финансовых документов, то во многих случаях бумажный вид документа можно заменить на копию, получаемую при распечатке графического образа документа, или даже визуализацией на экран монитора соответствующего графического образа документа. Вопрос в том, как организовать заполнение базы изображений, чтобы создаваемая БИ была согласована с функционирующей БД.
Технология согласования ведения БИ и БД.
Предлагаемая технология согласования существующей фактографической БД и вновь создаваемой БИ позволяет поддерживать полный жизненный цикл документа в организации: создание и хранение текстов документов в электронном виде, возможность безбумажной работы с документами, управления правами доступа к документам, а также к функциям системы, любой поиск документов, получение копий электронных фотографий документов.
Описываемая здесь система предназначена для организации безбумажного архива документов, повышения надежности хранения документов и создания эффективной технологии оперативной работы с архивом документов. Система представляет собой программно - аппаратный комплекс для:
-
поточного сканирования документов на бумажном носителе;
-
создание графического образа документа (цифровой фотографии);
-
систематизации полученных образов с размещением на магнитном носителе для долговременного хранения;
-
создание поискового механизма, обеспечивающего быстрое извлечение заданного документа для просмотра;
-
создание механизма верификации документов, подготовленных для помещения в архив с данными действующими в банке фактографической базы отчестности.
Система реализована на ЭВМ AS/400, которая играет роль сервера приложений и одновременно является электронным архивом для базы изображений. Выбор в качестве электронного архива AS/400 не случаен. Ряд преимуществ, предоставляемых этой ЭВМ: в области скорости, размеров памяти оперативной и на жестких дисках, обеспечения мероприятий по защите информации и предопределили наш выбор.
На рисунке 1 представлены условные обозначения, которыми комментируются представленные ниже рисунки.
Связующим звеном между фактографической БД и БИ служит реестр, получаемый из фактографической базы данных. В реестре содержится перечень вводимых в настоящем сеансе изображений документов и основные реквизиты каждого из вводимых документов в фиксированном порядке. В последующем к документам из БИ будут приписаны эти реквизиты, что и обеспечит возможность осуществлять поиск документов.
На AS/400 возложены обязанности проверять пароли пользователей, находящихся в Базе Паролей и Авторизации, принадлежность их к группам лиц с определенными пользовательскими правами,
регистрация в журнале всех действий, проводимых в рамках этой системы (РЖ), а также транспортировка электронных образов документов из Временного Хранилища Изображений в постоянный архив (АИ).
Связь с AS/400 клиентских мест, реализованных на IBM PC , происходит через Client Access по каналам, отмеченным на рисунке 3 цифрами от 1 до 10. Инициализация работы этих программ, расположенных на AS/400 производится с клиентских рабочих мест, находящихся на PC.
Сканирование.
Схема рабочего места сканирования представлена на рисунке 2.
На первом этапе проводится сканирование и первичная обработка документов. В описываемой системе использовался сканер Kodak 500d с его программным обеспечением. В комплексе предусмотрено наличие системы, позволяющей вызвать на экран монитора электронный образ любого из пачки отсканированных документов, что позволяет визуально оценить качество проведенного сканирования. Допускается повторное сканирование как отдельных документов, так и всей пачки полностью.
Сканированием и вводом документов в архив занимается “оператор электронного архива”. Подготовка к записи в архив заключается в проверке пачки документов, подготовленных для ввода в архив, с целью выяснения наличия всех документов, перечисленных в реестре, и порядка их следования в соответствии с порядком их появления в реестре.
Подготовленные документы последовательно сканируются и размещаются в фиксированные рабочие файлы, которые и представляют собой электронные образы вводимых документов.
При сканировании документы можно разбить на группы (например, приходные документы, баллансовые, договора и др.). Каждая группа сканируется в свою отдельную директорию на диске. В последующем система сможет различать к какой группе принадлежит запрашиваемый документ. Имя группы может рассматриваться как некоторый дополнительный внешний реквизит.
Верификация и индексация.
Отсканированные документы, разбитые на пачки и хранящиеся во Временном Хранилище Изображений, необходимо поставить в соответствие тем реквизитам, которые перечислены в реестре. Процесс установления такого соответствия называется верификацией.
Заранее для системы верификации с использованием существующей базы данных формируется специальный файл - реестр, который в последующем необходим для проведения верификации.
Этот фaйл для каждого документа должен содержать определяющий набор реквизитов. Считается, что определяющий набор реквизитов идентифицирует документ и последовательность вхождения наборов
реквизитов в специальный файл должна соответствовать последовательности документов в отсканированной пачке.
В нормальном состоянии порядок оригинальных бумажных документов в пачке соответствует порядку перечисления документов в реестре, однако это не является обязательным условием. Документы в пачке могут находиться в произвольном порядке, или даже отсутствовать.
Задачей оператора рабочего места верификации и индексации является: проверка, не нарушено ли соответствие между введенными через сканер документами и перечислением их в реестре; восстановление этого соответствия в случае его нарушения; привязка реквизитов к соответствующему изображению. Информацией, на основе которой соответствие может быть проверено и
восстановлено, являются реквизиты документов, указанные в реестре и видимые в графическом образе документа (см. рис. 4). В случае их совпадения считается, что документ идентифицирован правильно, а при несоответствии требуется найти графический образ с такими же реквизитами, как указанные в реестре.
Процедура верификации предназначена для установления соответствия между оригинальными бумажными документами и их графическим образом, на основании реестра документов. Реестр документа формируется и сопровождает каждую пачку документов, передаваемых для внесения в электронный архив. Верификация выполняется с помощью программы, установленной на рабочем месте верификации и индексации.
Верификация проводится последовательно по документам. Система верификации обеспечивает оператору верификации и индексации засветку на экране монитора двух окон. В первом окне выводится очередной определяющий набор значений реквизитов, соответствующий некоторому текущему документу. Во втором окне высвечивается электронный образ документа, который должен содержать эти реквизиты.
Если соответствие не нарушено, и документ из второго окна содержит реквизиты, высвеченные в первом окне, оператор подтверждает идентичность документов, расположенных в первом и втором окнах. После чего верификация документа завершается и электронный образ документа получает свой уникальный архивный номер.
В случае нарушения соответствия, если пришедший электронный образ является не самостоятельным документом, а приложением к другому многостраничному документу, то система обеспечивает возможность найти требуемый основной документ и добавить к нему текущее приложение.
Если же новый электронный образ не соответствует текущим реквизитам в реестре, то предусматривается возможность автоматического поиска документа с подходящим реквизитом (или несколькими, или всеми).
На рисунке 5 представлена схема рабочего места верификации и индексации.
Кроме того, предусматривается возможность просмотра электронных образов документов "вперед" или "назад" относительно текущего электронного образа, и восстановление состояния, которое было перед таким продвижением вперед или назад.
Для поиска в первом окне можно указать значение одного или нескольких реквизитов, прочитав их из второго окна. Если подходящий документ найден, то текущий электронный образ можно верифицировать, как было указано выше. После чего перейти к новому электронному образу.
Если какому - либо электронному образу не нашлось соответствующей информации в реестре, то обеспечивается возможость реквизиты этого документа ввести вручную, минуя реестр.
Когда для всей пачки процедура верификации закончена и считается, что все документы идентифицированы верно, пачка передается на индексацию, и информация о документах вносится в базу данных электронного архива Euphrat/400. В результате, документы становятся доступными для поиска.
Процедура индексации предназначена для внесения в электронный архив графического образа документа и сведений о его реквизитах. Индексация выполняется с помощью программы EUPHRAT, установленной на рабочем месте верификации и индексации. По окончании процесса верификации, все документы получили уникальные архивные номера, что и позволяет в дальнейшем установить идентификацию введенных документов.
Реестр введенных в архив документов можно получить на дисплее или в распечатанном виде.
Поиск.
Функции поиска документов являются ключевыми для фактографической БД и базы изображений. Они должны обеспечивать достаточно гибкую систему поиска, которая позволила бы быстро находить документ или группы документов, соответствующих некоторым условиям, задаваемыми пользователем.
Система позволяет определить некоторые условия на значения, принимаемое реквизитом. Это может быть как точное значение, так и интервал значений от и до. Из этих условий может быть построен запрос из одного или нескольких условий, связанных логическими функциями <<И>>, <<ИЛИ>>, <<НЕ>>.
По сформированному запросу осуществляется поиск, и выдается результат поиска в форме таблицы реквизитов документов, удовлетворяющих всем условиям запроса.
На рисунке 6 представлена схема рабочего места поиска.
На рабочем месте поиска формируется текст запроса, который отсылается на AS/400 для выполнения на архиве электронных документов. Результат запроса представляет собой файл реквизитов документов, которые удовлетворяют всем условиям запроса. Полученный файл пересылается на рабочее место поиска и отображается в виде таблицы на экране монитора. Для визуализации изображения достаточно выделить в таблице нужную строку с реквизитами. Поскольку при верификации была установлена ссылка последовательности реквизитов на изображения, то поиск изображения может производиться по этой ссылке. Изображения, полученные в результате запроса, выводятся на экран монитора или на печатающее устройство.
Заключение.
Описанная система установлена в одном из банков. Â íåì åæåäíåâíî
ñäàþòñÿ â îáû÷íûé áóìàæíûé àðõèâ áîëåå 5000 äîêóìåíòîâ, ðàçìåðû
êîòîðûõ êîëåáëþòñÿ îò ðàçìåðà âèçèòíûõ êàðòî÷åê äî ëèñòà ôîðìàòà À4.
Ñèñòåìà ïðåäóñìàòðèâàåò ââîä êàê îäíîñòîðîííèõ, òàê è äâóõñòîðîííèõ
äîêóìåíòîâ. Ýòè äîêóìåíòû ïîäøèâàþòñÿ â ïàïêè, ñîäåðæàùèå
ïðèáëèçèòåëüíî ïî 1000 ñòðàíèö. Êàæäàÿ ïàïêà ñîäåðæèò ðååñòð ïîäøèòûõ â
íåå äîêóìåíòîâ. Ðååñòð âûäàåòñÿ èç àâòîìàòèçèðîâàííîé ñèñòåìû
âåäåíèÿ äîêóìåíòîîáîðîòà ïðåäïðèÿòèÿ (íàïðèìåð, äëÿ áàíêà ýòî ñèñòåìà
îïåðàöèîííîãî äíÿ).
Ñäà÷à äîêóìåíòîâ â ýëåêòðîííûé àðõèâ çàêëþ÷àåòñÿ â ñêàíèðîâàíèè
áóìàæíûõ äîêóìåíòîâ, óñòàíîâëåíèè ñîîòâåòñòâèÿ îáðàçîâ ýòèõ äîêóìåíòîâ
ñòðîêàì ðååñòðà (âåðèôèêàöèÿ äîêóìåíòîâ), èíäåêñàöèè îáðàçîâ äîêóìåíòîâ
ðåêâèçèòàìè ñîîòâåòñòâóþùåé ñòðîêè ðååñòðà (èëè ââîä ðåêâèçèòîâ âðó÷íóþ)
è, íàêîíåö, ðàçìåùåíèå îáðàçîâ è èíäåêñèðóþùèõ èõ íàáîðîâ ðåêâèçèòîâ
(ïîèñêîâûõ îáðàçîâ) â ýëåêòðîííûé àðõèâ.
Большое внимание было уделено построению системы безопасности
хранения информации, защиты согласованной БД от
несанкционированного доступа. При этом используются возможности,
предоставляемые AS/400 и системой EUPHRAT, по контролю за доступом
к данным. Подробнее система организации защиты информации описана в [3].
 êà÷åñòâå ñåðâåðà ÁÄ èñïîëüçîâàëàñü AS/400, ðàáî÷èå ìåñòà
ñêàíèðîâàíèÿ, âåðèôèêàöèè, èíäåêñàöèè, ïîèñêà, àäìèíèñòðèðîâàíèÿ ñèñòåìû
è áåçîïàñíîñòè áûëè ðåàëèçîâàíû íà ÏÊ ïîä Windows NT èëè 95. Ðÿä
ñïåöèôè÷åñêèõ ôóíêöèé ìîæíî âûïîëíÿòü òîëüêî ñ êîíñîëè AS/400. Ïðè
èñïîëüçîâàíèè ñêàíåðà Kodak 500, ñêàíèðîâàíèå 5000 äîêóìåíòîâ çàíèìàåò
îêîëî îäíîãî ÷àñà. Âåðèôèêàöèÿ è èíäåêñàöèÿ âìåñòå ïðèáëèçèòåëüíî ñòîëüêî
æå âðåìåíè. Ïîèñê è îòîáðàæåíèå äîêóìåíòà òðåáóþò îêîëî ñåêóíäû.
Литература.
1. Soltis F. Inside the AS/400. //DUKE PRESS, Loveland, Colorado, 1996, 360 p.
2. А.Ливеровский. Путешествие по Евфрату, PC Week, N 8, 1997, март
-
Бардин М.Д., Емельянов А.Е., Соловьев Д.В. Защита данных в системе AS/400 с сетью персональных машин. Настоящий сборник.
Обозначения
БПиА - база паролей и авторизации на AS/400
РЖ - регистрационный журнал
РЗ - результат запроса
АИ - архив изображений
ВХИ - временное хранилище изображений
Отсутствие буквы в прямоугольнике означает программу Евфрата
Е - Евфрат, А - AS/400, К - Kodak
- база данных - файл
- особый системный объект
- магнитная лента
- бумажные документы - ввод с клавиатуры
разрешено только чтение
1 - запуск программы разрешено и чтение и запись
Рис. 1
Рабочее место сканирования
Набор пароля Client Access А 1
Проверка доступа
Запуск Kodak К
Настройка
на пачки
Сканирование К
Сохранение tif - файлов
Регистрация 2
Рис. 2
AS/400
Client Access А
1 Система паролей БПиА
и авторизации А
2 Система регистрации
событий в журнале
Е
3 Транспортировка
tif - файлов
4
Индексация И1 И2 … ИN
Скрипт
Обработка
5 запроса РЗ
6 Назначение
Адаптированный авторизационных
интерфейс-1 листов А
9
Назначение
7 групповых
пользователей А
Архив
Средства поддержания
8 и восстановления
Адаптированный Электронного Архива
10 интерфейс
Рис. 3
Рис. 4
Рабочее место Верификации и Индексации
Набор пароля Client Access 1
А
Запуск Проверка доступа Евфрат
ВЕРИФИКАЦИЯ
Настройка на пачку
БД Прием реестра
Процедура верификации
ИНДЕКСАЦИЯ
Запуск транспорта 3
tif - файлов
Генератор скриптов Скрипты
Запуск процедуры 4
индексации
Регистрация 2
Рис. 5
Рабочее место поиска
Набор пароля Client Access 1
А
Запуск Проверка доступа
Евфрат
Формирование
запроса
Запуск процедуры Текст 5
поиска запроса
Получение результата РЗ
2
Регистрация
Отображение
на экране
Печать
Рис. 6
7/11/2016 7/11/2016 Ñòð. èç
Достарыңызбен бөлісу: |