|
Цель создания информационно-справочных систем - обеспечение работы с
большими массивами документов, с приемлемой (оптимальной) скоростью
поиска необходимой информации. Интеллектуальное хранилище, помимо традиционного поиска,
обеспечивает автоматическое размещение документа в рубрикаторе и его
перемещение в процессе хранения между рубриками, отражая
изменяющиеся потребности пользователей системы, а также связывает
его с другими документами. Кроме того, хранилище проводит анализ
своего содержимого, позволяя помочь в контроле актуальности
информации, и проводя прогнозирование характера информации, которая
может быть востребована в дальнейшем (т.н. "упреждающее
индексирование").
Жизненный цикл любого документа начинается с размещения в
информационно-справочной системе. При размещении документа
проводится анализ его проводится анализ его содержимого, в
результате которого выделяются отличительные признаки и составляется
векторное описание (например, признак - вес признака), позволяющее
определить смысловое сходство документов в терминах расстояний между
векторами. Множество документов может быть разбито на группы,
соответствующие группам векторов, расположенных вблизи друг друга.
Это позволяет составить и поддерживать автоматический рубрикатор
документов.
После передачи документа на хранение, начинается следующий этап
жизненного цикла - работа с документом, включающая в себя его запрос
пользователями из хранилища, размещение ссылок на него в
индивидуальном рубрикаторе и связывание с другими документами. Это
обычная деятельность пользователей любой информационно-справочной
системы, которую можно охарактеризовать как упорядочение данных для
оптимизации обслуживания потребности в них.
Анализ запросов документов из рубрикатора позволяет определить факт
сходства между некоторыми рубриками и документами в смысле
предположения о сходстве документов используемых совместно
(запрошенных одними и теми же пользователями, связанными между собой
и т.п.). На основе этих данных корректируются правила составления
векторных описаний и словари признаков, что приводит к постепенной
адаптации структуры рубрикатора к некоторым усредненным потребностям
пользователей.
Система производит постоянный мониторинг активности
пользователей, что позволяет составить и поддерживать актуальной
модель интересов пользователей системы. В соответствии с этой
моделью, можно предсказать потребности в размещенном документе и
связать документ так же, как это сделал бы пользователь системы. Для
дополнительной настройки такого самостоятельного поведения системы
возможно указать необходимость выполнения определенных действий
(например пересылку документа) в ответ на такие события как
изменение размещения документа или его связывание.
В системе могут быть инициированы различные аналитические процедуры,
позволяющие на основе составляемых в процессе разбора документов
словарей и рубрикатора выявлять неполноту данных в хранилище и
прогнозировать возможность возникновение потребности в информации
определенного рода в ближайшем будущем. Результаты могут доводится
до сведения заинтересованных пользователей или использоваться самой
системой для получения дополнительной информации из внешних
источников.
Для создания такой информационно-справочной системы потребовалась
разработка специального объектно-ориентированного сервера приложений
rPAS. rPAS имеет клиент-северную архитектуру, в которой сервер
обеспечивает хранение и обработку документов, а клиентские
приложения предоставляют интерфейс операторам или служат
коннекторами к другими внешним источникам или потребителям данных.
Документы хранятся в виде объектов, каждый из которых может
предоставлять один или более интерфейсов. Интерфейс является
унифицированным, независимым от типа, способом работы с объектом,
известном клиентским приложениям. Это позволяет исключить
перепрограммирование клиентских приложений до тех пор, пока для
работы с объектами новых типов достаточно уже существующих
интерфейсов, поэтому в rPAS возможно создание клиентских приложений
для конечного пользователя с достаточно сложным интерфейсом без
особых опасений о совместимости с будущими версиями объектной
модели. Клиент-серверное взаимодействие может осуществляться
посредством различных протоколов, основным из которых является
семейство протоколов CORBA.
В настоящее время закончена разработка первой версии rPAS,
включающей в себя сервер, простую объектную модель, ориентированную
на хранение и редактирование документов, браузер хранимых объектов,
коннектор к почтовой службе и некоторым другим источникам данных.
Независимо от целей его создания, в текущем состоянии rPAS может
применяться как простая, объектно-ориентированная клиент-серверная
среда.
Это позволило начать работы по реализации алгоритмов, обеспечивающих
использование rPAS в качестве информационно-справочной системы.
Работы находятся в различной степени завершенности и направлены на
решение простой тестовой задачи: создание настраиваемого
классификатора входного потока документов, полученных, например,
просмотром новостных лент или электронной почты. Хотя работы над
основными алгоритмами находятся в начальной стадии, существующий
каркас и их упрощенные версии позволил провести тестовую
эксплуатацию rPAS для разбора входного потока почты и новостей, что
показало принципиальную правильность выбора архитектуры.
|