rPAS - информационно-справочная система, ориентированная на создание интеллектуального хранилища данных - средства, позволяющего минимизировать затраты на поиск и подбор данных, нужных для работы. rPAS использует различные алгоритмы самообучения для выработки стратегии размещения информации, адаптируя ее к изменяющимся потребностям пользователей В отличие от традиционных поисковых систем, идея rPAS состоит не в том, чтобы искать что-либо, а в том, чтобы нужная информация автоматически оказывалась под рукой в тот момент, когда в ней возникает необходимость. Для решения данной задачи поиск, хранениt и инструментарий работы с данными интегрированы в единый пакет программ, объединенных общим интерфейсом. | |||
|
Ссылки по теме: |
|||
|
Цель создания информационно-справочных систем - обеспечение работы с большими массивами документов, с приемлемой (оптимальной) скоростью поиска необходимой информации. Интеллектуальное хранилище, помимо традиционного поиска, обеспечивает автоматическое размещение документа в рубрикаторе и его перемещение в процессе хранения между рубриками, отражая изменяющиеся потребности пользователей системы, а также связывает его с другими документами. Кроме того, хранилище проводит анализ своего содержимого, позволяя помочь в контроле актуальности информации, и проводя прогнозирование характера информации, которая может быть востребована в дальнейшем (т.н. "упреждающее индексирование"). Жизненный цикл любого документа начинается с размещения в информационно-справочной системе. При размещении документа проводится анализ его проводится анализ его содержимого, в результате которого выделяются отличительные признаки и составляется векторное описание (например, признак - вес признака), позволяющее определить смысловое сходство документов в терминах расстояний между векторами. Множество документов может быть разбито на группы, соответствующие группам векторов, расположенных вблизи друг друга. Это позволяет составить и поддерживать автоматический рубрикатор документов. После передачи документа на хранение, начинается следующий этап жизненного цикла - работа с документом, включающая в себя его запрос пользователями из хранилища, размещение ссылок на него в индивидуальном рубрикаторе и связывание с другими документами. Это обычная деятельность пользователей любой информационно-справочной системы, которую можно охарактеризовать как упорядочение данных для оптимизации обслуживания потребности в них. Анализ запросов документов из рубрикатора позволяет определить факт сходства между некоторыми рубриками и документами в смысле предположения о сходстве документов используемых совместно (запрошенных одними и теми же пользователями, связанными между собой и т.п.). На основе этих данных корректируются правила составления векторных описаний и словари признаков, что приводит к постепенной адаптации структуры рубрикатора к некоторым усредненным потребностям пользователей. Система производит постоянный мониторинг активности пользователей, что позволяет составить и поддерживать актуальной модель интересов пользователей системы. В соответствии с этой моделью, можно предсказать потребности в размещенном документе и связать документ так же, как это сделал бы пользователь системы. Для дополнительной настройки такого самостоятельного поведения системы возможно указать необходимость выполнения определенных действий (например пересылку документа) в ответ на такие события как изменение размещения документа или его связывание. В системе могут быть инициированы различные аналитические процедуры, позволяющие на основе составляемых в процессе разбора документов словарей и рубрикатора выявлять неполноту данных в хранилище и прогнозировать возможность возникновение потребности в информации определенного рода в ближайшем будущем. Результаты могут доводится до сведения заинтересованных пользователей или использоваться самой системой для получения дополнительной информации из внешних источников. Для создания такой информационно-справочной системы потребовалась разработка специального объектно-ориентированного сервера приложений rPAS. rPAS имеет клиент-северную архитектуру, в которой сервер обеспечивает хранение и обработку документов, а клиентские приложения предоставляют интерфейс операторам или служат коннекторами к другими внешним источникам или потребителям данных. Документы хранятся в виде объектов, каждый из которых может предоставлять один или более интерфейсов. Интерфейс является унифицированным, независимым от типа, способом работы с объектом, известном клиентским приложениям. Это позволяет исключить перепрограммирование клиентских приложений до тех пор, пока для работы с объектами новых типов достаточно уже существующих интерфейсов, поэтому в rPAS возможно создание клиентских приложений для конечного пользователя с достаточно сложным интерфейсом без особых опасений о совместимости с будущими версиями объектной модели. Клиент-серверное взаимодействие может осуществляться посредством различных протоколов, основным из которых является семейство протоколов CORBA. В настоящее время закончена разработка первой версии rPAS, включающей в себя сервер, простую объектную модель, ориентированную на хранение и редактирование документов, браузер хранимых объектов, коннектор к почтовой службе и некоторым другим источникам данных. Независимо от целей его создания, в текущем состоянии rPAS может применяться как простая, объектно-ориентированная клиент-серверная среда. Это позволило начать работы по реализации алгоритмов, обеспечивающих использование rPAS в качестве информационно-справочной системы. Работы находятся в различной степени завершенности и направлены на решение простой тестовой задачи: создание настраиваемого классификатора входного потока документов, полученных, например, просмотром новостных лент или электронной почты. Хотя работы над основными алгоритмами находятся в начальной стадии, существующий каркас и их упрощенные версии позволил провести тестовую эксплуатацию rPAS для разбора входного потока почты и новостей, что показало принципиальную правильность выбора архитектуры. |
|||