|
Введение
Современное развитие сети Интернет определяется рядом парадоксов, возникших из-за неравномерного развития технологий производства и потребления информации. Их разрешение осуществляется преимущественно на социальном уровне, что приводит к созданию излишнего ажиотажа вокруг информационных ресурсов и порождает иллюзию быстрого достижения целей. Хотя такое состояние дает прекрасную среду для развития собственных бизнес-процессов сети Интернет, интеграция сети в общечеловеческую культуру все более и более затрудняется.
Легкость автоматизации процесса создания информационного потока порождает первый парадокс: рано или поздно, современные высокотехнологичные средства производства и распространения информации вынуждены включать в себя плохомаштабируюмую, не технологичную и мало отлаженную деталь - личность. Это вызывает проблемы практически во всех разновидностях Интернет-служб: новостных ресурсах, предоставляющих массу своевременной информации в потоке которой тонут факты, реально представляющие интерес для конкретного потребителя; эхо-конференциях и досках объявлений, которые даже при условии модерирования часто представляют собой свалку бесполезной информации; глобальные порталы, посвященные всему на свете и чаты, забитые перепиской роботов. Проблема каждый раз одна: широкий диапазон автоматизированных средств публикации информации против необходимости индивидуальной работы с ней в процессе принятия решения.
Анонимность пользователя сети против необходимости оказания персонализированных услуг - второй парадокс. Причем разрешение его на социальном уровне кажется невозможным, ибо при потреблении многих услуг Интернет привлекателен прежде всего анонимностью, а работа служб, связанных с их оказанием (новостных, рекламных, консалтинговых и др.) требует идентификации потребителя. Борьба на этом направлении происходит с переменным успехом: заходящие слишком далеко в идентификации информационные ресурсы подвергаются бойкоту со стороны пользователей, в то же время пользователи тратят время и деньги на просмотр и загрузку баннеров, рекламирующих совершенно не нужные именно им ресурсы, - обе стороны несут ощутимые потери.
Третий парадокс - индивидуальность пользователей Интернет против необходимости принимать решения в широком диапазоне предметных областей. Потребителю информационных услуг предоставляется вся необходимая информация для индивидуального принятия решения, но зачастую ее восприятие невозможно, т.к. пользователь не является специалистом в данной предметной области. На пользователя обрушивается поток рекламы различных услуг, многие из которых ничем не отличаются от десятков других и каждая из которых является "лучшей". Несмотря на возможность получения исчерпывающей технической информации, для среднего потребителя принимающего разовое решение совокупность Интернет-магазинов больше похожа на всемирный супермаркет по продаже товара под названием "Кот-В-Мешке". Разумеется, потратив n человеко-дней пользователь способен обучится и разобраться в технических характеристиках предлагаемого товара, но труд и принятое им решение будут безвозвратно утеряны для Интернет-сообщества: другой пользователь, столкнувшейся с подобной проблемой будет начинать процедуру принятия решения с начала.
Описанные парадоксы известны не один десяток лет, и еще на заре компьютерных технологий было предложено решение, описываемое словами "искусственный интеллект". По ряду социальных причин, средства искусственного интеллекта в чистом виде (как системы автоматизированного принятия решений и базы знаний) скорее создают проблемы, чем решают их: когнитивная школа предполагает использование высококвалифицированного и дорогостоящего персонала (т.н. инженеров и экспертов по знаниям) для настройки систем, в то же время люди не слишком доверяют экспернтым системам - и задача остается не решенной. Отличительной особенностью требуемой системы является возможность самообучения и автоматического извлечения знаний из данных - статистики работы и взаимодействия пользователей сети. Такое решение, известно дольше, чем само понятие искусственного интеллекта - нейросети и нейротехнологий. В последующих разделах мы попытаемся формализовать три парадокса в терминах нейротехнологий и показать принципиальную возможность их решения.
Автоматизация потребления больших информационных потоков
Каждому пользователю сети приходится иметь дело с таким объемом динамично изменяющейся информации, что ее адекватное восприятие находится на пределе человеческих возможностей: мониторинг любой области интересов требует ежедневного анализа десятков страниц текстографической информации. Современные многоцелевые поисковые системы решают часть проблемы, давая инструмент пригодный для разового исследования материалов сети, но не для постоянной работы. Такой инструмент для работы с большими массивами текстовой информации становится универсальным решением и находит применение уже и в офисных приложениях ( Excalibur Technologies ), при создании средств предоставления доступа к внутрикорпоративныму документообороту.
Последнее время ряд служб предлагает и другую услугу - ведение тематических каталогов ссылок, поверх которых иногда предлагается использование т.н. "пользовательских агентов" - программ, выполняющих какие-либо действия (например - отправку сообщений на почтовый ящик пользователя) при выполнении определенных условий (таких как появление нового материала в разделе каталога). Но в отличие от поисковых систем, подавляющие большинство каталогов - от www.rambler.ru до MavicaNET - ведутся добровольцами или заинтересованными лицами, представляя собой решение скорее социальное, чем технологическое.
Помимо работы с текстовыми архивами существует другая, значительно менее автоматизированная, задача - обработка (фильтрация) текстовых сообщений: почтовых (автоматический разбор общего почтового ящика корпорации, фильтрация спама), новостных (раскладка по новостным лентам) или сообщений на досках объявлений (модерирование и поиск). Являясь основным фактором, порождающим проблему, Интернет не предлагает средств ее решения: в лучшем случае, существуют редуцированные средства полнотекстового поиска и подписка на выборки сообщений, сделанные экспертами - также добровольцами или заинтересоваными лицами.
Сходные задачи возникают при создании и поддержке ресурсов - от вышеупомянутого модерирования конференций до собственно создания информационного наполнения - разметка текста гиперссылками, поясняющими текст, поиск ресурсов сходной тематики, целевая реклама (появляющаяся как пояснение к тексту) и подобные приложения.
Сегодня существуют технологии решения этих задач, созданы готовые пакеты на их основе и ведутся проекты, широко известные (к сожалению) лишь среди узкого круга специалистов. Подавляющие большинство поисковых алгоритмов основано на т.н. "Векторной модели текста", предложенной Салтоном в 1975 году. Ее суть сводится к представлению текста гистограммой наблюдаемых признаков - например, вектором частот ключевых слов. Запрос к поисковой системе представляется в векторном виде аналогичным способом, затем отыскивается ближайший к нему вектор, что и решает задачу поиска. Но такое использование векторной модели реализует лишь часть ее возможностей: задание над множеством текстов отношения сходства дает значительно более мощный инструмент, который особенно хорошо применим в рамках парадигмы нейронных сетей. Так, задача каталогизации интернет-ресурсов по их содержимому - тексту на естественном языке - может быть сведена к обучению самоорганизующейся карты признаков (карты признаков Кохонена). Карта Кохонена представляет собой эффективную проекцию облака векторов в пространстве высокой размерности на плоскость, с сохранением отношения соседства (т.н. "выделение главных компонент распределения"). Такая карта визуализирует распределение векторов в пространстве, давая возможность оценить их относительное расположение. Это решение используется в проекте Тойво Кохонена WEBSOM : точкам самоорганизующейся карты ставятся в соответствие тексты сообщений из нъюс-групп, причем сходные по смыслу тексты отображаются в расположенные рядом точки. Места наиболее плотного скопления точек выделены градациями яркости и размечены ключевыми словами, поясняющими смысл скопления. Для интересующих пользователя участков карты возможна детализация, вплоть до уровня самих текстов, что при некотором навыке позволяет легко найти тексты интересующей тематики. Существует аналогичный (в смысле используемой парадигмы) российский проект - NeurOK
Фильтрация сообщений предполагает более сложную задачу - отображение, например, отображение множества новостей на множество новостных лент. Здесь можно применить сеть, которая обучается на примерах такого отображения (как правило достаточно хорошие результаты получаются при помощи сетей радиального базиса или многослойных перцептронов). Существует не один десяток реализаций, которые показывают устойчивый результат - качество классификации 80-85% по критериям точности и полноты (см. напр. Mannien ). Мой собственный опыт на сортировке сообщений в иерархии fido7 показывает, что нет практической необходимости заставлять пользователя размещать сообщение в ту или иную ньюс-группу - сеть способна сама принять правильное решение. Отсюда следует возможность полного пересмотра технологии электронных конференций: вместо размещения статей в тематических слотах информационной службы, сообщения размещаются по ящикам пользователей, заинтересованных в их получении - проблемы современных дискуссионных групп, такие как спам, отклонение от тематики, оскорбления и т.п. отпадают сами собой. Анализ текстов сообщений дискуссионных групп приводит к решению и другой задачи - составлению FAQ (списка часто задаваемых вопросов и ответов) и переадресацию на архив конференции пользователей, пытающихся поднять давно закрытую для обсуждения тему.
Помимо классификации интернет-ресурсов возможна и другая постановка задачи: классификация пользователей сети. Математическая модель та же самая - векторное описание пользователя (как правило, гистограмма событий его активности). Помимо идентификации пользователя (о чем будет подробно рассказано в следующем разделе), к решению этой задачи сводится труд модераторов чатов и эхоконференций (господа такой-то и сякой-то, не лучше ли вам уйти в нетмыл? © Fido7). Анализируя события чата или эхоконференции (письма, сообщения и ответы на них) возможно построение системы, поддерживающей в одном чате (конференции) не более одной-двух тем обсуждения и не более 7-12 пользователей, что создает идеальные условия для ведения плодотворной дискуссии.
Персонализация интерфейсов для анонимных пользователей
Интернет притягателен для потребителя. Притягателен настолько, что ряд психиаторов ( Center for On-Line Addiction ), говорят о формировании синдрома психологической зависимости от Интернет. Притягателен возможностью получения услуг, в оффлайновой жизни совершенно недоступных. И это не только пресловутый киберсекс, детская порнография и горячие новости - это еще и легкость межличностных контактов, отсутствие посторонних взглядов, возможность высказать свое мнение. В краткой формулировке, притягательность Интернет заключается в психологической простоте достижения социальных целей. Можно предположить, что одной из базовых причин этого является анонимность пользователей, и возможно именно поэтому любые попытки ограничить анонимность натыкаются на жесткое сопротивление со стороны пользователей Интернет, выражающееся в создании анонимных серверов ( Anonymizer ), в проектах, типа The Freenet Project , во внедрении протоколов шифрования на всех уровнях протоколов OSI, бойкоте ресурсов, разрушающих анонимность и даже в деятельности правозащитных организаций. Вполне возможно, что создание абсолютного поискового средства (средства, позволяющего любому найти точно то, что ему нужно или получить достоверный ответ об отсутствии искомого, за время, близкое к нулю) уничтожит Интернет как социальное явление, превратив его в пыльное хранилище информации.
Интернет притягателен для поставщика услуг. Притягателен настолько, что Интернет объявляется приоритетной зоной экономических интересов. Притягателен из-за того, что позволяет найти и предложить свои услуги всем тем и только тем, кто в них заинтересован. Именно поэтому, наиболее полезным свойством Интернет-ресурсов считается возможность персонализации интерфейсов. Настолько полезным, что такие компании, как Amazon.Com заявляют о персонализации интерфейса как об основном направлении развития своего Интернет-ресурса. Но возможность персонализации требует идентификации пользователя, которая входит в явное противоречие со стремлением потребителя к анонимности.
Таким образом, нужно найти средство персонального оповещения потребителя, не нарушающее его анонимность. Возможный подход к решению основан на изменении цели аутентификации. До сих пор, под аутентификацией понималось средство однозначного установления личности потребителя, с которой связывается статистика интересов, и на ее основании осуществляется целевая реклама и настройка интерфейса. Если изъять из этой цепочки среднее звено - личность пользователя - то получается схема, устраивающая обе стороны: предоставление услуг на основе идентификация интересов пользователей. Но возможно ли это? Да, возможно: уже давно (хотя и в совсем других областях) используется идентификация пользователей на основе их поведения (вплоть до статистики промежутков между нажатиями на клавиши). Сейчас созданы и реально эксплуатируются продукты, идентифицирующие пользователя по его работе с Интернет-ресурсами (например, Falcon - нейросетевой продукт, используемый для идентификации пользователя кредитной карты). Причем, от статистики работы до статистики интересов куда более близкий путь, чем до идентификации личности пользователя. Поисковые сервера уже предлагают такие услуги, как целевая реклама в ответ на запрос (явное связывание действия со спектром интересов), но это еще не идентификация интересов - это всего-лишь идентификация запросов и различие между ними примерно такое же, как между словом и смыслом слова.
Использование методов, описанных в предыдущей главе, позволяет составлять карты интересов пользователей на основе статистики их работы с Интернет-ресурсами: по векторному представлению гистограмм обращений пользователей к тем или иным ресурсам. Такая карта дает хорошее представление о возможных интересах, позволяя предложить пользователю набор услуг, которые обычно запрашивают потребители со сходным спектром интересов. Для реализации такого персонализированного предложения услуг существует несколько путей. Наиболее простой вариант - статический - разместить на страницах интернет-ресурса не только те ссылки, которые следуют из его содержания, но и те ссылки, которые следуют из статистики работы пользователей с ними. Это сильно напоминает баннерные сети, но имеет существенное отличие: если технология баннерных сетей напоминает ловлю львов методом Монте-Карло (летаем над Африкой на вертолете, случайным образом разбрасывая клетки), то такой метод скорее сходен с рытьем ямы на тропинке к водопою: мы всего лишь лучшим образом интегрируем ресурс с остальной сетью. Сегодня баннерные сети уже предлагают сходные услуги, но интересы определяются субъективно - экспертная оценка содержания страниц, а не объективно - по аудитории ресурса. Статический вариант предполагает учет только последнего события для идентификации интересов - посещения конкретной страницы и строго говоря, является примером не персонализации ресурса, а автоматической интеграции с другими ресурсами сети. Более сложный вариант - архив интересов (векторов гистограмм) и отображение интересов на услуги (классическая нейросетевая задача) - дает уже полностью персонализированный Интернет-ресурс.
Повторное использование и тиражирование решений
Пользователи Интернет принимают решения. Решения о выборе товара в Интернет-магазине, решения о подборе материалов для научной работы, решения о поиске партнеров и об интеграции с другими Интернет-ресурсами - и подавляющее большинство этих решений остаются безвозвратно потерянными. Анонимность и индивидуальность пользователей Интернет имеет свои плюсы: никто не мешает им воспользоваться интересующими услугами - ни власти, ни общественное мнение, ни нескромные взгляды соседей. Эти достоинства обращаются в минус, когда получив интересующие услуги пользователь исчерпывает спектр своих интересов. В реальной жизни именно благодаря межличностному общению потребители узнают о других услугах, которые могут их заинтересовать, но Интернет-технологии предусматривают единственный способ расширения круга интересов - реклама и постоянный поиск.
Но, какие бы продвинутые технологии ни закладывались в рекламу, пользователь вряд ли будет ей доверять. И какие бы поисковые системы, анализирующие информационное наполнение не строились, пользователь не сможет обнаружить ресурсы, решающие интересующие его проблемы принципиально новым способом. То, чего мы практически лишены в Интернет - это возможность использования чужого опыта, возможность бросить взгляд на соседа и "просто сделать тоже самое".
Проблема частично решается новостными и экспертными службами, но отлаженная система распространения информации и целевая реклама, необходимость которых показана в предыдущих разделах, поставит фильтр, который отбросит все новости как "неинтересные данному пользователю" - причем, независимо от того, каким способом такая система будет построена. Проблема частично решается рейтинговыми службами, каталогами, рейтингом товаров и статей на интернет-ресурсах - но в подавляющем большинстве случаев эта статистика не персонализована и не наполнена смыслом: мы знаем, что пользователи покупают товар "А" чаще, чем товар "Б" - но не знаем, зачем они это делают и для решения каких именно проблем его используют.
Между тем, уже по крайней мере год, в сети есть ресурсы, предоставляющие решение, формулируемое статистикой вида: "пользователи делающие это, также делают и это" - например, "пользователи, покупающие диск Sister Machine Gun также покупают диски ..." (www.cdnow.com), "пользователи, посещающие www.linux.org, также посещают www.kde.org " ( Alexa Internet ). Как нетрудно видеть, это конечный вариант персонализации интернет-ресурсов на основе интересов пользователей, приводящий к составлению каталогов услуг основанных не на их содержании, а на использовании одними и теми же людьми. И вполне возможно, что такой каталог значительно более ценен: ибо, что бы ни было написано в рекламе, пользователь-гуманитарий скорее всего не станет читать статью по интересующей его тематике, если узнает что эту статью читают только специалисты в области физики высоких энергий, а сертифицированный специалист Микрософт по безопасности информационных ресурсов вряд ли найдет много полезного в статье "Безопасность в Интернет", которую читают исключительно "руты" - администраторы ОС Unix.
Я не знаю, как реализована статистика на www.cdnow.com и им подобных ресурсах, я по-видимому знаю, как реализован каталог Alexa Internet и во всяком случае, я знаю как это может и должно быть реализовано. В простейшем случае, строится статистика заказов в виде корреляционной матрицы - квадратной матрицы, столбцам и строкам которой поставлены в соответствие факты покупки того или иного товара, а вероятности совместного появления товара в одном заказе записываются в ячейки на пересечении соответствующих строк и столбцов. Тогда по текущей корзине пользователя (или любому товару) умножением вектора на матрицу легко может быть получен вектор вероятностей появления всех остальных товаров в корзине. Этот простейший случай - линейная нейросеть - обладает множеством недостатков, но легко отображается на SQL-базы, решает в первом приближении задачу и может быть реализован единственным запросом SELECT по крайней мере в MySQL, PostgreSQL и Oracle.
Дальнейшее развитие алгоритма может использовать либо переход к многоуровневым нелинейным нейросетям, обучаемым делать отображение от неполной корзины (или единственного товара) к полной, с возможным разложением товара на набор признаков (цена, функциональные или эстетические особенности) или анализом корреляционной матрицы с использованием Latent Semantic Analysis или самоорганизующихся карт признаков. Что бы не вдаваться в математические подробности алгоритмов, просто заметим, что первый случай предполагает обучение нейросети принятию таких же решений, которые принимает большинство пользователей, тогда как второй дает возможность представления абстрагированной от конкретной задачи статистики покупок в терминах сходства по признаку совместной покупки.
Другой подход к повторному использованию пользовательских решений
предполагает анализ траффика нъюс-групп и других дискуссионных ресурсов,
с выявлением часто задаваемых вопросов и формированию по ним FAQ и
HOWTO. Давно известно, что лучший алгоритм поиска материалов по
динамично развивающимся предметным областям состоит в следующем:
- Найти нъюс-группу близкой тематики;
- Найти FAQ этой группы;
- Найти в FAQ интересующие вопросы;
- Посмотреть ссылки, перечисленные в FAQ;
Этот алгоритм в течении 2-3 часов обеспечивает материалами на первые один-два месяца работы, а ознакомившись с ними пользователь становится в достаточной степени специалистом в данной предметной области, чтобы искать материалы посредством поисковых серверов.
Такая работа с информационными ресурсами требует определенной дисциплины от субъектов ньюс-групп, и приведенный метод применим далеко не всегда, но используя нейротехнологии легко автоматизировать процесс выявления часто задаваемых вопросов, тредов обсуждения, поступление новых материалов по ранее выявленным вопросам и тому подобные процессы: возможна разработка принципиально новой технологии ведения интернет-дискуссий, во многом основанной на автоматизации процессов обсуждения.
Заключение
Проведенный краткий обзор проблем современного Интернет и возможностей применения нейросетей для их решения предполагает дальнейшее развитие Интернет как гибкой самообучающейся среды, ресурсы которой способны при минимальном вмешательстве со стороны операторов интегрироваться между собой в единую систему, ориентированную не столько на предоставление пользователям информационных услуг, сколько на создание абстрактного промежуточного звена обмена знаниями между пользователями. Эта среда включает в себя средства автоматического создания связей (гиперссылок) между ресурсами, предоставляющими дополняющие друг друга услуги, средства выявления областей интересов субъектов сети и ассоциирование с ними предоставляемых информационных услуг, средства выявления и тиражирования решений, предпринимаемых пользователями при работе с сетью и средства обеспечения анонимной коммуникации между потребителями и поставщиками различного рода услуг. Такая среда будет предоставлять не столько средства для публикации и доступа к данным, сколько средства совместной работы с данными, обеспечивая возможность создания основного объекта покупки и продажи современного Интернет - сообществ пользователей со сходными областями интересов.
Вновь создаваемая технология должна превратить Интернет из хранилища данных в фабрику знаний, что является закономерным этапом дальнейшего развития технологии распределенной работы с информацией. Рассмотренные возможности применения нейротехнологий в Интернет ориентированы не на создание универсальных продуктов, подобных продуктам NeurOK , а на широкое использование переносимых решений, предполагающих изменение технологии работы пользователей с Интернет-ресурсами. Пользователи - потребители и поставщики информационных услуг - должны получить инструмент, предоставляющий доступ к результатам постоянного и незаметного извлечения знаний из данных - статистики работы с Интернет-ресурсами и их информационного наполнения.
Такое изменение спектра целей сети Интернет может произойти только при условии изменения ряда технологий предоставления информационных услуг, прежде всего в области межличностного обмена - форумов, чатов, досок объявлений, электронных магазинов и новостных служб. Требуемое изменение технологии состоит в изменение спектра функциональных возможностей соответствующих Интернет-ресурсов с предоставления услуг конкретным личностям (идентифицируемых процедурой аутентификации, точкой доступа или адресом доставки корреспонденции) на предоставление услуг устойчивым совокупностям интересов пользователей, идентифицируемых по статистике работы пользователей с Интернет-ресурсами. Эта перестройка технологий совпадает с интересами потребителей и поставщиков информационных услуг и обеспечена уже существующими алгоритмическими решениями.
|