Выявление закономерностей и анализ статистики посещений веб-узлов
Интегрированное выявление закономерностей является новым средством сервера SQL Server2000, которое в составе служб анализа данных включено в выпуски Enterprise Edition, Standard Edition, Personal Edition, Developer Edition и Enterprise Evaluation Edition. Технология выявления закономерностей помогает пользователям анализировать данные в реляционных базах данных и многомерных кубах OLAP для обнаружения закономерностей и структур, которые могут быть полезны для прогнозирования. Компоненты для выявления закономерностей в сервере SQL Server 2000 тесно интегрированы с источниками реляционных данных и данных OLAP. Фактически результаты выявления закономерностей могут использоваться при создании дополнительных измерений куба для последующего анализа данных OLAP. Их можно использовать в реляционных базах данных с помощью простого выполнения запросов SQL. Средства выявления закономерностей, включенные в службы анализа данных сервера SQL Server 2000, вошли в открытую и расширяемую реализацию новой спецификации OLE DB для выявления закономерностей.
Сервер SQL Server 2000 включает в себя два класса алгоритмов выявления закономерностей, разработанные группой Microsoft Research: Microsoft Decision Trees (деревья решений) и Microsoft Clustering (кластеризация). Алгоритм Microsoft Decision Trees в действительности состоит из четырех различных алгоритмов и основан на понятии классификации. Алгоритм строит дерево, прогнозирующее значения столбцов на основании других столбцов обучающего набора (т.е. таблицы фактов). Решение о размещении каждого узла в дереве принимается алгоритмом, а наиболее значимые и определяющие различие атрибуты отображаются ближе к корню дерева решений. Реализация алгоритма Microsoft Decision Trees может использоваться для определения тех посетителей веб-узла, кто вероятнее всего щелкнет конкретный рекламный заголовок или купит конкретный продукт на коммерческом веб-узле. Алгоритм Microsoft Clustering использует метод ближайшего соседа для группировки записей в кластеры, проявляющие некоторые подобные, предсказуемые характеристики. Часто эти характеристики могут быть скрыты или неясны. Например, алгоритм Microsoft Clustering может использоваться для оценки зависимости потребительского спроса от возраста. Разумеется, интегрированное выявление закономерностей в сервере SQL Server 2000 поддерживает алгоритмы, разработанные сторонними производителями.
Поддержка выявления закономерностей пронизывает службы анализа данных и другие компоненты сервера SQL Server 2000. Для упрощения разработки, создания, изучения и использования моделей выявления закономерностей предусмотрены новые мастеры, редакторы и другие элементы пользовательского интерфейса. Результаты выявления закономерностей могут быть включены в кубы OLAP, а для упрощения программного управления моделями выявления закономерностей, связанными с этими кубами, в сервере SQL Server 2000 был расширен синтаксис MDX.
Рис. 3. Редактор Data Mining Model Editor отображает результаты анализа закономерностей (здесь применяется алгоритм дерева решений, разработанный корпорацией Майкрософт)
Интегрированная технология выявления закономерностей (технология «информационной проходки») – ключевой элемент в стратегии корпорации Майкрософт, направленной на создание средств анализа статистики посещений веб-узлов. Они предназначены для работы в итеративном цикле, включающем следующие операции:
1. Сбор информации о работе пользователей при просмотре страниц того или иного веб-узла и при поиске по нему.
2. Анализ этой информации, позволяющий выявить закономерности и подготовить соответствующие прогнозы (с использованием технологии информационной проходки).
3. Индивидуализированный подбор рекламы и веб-ресурсов для посетителей веб-узла, осуществляемый на основе такого анализа (например, показ баннеров для тех продуктов, которыми может заинтересоваться конкретный покупатель).
4. Принятие решений о перенастройке действующих систем на основе данных, накопленных с использованием операций OLAP.
В идеальном случае такой процесс идет на веб-узлах электронной коммерции непрерывно, что позволяет максимально учитывать интересы покупателей и дает возможность этим узлам выгодно отличаться от своих конкурентов. Интеграция с сервером Commerce Server 2000 упрощает сбор сведений о перемещении пользователей по веб-узлу, данных о покупках и других торговых операциях, прочей информации об их действиях – в результате у менеджеров возникает целостное представление о работе веб-узла. Как следствие, у них появляется возможность изменять или создавать новые маркетинговые программы, проводить рекламные кампании, а также осуществлять коммерческое планирование и поддерживать личные настройки пользователей веб-узла. Собранные сведения также можно использовать в системах планирования ресурсов предприятия (ERP) и управления связями с потребителями (CRM), что позволяет регулировать поставки в зависимости от потребностей покупателей.