○ ранее неизвестных;
○ нетривиальных;
○ практически полезных;
○ доступных интерпретации
знаний, используемых для принятия решений в различных сферах человеческой деятельности [17].
При разработке методов Data Mining ставилась цель создать простой и понятный инструмент, дающий конкретные и понятные результаты. Классификация программных систем Data Mining по используемым в них методам приводится, например, в [17]. В этой же работе описываются некоторые применения перечисленных методов.
1. Статистические пакеты, поддерживающие в основном такие классические методики, как
○ корреляционный анализ;
○ регрессионный анализ;
○ факторный анализ;
○ дискриминантный анализ (п. 5.1).
Обычно в состав пакетов включается ряд методов анализа данных, используемых в маркетинговых исследованиях:
○ многомерное шкалирование;
○ расчет характеристик тестов;
○ средства работы с причинными моделями (п.3.2) и т.д.
Использование статистических пакетов требует достаточно высокого уровня подготовки пользователя.
2. Нейронные сети, рассмотренные в п. 5.4.
3. Рассуждения на основе аналогичных случаев, обсуждаемые в п. 5.2.
4. Деревья классификации (п. 5.3).
5. Эволюционное программирование, используемое, например, для поиска оптимальных деревьев классификации или оптимальных конфигураций нейронных сетей (пп. 5.3 и 5.4), имеет и некоторые другие специальные применения.
6. Генетические алгоритмы, используемые для быстрого поиска глобального экстремума функции.
7. Алгоритмы ограниченного перебора, предназначенные для поиска логических закономерностей в данных путем вычисления частоты появления комбинаций простых логических событий типа X>a, X=b, где X – параметр, a,b – константы. По этим частотам определяется полезность описания логических события для классификации или прогнозирования.
8. Предметно-ориентированные программные системы, например, системы технического анализа финансовых рынков. Предоставляя пользователю десятки методов прогноза, такие системы учитывают специфику предметной области.
Метод предназначен для определения различий между группами объектов. Он полезен при определении того, как зависит поведение потребителей от рекламы, как переменные, характеризующие личность, влияют на решение о покупке. Метод очень полезен при сегментировании рынка. Обычно для сегментирования берутся демографические характеристики: возраст, доход, образование. Скорее всего, эти характеристики взаимосвязаны. Для сегментирования рынка следует знать, связаны ли эти переменные между собой, каково их суммарное влияние, какая из переменных важнее. Поэтому все эти переменные следует рассматривать совместно.
Каждый объект описывается набором признаков, из которых один является следствием (зависимая переменная) а остальные – причинами (независимые переменные).
Зависимая переменная измерена в номинальной шкале, то есть определяет принадлежность определенной группе. Если она измерена в других шкалах, то измерения можно «загрубить», например, вместо цены, измеренной в рублях, использовать категории низкая и высокая цена[53].
Примерами групп могут являться:
○ покупающие тот или иной продукт в малых и больших количествах;
○ покупатели различных марок продукта;
○ люди различных профессий;
○ перспективные и неперспективные бизнес-проекты;
○ ситуации, для которых принимаются те или иные решения.
Независимые переменные измеряются в интервальных или относительных шкалах. Если шкала измерения порядковая, например, квалификация продавца оценивается как высшая, средняя и низкая, то делается допущение об интервальном характере такой шкалы, например, она переводится в балльную (соответственно 3, 2, 1) и считается, что разница между высшей и средней квалификацией такая же, как и между средней и никой, а разница между низкой и высшей в два раза больше, чем между низкой и средней.
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.