В статье пойдет речь о Data Mining и его использовании с Microsoft SOL Server 2008 R2.
Для начала давайте поговорим, что такое Data Mining и какие задачи он решает, после чего перейдем к собственно демонстрации работы этого инструмента в Microsoft SQL Server.
В моих статьях посвященных Data Mining вы найдете только моменты связанными с тем, как Data Mining решает бизнес проблемы, да мы будем немного говорить о "вакууме" но только для целей более глубокого понимания.

Давайте приступим! Data Mining один из инструментов BI (Business Intelligence) наряду с Analysis Services(AS), Integration Services(IS) и Reporting Services(RS). Хотя его и не выделяют в якобы отдельный инструмент и часто используют как часть AS. Data Mining (Добыча данных) - позволяет нам найти некие скрытые шаблоны, зависимости в данных, которые не так просто заметны человеку, автоматически или полуавтоматически. Я возьму свой любимый пример для простейшей демонстрации данного определения. Представьте себе, что у вас есть набор данных, например о продажах автомобилей.
Вы знаете пол покупателей, возраст, количество детей, семейное положение и т.д. Допустим мы хотим получить аналитики о том, какого возраста люди покупают машины чаще в более зрелом или более молодом (При других имеющихся данных). Для этого, в обычном случае вам необходимо описать запросы, которые охватывают разного рода данные описывающие все возможные варианты влияния на продажи автомобиля для разных возрастных групп. Поверьте, их будет ну очень много. С инструментами Data Mining все выглядит куда веселей. Вам достаточно выбрать соответствующий алгоритм анализа (о них далее), выбрать колонки, которые должны участвовать в анализе (якобы влияющие на результат) и предсказуемые колонки (которые являются целью анализа). В нашем случае мы выберем колонки Возраст, количество детей, семейное положение как входящие колонки, а колонку Купил или нет? как предсказываемую. И данный алгоритм поможет отследить внутри этих данных скрытые зависимости или последовательность для обеспечения более эффективного принятия решения.
Этот пример демонстрирует простой, но уже далеко не "сферический" метод применения данного метода анализа.
Data Mining позволяет компаниям любого размера получить преимущества в реализации их бизнес целей. Какие бизнес проблемы может помочь решить Data Mining:
Управление рисками
Один из самых распространенных процессов в банковской сфере. Может использоваться для измерения уровня клиентских рисков.
Сегментация рынка, клиентов. Можно использовать Data Mining для задач разделения ваших данных о рынке(пользователях), что бы можно было принять правильное решение в маркетинговой стратегии или стратегии продаж.
Прогнозирование продаж
Другие(Churn analysis, кросс продажи)
Ну, реально задач намного больше. В принципе базируясь на природе проблемы можно разделить их на несколько групп:
Классификация
Один из самых распространенных задач Data Mining. Решаемые бизнес задачи управление рисками и т.п. По сути, классификация это процесс определения принадлежности классифицируемого параметра, к какому либо классу по ряду признаков. Например, все тот же пример по определению покупаемости автомобиля по полу, возрасту и количеству детей. И для того что бы сразу связать эти группы с Data Mining в Microsoft SQL Server, приведу те алгоритмы которые применяются внутри. Это "Деревья решений"(Decision Trees),"Нейронные сети"(Neural network), "Упрощенный алгоритм Байеса"(NaЇve Bayes).
Прогнозирование
Еще одна очень важная группа в Data Mining. Прогнозировать в принципе можно все что угодно. Как именно изменятся продажи вашего товара на рынке или как прыгнут акции вашей компании (Все что угодно). Главное иметь за спиной какой-либо набор данных, на основании которых будет сделан прогноз. Один из самых продуктивных алгоритмов это Time Series.
Кластеризация
Регрессия. Фиксация и наблюдение за отклонениями от какого то среднего или фактического значения. Алгоритм - Деревья решений
На этом закончим первую часть по Data Mining. В следующей статье мы поговорим о применении первых двух алгоритмов для организации процесса классификации, а именно "Деревья решений" и "Упрощенный алгоритм Байеса".
Удачного изучения и применения Data Mining.