公開日: 2005年10月25日
Craig Utley
Microsoft SQL Server 2005 では、多数のデータ マイニング機能が新たに導入されました。このホワイト ペーパーでは、データ マイニングにより対処できる問題と、これらの問題の SQL Server 2005 での対処方法を確認します。また、データ マイニングの一般的な問題の概要と、それらの問題の解決に使用できる SQL Server 2005 のツールとモデルも紹介します。データ マイニング ツールは、データの統合からレポート作成用の解析まで、データのライフ サイクル全体をとおして機能します。このように、どの段階でもデータ マイニング テクノロジを使用できるため、データ解析、アプリケーション開発、データ キャプチャ、およびレポート作成すべてにおいて新しい可能性がもたらされます。
トピック
はじめに
データ マイニングの展望
SQL Server 2005 のデータ マイニング
データ マイニングで解決できるビジネス上の問題
まとめ
はじめに
業務においてデータ解析を試みるとき、さまざまな問題に直面します。概して、それはデータの不足に起因するものではありません。実際には、多数のデータの中に埋もれている状態です。そのため、データに意味を持たせて有用な情報に変換することができません。このような状況に対応するため、多様なデータ ソースから大量のデータを取得し、使用可能な情報へと変換できる、データ ウェアハウジングが開発されました。
データ ウェアハウジングは、実装が適切であれば、強力なソリューションとして使用できます。自社の情報を解析し、情報に基づいて意思決定できるようになります。データ ウェアハウジングを使用して、次のような疑問を解決できます。
-
15 ~ 20 歳の女性に人気のあるのはどのような商品か
-
特定顧客に関するデータと全顧客の平均データとを比較した場合、発注から配達までのリード タイムとオンタイム デリバリ達成率はどの程度か
-
1 日 1 人の患者に費やされる病棟ごとのコストと時間はどれくらいか
-
10 日を超えて、契約段階で留まっているプロジェクトの割合はどの程度か
-
特定の施設において特定の種類の薬剤に多大な費用を投じている場合、別の施設と比較して患者の回復度が高いか
このような疑問は、一般に、他の解析アプリケーションを使用して答えを得ることができますが、データ ウェアハウジングでは、この他にも多様なデータ配信形式をサポートします。解析アプリケーションは、データをより細かく解析する必要のあるアナリスト向けに設計されています。レポート作成アプリケーションは、一定の情報を提供する標準的な印刷レポートやオンライン レポートを作成したり、それほど強力な機能を必要としないユーザー向けに限定的機能を提供したりします。ビジネスで意思決定を下す場面において、企業の主要業績評価指標をひとめで確認し、いつでも現況を知ることができる強力なツールとして、スコアカードがあります。
スコアカードはデータ ウェアハウジングと同様に有効かつ強力なツールですが、本質的に過去のデータを扱うという制限があります。データ ウェアハウジングの読み込みや処理は、毎夜または毎週に行われることが多いため、タイムリーにスナップショットが作成されます。リアルタイムのデータ ウェアハウジング (またはリアルタイムに近いデータ ウェアハウジング) は実現が可能であり、また今後ますます一般的になると考えられますが、依然として現在のデータと過去のデータを表すことができるだけです。ビジネス上の意思決定者やアナリストが、これらのデータを検討することは必要です。しかし、因果関係を詳しく調べるには、データ ウェアハウジングに、ある程度の解析機能が必要になります。
仮説を打ち立ててからデータを詳しく調べるのではなく、データ ウェアハウジングで関係性を判断し、将来的なイベントを予測し、不正なデータを発見して、データを解析できれば、ビジネスにたいへん役立つのではないでしょうか。従来の手法では、このような処理を行うことはできませんでした。データ マイニングを使用することで、このようなデータ処理を実現できます。データ マイニングによって、次のような疑問に対する答えを得ることができます。
Microsoft は、上記の疑問およびその他の疑問を解決できる新しいデータ マイニング機能を Microsoft® SQL Server™ 2005 に導入しました。このホワイト ペーパーでは、データ マイニングにより対処できる問題と、これらの問題の SQL Server 2005 での対処方法を確認します。また、データ マイニングの一般的な問題の概要と、それらの問題の解決に使用できる SQL Server 2005 のツールとモデルも紹介します。
データ マイニングの展望
データ マイニングは、ビジネス上の意思決定者やアナリストの仕事を楽にすることを約束します。データ マイニングは、将来的な業績の予測だけでなく、データの関係性を (たとえそれが隠れて見えない場合でも) 識別し、ある商品の売れ行きが伸びることや、特定の顧客がさまざまな状況に基づいて他に目移りする可能性などを予想します。
Microsoft のデータ マイニング ツールは、従来のデータ マイニングよりもはるかに優れています。従来のデータ マイニングは、データを調査し、要素間にある未知の関係性を検索していました。これは典型的な "実行と実行結果" のプロセスでした。つまり、企業はデータ マイニング ツールを実行し、その結果を確認していたのです。Microsoft のデータ マイニング ツールは、特定のジョブを実行するだけのツールではなく、実行結果をプロセスにすぐに反映します。これは、データ マイニング モデルによって顧客が特定の基準に基づいてグループ化された場合でも、アナリストはこれらの新しい顧客グループに基づいてデータの細かい解析を直ちに開始できることを意味します。
このような、データ マイニング モデルの結果を解析プロセスに直ちにフィードバックする機能によって、データの最適な解析方法を組織が判断できるようになりました。現在、ほとんどの組織では、顧客を地理的に分類し、収入レベルや教育レベルなどの限られた人口統計情報を含めています。データ マイニングでは、地理的な境界よりも特定の顧客グループの方が重要な意味を持つと判断することがあります。たとえば、高収入層で、クラシック音楽とトラクタ牽引レースの両方を趣味に持つ人たちは、教育レベルや地理的条件に関係なく、特定の商品を好む可能性があります。このように顧客グループを確立すると、データを調査する解析段階で利用できます。本来は自明ではないグループを使用してデータを解析できることは、データ マイニングの大きな利点の 1 つです。
データ マイニング モデルの出力結果は、データ解析だけでなく、統合段階にも利用できます。つまり、企業全体のデータを一元管理するときに、データ マイニングによって、あるデータが他のデータから見て意味があるかどうかを判断できます。ビジネス インテリジェンス プロジェクトのデータ統合段階で変則的なデータを発見するというこの機能によって、最終的なデータ ウェアハウスから不正なデータが減り、データ ウェアハウスの解析が正確で意味のあるものになります。
データ収集アプリケーションでは、データ マイニングをさらに一歩進めて、不適切なデータ入力をソースで選別するための規則を適用できます。つまり、データを入力するときに既存データの集合に照らして検証し、データの信頼性を決定できます。特定の信頼度を下回るデータは拒否できます。したがって、ユーザーが Web フォームにユーザー情報を入力するときに誕生日を 1197 年 2 月 7 日と指定した場合、そのデータはソースで拒否できます。信頼度を判断してデータの受け入れまたは拒否を行うには、単純な日付だけでなく、入力時に誕生日、教育レベル、職業、収入の組み合わせを参照することも考えられます。
このように、データ マイニングは、一度実行した後解析するという単純な処理ではなく、データ統合、データ解析、およびレポート作成という、ビジネス インテリジェンス (BI) アプリケーション開発のライフサイクル全体で不可欠な要素になります。
SQL Server 2005 のデータ マイニング
はじめに
Microsoft SQL Server 2005 のデータ マイニング プラットフォームには、従来の方法と新しい方法の両方を使用してデータ マイニングに対処できる重要な機能が導入されました。従来の方法として、データ マイニングでは、入力に基づいて将来的な結果を予測し、また過去には認識されていなかった類似グループのデータまたはクラスタ データの関係性を発見します。
Microsoft のデータ マイニング ツールは、多くの点で従来のデータ マイニング アプリケーションとは異なります。まず、組織内のデータの開発ライフサイクル (Microsoft では、統合、解析、レポート作成のことを指します) 全体をサポートします。この機能によって、データ マイニングの結果データは、限られた少数のアナリストの手から離れ、組織全体で利用できるようになります。第 2 に、SQL Server 2005 Data Mining は、スタンドアロン アプリケーションではなく、インテリジェント アプリケーションの開発に適したプラットフォームです。データ マイニング モデルから外部へのアクセスが簡単であるため、カスタムのインテリジェント アプリケーションを構築できます。さらに、このモデルは拡張性があるため、サード パーティでは、特定のマイニング要件をサポートするためにカスタム アルゴリズムを追加できます。さらに、Microsoft のデータ マイニング アルゴリズムはリアルタイムで実行できるため、マイニングされたデータ セットをリアルタイムで検証することもできます。
インテリジェント アプリケーションの作成
インテリジェント アプリケーションを作成する際に背景にある概念は、データ マイニングの利点を利用し、データ入力、統合、解析、レポート作成の各プロセスに適用することです。ほとんどのデータ マイニング ツールは、将来の結果を予想し、異なるデータ要素間の関係性の判断を補助します。こうしたツールは、データを対象として実行され、結果を生成します。その結果は、後で個別に解釈されます。多くのデータ マイニング ツールはスタンドアロン アプリケーションであり、実行できる機能は必要性の予想と関係性の識別のみで、その先の機能はありません。
データ マイニングの出力を利用し、プロセス全体に入力として適用するのがインテリジェント アプリケーションです。データ マイニング モデルを利用するアプリケーションとして、個人情報を登録するデータ入力フォームの例があります。ユーザーは、誕生日、性別、教育レベル、収入レベル、職業などについて、途方もないデータを入力する可能性があります。こうした属性を組み合わせても、論理的に意味をなさない場合があります。たとえば、職業が医師で高卒の学位を持つ 7 歳の人物がいる場合、ユーザーがいいかげんに入力したか、データ入力フォームに対応できなかったことを示します。ほとんどのアプリケーションでは、複雑で深い入れ子になった論理を実装して、このような問題に対処しようとしますが、有効データと無効データがある中で、すべての組み合わせを処理することは現実的にはほとんど不可能です。
データ マイニングを使用して既存のデータを参照し、有効と思われるデータの規則を構築することで、この問題を解決できます。各組み合わせは、信頼度でスコアが付けられます。組織でデータ マイニング モデルを使用したデータ入力アプリケーションを構築すると、データ入力をリアルタイムで検証できます。このモデルでは、既存データの集合に対して入力にスコアが付けられ、入力の信頼度が返されます。この結果、事前に決定された信頼度のしきい値に基づいて、入力を承認するかどうかをアプリケーションで判断できます。
次の例では、リアルタイムで実行できるデータ マイニング エンジンを使用する場合のメリットを示します。つまり、データ マイニングの機能を活用するアプリケーションを作成できます。データ マイニングは最終的な結果ではなく、総体的なプロセスの一部になり、統合、解析、およびレポート作成の各段階で機能します。
データ マイニングは、データ統合プロセスの初期段階で入力の検証に使用しますが、解析段階にも使用できます。データ マイニングには、値をグループ化 (クラスタ化) する機能があります (キーワードに基づく類似の顧客やドキュメントなど)。このようなグループはデータ ウェアハウスにフィードバックできるため、そのグループを使用して解析を実行できます。グループが解析ループに認識されるかフィードバックされると、アナリストはそのグループを使用してデータを検証できます。このような処理は従来では不可能でした。
インテリジェント アプリケーションの主な目的の 1 つは、データ マイニング モデルの機能を、アナリストだけでなくだれでも利用できるようにすることです。従来、データ マイニングは、統計やオペレーションズ リサーチの知識を持つ専門家のものでした。こうした専門家をサポートするためにデータ マイニング ツールが構築されましたが、他のアプリケーションとの統合は容易ではありませんでした。そのため、データ マイニング情報の可用性は、データ マイニング製品の外部では大きく制限されていました。一方で、プロセス全体をカバーし、モデルと結果を他のアプリケーションでも利用できるツールがあれば、どの段階でもデータ マイニング モデルを使用するインテリジェント アプリケーションを作成できます。
また、インテリジェント アプリケーションを作成できるプラットフォームは、別の観点から見ると、データ マイニングのモデルと結果を格納する集中管理サーバーでもあります。多くの場合、このようなモデルは独自仕様であり、公開されません。サーバーに格納することで、組織外へ配信されないように保護できます。また、モデル用に共有の場所があれば、モデルごとの単一バージョンが企業内に保持されます。各アナリストのデスクトップに多様なバージョンが存在する状況を回避できます。真なる単一バージョンを保持することは、データ ウェアハウジングの目標の 1 つです。また、この概念をデータ マイニングに広げることで、特定のビジネス用に作成され調整された単一バージョンのモデルが存在するようになります。
SQL Server 2005 Data Mining 機能の利点
SQL Server 2005 のデータ マイニング機能には、従来のデータ マイニング アプリケーションよりも優れている利点が多数あります。前述のように、SQL Server 2005 のデータ マイニング機能は、SQL Server、SQL Server Integration Services、Analysis Services など、SQL Server 製品のすべてのコンポーネントと統合されています。SQL Server のデータ マイニング ツールは、他の解析プロセス部分とは独立して解析される出力を生成するための単一アプリケーションではありません。データ マイニング機能はプロセス全体に組み込まれ、リアルタイムに実行できます。この実行結果は、統合、解析、レポート作成の各プロセスにフィードバックできます。ただし、このような機能があっても使用方法が難しければ意味がありません。Microsoft のデータ マイニング ツールは簡単に使用できます。
使いやすさ
Microsoft では、SQL Server 2005 のデータ マイニングを、博士号を持つような専門家だけでなく、データ モデルを構築して実行する開発者やデータベース管理者 (DBA) でも使用できる方法、およびアナリストや意思決定者などのユーザーが特殊な知識がなくてもモデルの出力を使用できる方法を検討しました。
たとえば、SQL Server 2005 の初期バージョンを使用する企業で、クロスセル アプリケーションを実装する場合を考えてみます。クロスセル機能では、顧客の購入パターンと現在購入している商品に基づいて、他の商品を勧めます。たとえば、ある顧客が特定の女優が出演している映画を 3 作購入した場合、同じジャンルの映画よりも、その女優が出演している映画の方に興味を持つ可能性が高くなります。一方、SF 映画とホラー映画に興味を抱く顧客の場合、おそらく恋愛映画のクロス プロモーションには興味を示さないでしょう。
この企業では、クロスセル アプリケーションを実装するために、アナリストではなく DBA (データベース管理) に助力を求めました。DBA は SQL Server 2005 の新しいデータ マイニング機能を使用し、販売履歴や顧客の人口統計データなど多数の要因に基づいて予測モデルを構築しました。このモデルは、追加設定をしなくても、この顧客に関して 100 万もの予測を生成することができます。最終的に、推奨商品の売り上げは、新しいモデルを導入する前の 2 倍になりました。
シンプルでありながら豊富な API
SQL Server 2005 のデータ マイニング機能には強力でありながらシンプルな API が備わっているため、インテリジェント アプリケーションの作成が簡単になります。API には、予測モデルの内部とその働きを理解していなくても、クライアント アプリケーションから予測モデルを呼び出すことのできる機能があります。そのため、クライアント アプリケーションからエンジンを呼び出し、解析データに基づいて最善の結果を導き出すモデルを選択できます。返されるデータはトークン化されています。つまり、一連の属性で数値が返されます。そのため、新しいデータ形式ではなく、シンプルなデータでの作業が可能です。
データ マイニングの結果にアクセスする方法は簡単で、SQL に似た言語である Data Mining Extensions (DMX) を SQL に使用します。この構文は、SQL を理解していれば使用できるように設計されています。次に、DMX クエリの例を示します。
SELECT TOP 25 t.CustomerID
FROM CustomerChurnModel
NATURAL PREDICTION JOIN
OPENQUERY('CustomerDataSource', 'SELECT * FROM Customers')
ORDER BY PredictProbability([Churned],True) DESC
拡張性
SQL Server 2005 のデータ マイニングで最も重要な機能の 1 つは、サイズの大きなデータ セットを処理できることです。多くのデータ マイニング ツールでは、アナリストがデータから有効なランダム サンプルを作成し、そのランダム サンプルに対してデータ マイニング アプリケーションを実行する必要があります。ランダム サンプルの生成は簡単なように思われますが、統計学者であれば、有効で真にランダムなサンプルの生成がいかに困難で冒険的なことであるかを示す数多くの理由を挙げるでしょう。
SQL Server 2005 では、データ セット全体に対してモデルを実行できるようにすることで、サンプル生成の課題を解決しました。そのため、アナリストがサンプル セットを構築する必要はありません。また、アルゴリズムがすべてのデータに対して機能するため、可能な限り正確な結果が得られます。
SQL Server 2005 のデータ マイニング アルゴリズム
SQL Server 2005 では多数のアルゴリズムを使用できます (表 1)。
| モデル | 説明 |
| Decision Trees (ディシジョン ツリー) | Decision Trees アルゴリズムでは、トレーニング セットの値に基づいて結果の可能性を計算します。たとえば、年収が 60,000 ドルを超え、持ち家がある 20 ~ 30 歳の人物は、持ち家がない 15 ~ 19 歳の人物よりも、芝生整備サービスを必要としている可能性があります。Decision Trees アルゴリズムでは、年齢、収入、持ち家状況に基づき、過去の値を参照して芝生整備サービスを必要とする人物の可能性を算出できます。 |
| Association Rules (相関ルール) | Association Rules アルゴリズムは、多様な要素間の関係性を識別するように動作します。たとえば、このアルゴリズムは、項目間の関係性を示すことができるため、クロスセル ソリューションに使用されます。また、ある商品を購入した人物が興味を引かれる他商品を予測するときにも使用できます。Association Rules アルゴリズムでは、大規模なサイズのカタログを処理できます。50 万項目を超えるカタログについてテスト済みです。 |
| Nadïve Bayes | Nadïve Bayes アルゴリズムは、多様なデータ要素について、特定の変数の差異を明確に示すときに使用されます。たとえば、Household Income (世帯収入) 変数は、データベースの顧客ごとに異なり、将来的な購入予測の判断材料として使用できます。このモデルが優れているのは、他社に乗り換える顧客であるかどうかなど、特定グループ間の差異を明らかにする点です。 |
| Sequence Clustering (シーケンス クラスタ) | Sequence Clustering アルゴリズムは、以前の一連イベントに基づいて、データをグループ化 (クラスタ化) するときに使用されます。たとえば、多くの場合、Web アプリケーションのユーザーはサイト中をさまざまなパスで移動します。このアルゴリズムでは、サイト全体のページ シーケンスに基づいて顧客をグループ化してユーザーを解析したり、あるパスが他のパスよりも使用されるかどうかを判断したりします。また、このアルゴリズムは、ユーザーが次に訪問するページを予測する場合など、予測にも使用できます。Sequence Clustering アルゴリズムの予測機能は、他社のデータ マイニング ツールではあまり見られない機能です。 |
| Time Series (タイム シリーズ) | Time Series アルゴリズムは、時間ベースのデータの解析と予測に使用されます。解析とデータの予測に Time Series アルゴリズムが最も一般的に使用されるのは、売り上げです。このアルゴリズムは、一連のデータ群についてパターンを調査します。その結果、解析された一連のデータに影響を及ぼす要素を判断できます。 |
| Neural Nets (ニューラル ネットワーク) | ニューラル ネットワークは人工知能の中核部分です。このアルゴリズムは、他のアルゴリズムでは検出できないデータの関係性を発見しようとします。Neural Nets アルゴリズムは、他のアルゴリズムと比較して処理速度は遅い傾向にありますが、直観的にはわからない関係性を検出します。 |
| Text Mining (テキスト マイニング) | Text Mining アルゴリズムは SQL Server Integration Services で使用され、構造化されていないテキスト データを解析します。そのため、顧客満足度の調査にある "コメント" セクションのように、構造化されていないデータを解析できます。 |
表 1 SQL Server 2005 Data Mining で使用されるアルゴリズム
拡張性
SQL Server 2005 にはすぐに使用できるアルゴリズムが多数用意されていますが、SQL Server 2005 で使用されるモデルでは、どのベンダも新しいモデルをデータ マイニング エンジンに追加できます。追加したモデルは、SQL Server 2005 に付属しているモデルと同等になります。また、サード パーティ製のアルゴリズムを他の全機能から利用できます。これらのアルゴリズムを、DMX を使用して呼び出すことができ、統合、解析、レポートの各プロセスのどこにでも簡単に組み込むことができます。
SQL Server 2005 Data Mining と包括的なビジネス インテリジェンス
データの統合
統合段階では、異なるソースからのデータのキャプチャ、データの変換、および 1 つまたは多数のソースへの変換データの読み込みが行われます。従来のデータ マイニング ツールは、統合段階ではほとんど役に立ちません。というのも、統合は、データをキャプチャし、データ マイニングを準備する段階であるためです。これは鶏が先か卵が先かの問題のようですが、この段階に対する Microsoft のアプローチは正攻法です。つまり、データのキャプチャ、データの統合、データ マイニングを行ってから、現在のデータおよび以降の全データにデータ マイニング結果を適用します。さらに、データ マイニング アルゴリズムを利用すると、データに存在する異常値、または従来の抽出、変換、および読み込み (ETL) プロセスの際に発生する異常値を検出できます。
統合段階では、補間値を承認する場合、モデルから欠損している値を提示することもできます。補間値は、過去のデータに由来する場合と、以後の動作の予測である場合があります。Microsoft のデータ マイニング ツールが優れている点は、統合段階の完了後だけでなく、統合段階の最中にも、数値がすぐに生成されるということです。
データ マイニング ツールは SQL Server Integration Services と統合されています。つまり、データ移動段階とデータ変換段階に、データ マイニング モデルの予測的な出力に基づいてデータの解析と変更を行うことができます。たとえば、ドキュメント内のキーワードに基づいて、ドキュメントまたはテキスト フィールドをすぐに解析し、適切なバケットに配置します。
データの解析
一般的なデータ マイニング ツールでは、データ ウェアハウスの構築後に結果を生成し、その結果はデータ ウェアハウスの解析とは独立して解析されます。予測が生成されたり、関係性が識別されたりしますが、データ マイニング モデルの結果は、データ ウェアハウスで使用されるデータとは独立していることが一般的です。
Microsoft のツールは、このようなプロセス全体と統合されています。データ マイニングは SQL Server Integration Services で使用できるだけでなく、Analysis Services や SQL Server でもデータ マイニングを使用できます。リレーショナル データと OLAP データのいずれを選択する場合でも、解析段階でデータ マイニングが役立ちます。UDM (Universal Data Model) を利用すると、リレーショナル データでも OLAP データでも透過的に解析を実行できます。また、解析はデータ マイニングによってさらに進められます。
商品を関連付ける方法、または購入パターンや Web サーフィン パターンに基づいて顧客をグループ化する方法など、特定のデータ要素を解析する場合、解析において意味を成すグループとして顧客や商品をクラスタ化する方法を決定できるデータ マイニング モデルは多数存在します。これらのグループを解析プロセスにフィードバックすると、アナリストとユーザーはデータ マイニング エンジンを使用して、そのグループに基づいて解析を進めることができます。
レポート作成
モデリングが完了し、正確なモデルが作成されると、データ マイニングの処理対象は解析から結果へと移ります。さらに重要な点は、データ マイニング結果を適切なタイミングで適切なユーザーに渡して結果を活用することです。SQL Server 2005 ではデータ マイニングとレポート作成が統合されているため、簡単で柔軟性の高いスケーラブルな方法で、予測結果を組織の担当者に渡すことができます。
SQL Server 2005 Reporting Services を活用すると、予測モデルの結果を紙のレポートや Microsoft Office ドキュメントに簡単に展開し、また Microsoft SharePoint® Services にレポートを組み込んでイントラネットに簡単に配置することができます。たとえば、ある部門で商品売り上げの予測値を簡単に確認したり、商品を購入する確率が高い顧客一覧をコール センターに配布したりすることができます。さらに、顧客が商品を購入する (または購入しない) 10 の主な理由が記載されたレポートを確認し、行動方針を調整することもできます。レポート機能を使用すると Microsoft のデータ マイニングが備える情報力と機能がよくわかります。レポート作成機能では、意味のあるデータが理解しやすい形式でユーザーに配信されます。
データ マイニングで解決できるビジネス上の問題
データ マイニングにより解決できるビジネス上の問題として、多くの場合は買い物かごの解析、または既知のデータ間にある関係性の検出が考えられます。実際には、データ マイニングによって解決できる問題は多様です。それでも、解決するには、統合、解析、およびレポート作成の各プロセスのいずれの段階でもデータ マイニングが適している、ということを認識することが重要です。
問題 1: 顧客が今後購入する商品、併せて販売する商品
知名度の高い、あるデータ マイニング アプリケーションでは、従来の買い物かご解析が実行され、商品間の関係性が検討されます。企業、特に小売り部門は、一緒に購入される商品を把握できることを強く望みます。それによって、商品の宣伝およびクロスセリング (抱き合わせ販売) を実行できます。企業では、直観的にはわからない商品間の関係性を識別する方法が求められています。たとえば、有名な話では、ビールとおむつの売り上げに密接な関係があることがわかりました。というのも、おむつの買い物を頼まれた男性は、多くの場合、店でビールも購入していたためです。
データ マイニングを使用すると、すべての商品を検討し、その商品と一緒に購入される他商品の可能性を判断できます。たとえば、瓶入りのピーナツ バターが購入される場合、購入されそうな他の商品は何でしょうか。具体的には、他の各商品が購入される可能性はどの程度でしょうか。ピーナツ バターを購入する顧客がパンやクラッカーも購入する可能性は高いでしょうか。ジャムはどうでしょうか。このようなことは明確であるように思えますが、買い物かご解析では、ピーナツ バターと一緒に購入される項目をすべて格付けする必要があります。それによって企業はマーケティング方法を判断し、商品の展開方法を決定します。
SQL Server のデータ マイニングを使用すると、リレーショナル データ ウェアハウスまたは OLAP キューブのいずれでも取引データを解析し、よく一緒に購入される商品の組み合わせを検出できます。Microsoft Association Rules (相関ルール) アルゴリズムでは、同時に発生する項目を判断し、関係性の強度を示す規則を導き出します。さらに、簡単な解析だけでなく、SQL Server のデータ マイニングで作成されたモデルを適用すると、店頭のクーポン発行機やオンライン ショッピングの買い物かごでリアルタイムに推奨商品を生成できるため、関連商品の売り上げが向上します。
問題 2: 他社に乗り換える可能性のある顧客の識別
企業では、顧客の興味を引くために多くの時間、労力、および資金を費やしています。顧客獲得のコストが上がるにつれて、顧客維持率は企業にとって重要な問題になります。電気通信業界などの一部の業界では、顧客は他社に乗り換える、つまり通信事業者を変える傾向があります。契約して特典を受けると、別の事業者の特典を受けるために、すぐ契約を解除するのです。
乗り換える傾向のある顧客を識別することで、そうした顧客を受け入れるかどうかの評価、または戦略策定をより適切に行うことができるようになります。顧客離れが減るため、顧客維持率が向上します。データ マイニングでは、他社に乗り換えた顧客とそうでない顧客を検証し、新規顧客の行動の予測に役立つ特性を識別することによって、乗り換える可能性が高い顧客を判断することができます。
SQL Server のデータ マイニングには、他社への乗り換えの解析を過去のデータに基づいて実行できる多数のアルゴリズムが実装されています。各アルゴリズムには、各顧客が定着するかどうかの確率または可能性を示す機能があります。SQL Server のデータ マイニングには、特定の状況に適した正確なモデルをどのアルゴリズムおよび設定により構築できるかを簡単に決定できる、シンプルなツールがあります。そのため、可能な限り最善の結果が得られます。企業で最適なモデルを選択した後は、DMX 言語と SQL Server Reporting Services でこのモデルを利用し、他社に乗り換える可能性が高い顧客の一覧を Web レポートや SharePoint ポータルで確認できるようになります。
問題 3: 市場の現状と今後の動向
将来の売り上げを予測することは、将来の利益を予測するというだけの問題ではありません。多くの企業では、売り上げ予測に基づいて、人材レベルの決定、原材料と供給品の注文、およびマーケティング キャンペーンの計画を行います。将来的な売り上げや他の市場活動の予測を重視している企業では、長い間、トレンドラインの解析にさまざまな統計手法を使用してきました。一部のモデルでは、特定の経済要因に対する予測を追加することもできます。任意のデータ群が追加されたときの影響を考慮に入れた予測を作成できない場合、こうしたモデルのほとんどは成り立ちません。たとえば、在庫レベルを予測するときに、商品の売り上げが考慮されないことがあります。
SQL Server のデータ マイニングが持つ Time Series (タイム シリーズ) アルゴリズムでは、ビジネス サイクルの一般的な周期を考慮に入れて、一連のデータ群の関係性を検討します。個々の項目について結果を予測できるだけでなく、項目の売り上げと他の要因との関係性、または長期にわたる売り上げパターンの変化と進展方向についても確認できます。
問題 4: Web サイトの解析
現在の大半のビジネスでは、Web サイトが不可欠な要素となっています。Web サイトは主要なマーケティング ツールとして機能し、毎日 24 時間、世界中の人々に企業の情報を公開できます。稼動時間の監視、スケーラビリティ、および応答性はいずれも重要ですが、その他に、実行は困難でも顧客の傾向の考察に役立つ評価基準があります。これは、ユーザーがサイトで通過する一般的なパスだけでなく、ユーザーをどのようにグループ化し解析するかも含まれます。たとえば、サイトを訪れたユーザーが、ホーム ページから商品ページを経由して連絡窓口のページに移動した場合と、別のサイトにあったリンクから商品ページを開いてサービス ページに移動した場合という違いがあります。
データ マイニングでは、サイトを移動したパスに基づいて Web サイトの訪問者をグループ化するだけでなく、そのグループに基づいてデータを解析できます。たとえば、ユーザー グループごとに売り上げを解析します。ユーザー グループ、発注された商品、および Web サイト移動の間に関係性を構築します。ユーザーのエントリ ポイントおよび移動元のページに基づいて、多様なマーケティング キャンペーンの効果を解析し、今後の取り組みがもたらす結果を予測します。
SQL Server のデータ マイニングで提供されている Microsoft Sequence Clustering (シーケンス クラスタ) アルゴリズムを使用すると、訪問したページだけでなく、企業 Web サイトの利用方法に基づいてユーザーをグループ化できます。グループ化の結果は、Analysis Services キューブにインポートして、傾向や過去データの解析に結び付けることができます。また、Microsoft Time Series (タイム シリーズ) アルゴリズムを使用すると、企業の Web プレゼンスを最適かつ効果的にするための貴重なマーケティング情報および運用情報が提供され、グループから売り上げやトラフィックを予測することも可能になります。
問題 5: マーケティング キャンペーンの成否の判断
マーケティング キャンペーンに多大な資金を投入することはありますが、詳細な顧客調査を実行するための資金を確保したり、マーケティング キャンペーンの効果を判断する選任グループを指名したりすることはほとんどありません。多くの場合、キャンペーン時の売り上げとキャンペーン以前の売り上げとを検証することで、特定のキャンペーンの効果を推測するだけです。ただし、この場合は、企業による新商品の展開などの、他の多くの問題が無視されています。
データ マイニングを使用すると、現在の商品群、キャンペーンを実行しなかった場合の売り上げ予測、顧客の人口統計の変化などを考慮に入れながら、マーケティング キャンペーンの効果を確認できます。また、将来的なマーケティング キャンペーンの成否を予測できるため、それに従って資金を投入することが可能です。
SQL Server のデータ マイニングには、最大の利益を上げるためにマーケティング対象を特定し最適な取り組みを行うことを支援するツールがあります。Microsoft Windows® Clustering (クラスタリング) アルゴリズムを使用すると、顧客ベースの差異または類似性を判断し、メッセージを適切に調整できます。Microsoft Decision Trees (デシジョン ツリー) や他のアルゴリズムを使用すると、顧客が最も反応する可能性の高いキャンペーンを予測できるため、マーケティングへの投資が最高の成果をもたらします。SQL Server Integration Services では、こうしたキャンペーン モデルから、特定の顧客に合わせたメッセージで最適化されたメーリング リストを簡単に生成できます。
問題 6: 質の低いデータ
完璧にデータが整っている組織はありません。不正なデータを検出するには、データ ウェアハウスのデータ マートを構築する方法がおそらく最も効果的ですが、それはデータ ウェアハウジングの本来の用途ではありません。データ ウェアハウジングで検出される問題は、たとえば空の値、欠損している値、無効な日付、不正な形式のデータ、許容範囲外のデータ、矛盾しているデータ (発注前に出荷されたデータ、閉鎖されている施設に対して記録されている時間など) です。
データ品質の問題に対処する場合、抽出、変換、および読み込み (ETL) プロセスが中心となります。このプロセス (特に変換部分) でデータが整理されます。ただし、この段階のデータ整理では、不正データが今後入力されることを回避することはできません。データ入力を制限してソース段階でエラーを回避するには、データ入力アプリケーションを実装する必要があります。このようなアプリケーションがあると、ETL プロセスを作成するために必要な作業が少なくなります。
データ マイニングは最終的な結果と考えられがちですが、データ マイニング技法は、データ入力アプリケーションでデータ入力を検証するときに大いに役立ちます。既存データをマイニングすることで、信頼度によってデータ入力が適切かどうかをアプリケーションで判断できます。つまり、データ入力アプリケーションには、入力を検証する複雑なディシジョン ツリーを無理に実装する必要はありません。たとえば、14 歳と申告している個人が博士号を持ち、職業がレジ係の場合、このデータの信頼度は低く、入力レベルで拒否されます。最終的な結果のデータ マイニングを使用し、フロント エンドでデータ入力を検証できれば、初期段階でアプリケーションから不正データを排除する強力な機能になります。
SQL Server のデータ マイニングを使用すると、データ入力システムに影響を与え、データ全体の品質と解析機能が低下する前に、不正データを識別できます。DMX と .NET のプログラミングにおいて入力時点でリアルタイムにデータを検証する必要がある場合、または SQL Server Integration Services でデータ ウェアハウスを読み込むときにデータ パイプラインの異常値をフィルタ処理する必要がある場合のいずれでも、SQL Server のデータ マイニングには、組織の収益に影響が及ぶ前にデータを整理できる機能が備えられています。
問題 7: テキストの解析
多くのアプリケーションでは、Web ページと標準的な Windows アプリケーションのいずれであっても、自由形式のテキスト入力が許容されています。テキスト データを格納することは単純ですが、解析ははるかに困難です。フルテキスト検索用のインデックス作成エンジンは存在しますが、そのようなツールでは、検索を可能にするためにテキストのインデックスを作成する場合が一般的で、内容に基づいて傾向を分析したりドキュメントを分類したりするためのデータ解析機能はありません。
自由形式のテキストを解析する機能、つまりテキスト マイニングでは、テキスト フィールドまたはドキュメントの単語にスコアを付け、キー ワードを取り出します。これによって、ドキュメントまたはコメントをクラスタ化またはカテゴリ化できます。このようなドキュメントのクラスタは、データだけでなく時刻や商品を解析するときにも使用できます。たとえば、主要な要素として商品の安全性を説明するドキュメントのカテゴリに基づいて解析を実行できます。または、自由形式のテキスト フィールドで顧客が列挙した趣味に基づいて、レコードを分類することもできます。ドキュメントや他形式の自由形式テキストに共通するテーマを検出することが、このアルゴリズムの機能です。結果として、ドキュメントのクラスタに基づいたデータ解析が可能となります。
SQL Server のデータ マイニングを使用すると、取得した構造化されていない大量のデータを、解析可能で構造化された情報に変換できるようになります。SQL Server Integration Services でテキスト データを変換すると、その結果を Analysis Services キューブ、マイニング モデル、さらに SQL Server Reporting Services にまで読み込んで、顧客に関する情報を正確に解析することができます。
まとめ
Microsoft のデータ マイニングへの取り組みは革新的です。Microsoft では、グループを生成したり将来的な結果を予測したりするスタンドアロン ツールを作成するのではなく、統合、解析、およびレポート作成という、データを扱うプロセス全体にわたるプラットフォームを作成しました。
つまり、データ マイニング モデルの出力は、データ収集、変換、および解析の各プロセスにすぐに適用できます。既存のデータ セットの異常値を検出できるほか、新しい入力も既存データに基づいてリアルタイムに検証できます。複数のデータ値を持つ複雑な入力を検証するために、複雑なディシジョン ツリーをアプリケーション コードに組み込む必要はなくなりました。
さらに、モデルの出力はすぐに解析段階に適用できます。データ マイニング モデルで、購入パターンや Web サイトの移動パターンに基づいて顧客をグループ化した場合、そのグループは、解析ループにフィードバックされます。そのため、グループがデータ ウェアハウスに最初から組み込まれていたように、グループを使用して解析を実行できます。アナリストなどのナレッジ ワーカーは、このグループ化によってデータを細かく分析し、特定のグループの利益率などを検出できます。
さらに、Microsoft では、マイニング モデルと出力を中央に格納する安全なプラットフォームを構築しました。個別の多様なコンピュータに格納するモデルは制御が困難ですが、もうそのようなモデルは必要なくなりました。さらに、集中管理モデルによって、アナリストとユーザーのすべてが同じモデルを使用できるようになりました。
Craig Utley は KiZAN Technologies LLC の開発部門の副社長であり、ビジネス インテリジェンス ソリューション、エンタープライズ アプリケーションの設計および開発を中心に扱うチームを率いています。チームの創設以来、Microsoft のビジネス インテリジェンス製品に取り組み、米国全土の企業向けのビジネス インテリジェンスとデータ ウェアハウジングのソリューションを扱ってきました。Craig は、著作家、会議の議長、および Microsoft MVP という肩書きも持っています。
このホワイト ペーパーは、A23 Consulting と共同で作成されたものです。