Skuteczne zarządzanie wiedzą w instytucjach administracji państwowej wymaga wykorzystania zaawansowanych narzędzi do gromadzenia i przetwarzania danych, zamiany tych danych w informacje, umieszczania tych informacji w odpowiednim kontekście a następnie przetwarzania tych informacji w wiedzę, wykorzystywaną do analizy istniejących procesów biznesowych. Analiza powinna obejmować fakty, na podstawie których można planować długofalowe strategie biznesowe, wyszukiwać procesy, które wymagają przeformułowania oraz tworzyć nowe procesy, usprawniające funkcjonowanie instytucji i ludzi zaangażowanych w realizację wyznaczonych celów.
Zmieniająca się dynamicznie rzeczywistość informatyczna, umożliwiająca coraz silniejszą kooperację instytucji państwowych w zakresie udostępniania i wymiany informacji, wymaga od producentów oprogramowania dostarczania coraz bardziej zaawansowanych narzędzi do analizy pojawiających się strumieni danych. Microsoft, spełniając oczekiwania klientów, proponuje zastosowanie kompleksowej platformy zarządzania i analizy danych – SQL Server 2005.
| SQL Server 2005 – kompleksowa platforma zarządzania i analizy danych | |
| Usługi analityczne | |
| Algorytmy Data Mining w SQL Server 2005 |
SQL Server to wszechstronne, w pełni zintegrowane rozwiązanie bazodanowe, ułatwiające działanie pracowników firmy poprzez zapewnienie bezpiecznej, niezawodnej i wydajnej platformy do przechowywania korporacyjnych danych i uruchamiania aplikacji Business Intelligence. Dzięki wszechstronnej funkcjonalności, możliwości współpracy z istniejącymi systemami i automatyzacji rutynowych zadań, SQL Server 2005 to kompleksowe rozwiązanie bazodanowe dla administracji państwowej, zarówno szczebla centralnego jak i lokalnego. Poniżej przedstawiono strukturę platformy bazodanowej SQL Server 2005.

Ilustracja 1. Platforma bazodanowa SQL Server 2005
W niniejszym artykule zostanie przedstawiona nowa usługa, zaimplementowana w SQL Server 2005 – SQL Server Analysis Services.
Usługi analityczne (Analysis Services) w SQL Server 2005 wyposażone są w serwer przetwarzania OLAP (OnLine Analytical Processing) i drążenia danych (data mining), wzbogacony o zestaw narzędzi graficznych do organizowania zagregowanych danych i prezentowania ich użytkownikom biznesowym. Analysis Services zostały zintegrowane z pozostałymi usługami SQL Server 2005:
| • | Replication Services – usługa odpowiedzialna za obsługę replikacji danych w takich zastosowaniach, jak mobilne aplikacje przetwarzania danych, systemy wysokiej dostępności lub skalowalne systemy przetwarzania równoległego, |
| • | Notification Services – usługa odpowiedzialna za tworzenie i wdrazanie skalowalnych aplikacji, służących do terminowego dostarczania spersonalizowanych i aktualnych informacji na dowolne mobilne lub podłączone do sieci urządzenie |
| • | Integration Services – usługa umożliwiająca ekstrakcję, transformację oraz ładowanie danych (ETL) w hurtowniach danych, |
| • | Reporting Services – usługa umożliwiająca tworzenie, zarządzanie i dostarczanie raportów w postaci tradycyjnej oraz interaktywnej. |
Algorytmy Data Mining wyszukują nieoczywiste zależności w danych oraz śledzą trendy, dzięki czemu można zbudować model miningowy. Model służy do klasyfikowania, przewidywania i planowania działań przyszłych w oparciu o istniejące informacje. Poniżej wymieniono i opisano wybrane algorytmy Data Mining zaimplementowane w usługę SQL Server Analysis:
| • | Drzewa decyzyjne, |
| • | Grupowanie (analiza skupień), |
| • | Szeregi czasowe, |
| • | Reguły asocjacyjne, |
| • | Sieci neuronowe. |
Drzewo decyzyjne to graficzna metoda wspomagania procesu decyzyjnego, stosowana w teorii decyzji. Algorytm drzew decyzyjnych jest również stosowany w uczeniu maszynowym do pozyskiwania wiedzy na podstawie przykładów. Metoda drzew decyzyjnych jest szczególnie przydatna w problemach decyzyjnych z licznymi, rozgałęziającymi się wariantami oraz w przypadku podejmowania decyzji w warunkach ryzyka. Drzewem decyzyjnym jest graf-drzewo, którego korzeń jest tworzony przez wybrany atrybut, natomiast poszczególne gałęzie reprezentują wartości tego atrybutu. Węzły drzewa w następnych poziomach będą przyporządkowane do kolejnych atrybutów, natomiast na najniższym poziomie otrzymujemy węzły charakteryzujące poszczególne klasy-decyzje. Drzewa decyzyjne posiadają formę czytelną dla człowieka i mogą reprezentować dowolnie złożone pojęcia pojedyncze lub wielokrotne.

Ilustracja 2. Struktura drzewa decyzyjnego
Grupowanie (analiza skupień, ang. data clustering) – to pojęcie z zakresu eksploracji danych oraz uczenia się maszyn. Analiza skupień jest metodą tzw. klasyfikacji bez nadzoru (ang. unsupervised learning). Jest to metoda dokonująca grupowania elementów we względnie jednorodne klasy. Podstawą grupowania w większości algorytmów jest podobieństwo pomiędzy elementami - wyrażone przy pomocy funkcji podobieństwa. Poprzez grupowanie można również rozwiązać problemy z gatunku odkrywania struktury w danych oraz dokonywania uogólniania. Grupowanie polega na wyodrębnianiu grup (klas, podzbiorów). Wybrane cele dokonywania grupowania są następujące:
| • | Uzyskanie jednorodnych przedmiotów badania, ułatwiających wyodrębnienie ich zasadniczych cech, |
| • | Zredukowanie dużej liczby danych pierwotnych do kilku podstawowych kategorii, które mogą być traktowane jako przedmioty dalszej analizy, |
| • | Zmniejszenie nakładu pracy i czasu analiz, których przedmiotem będzie uzyskanie klasyfikacji obiektów typowych, |
| • | Odkrycie nieznanej struktury analizowanych danych, |
| • | Porównywanie obiektów wielocechowych. |

Ilustracja 3. Przykład analizy skupień
Szeregi czasowe są seriami obserwacji dokonywanymi w równych odstępach czasu. Miesięczna sprzedaż, koszt dnia pracy, produkcja tygodniowa są przykładami szeregów czasowych. Rozpatrując szeregi czasowe, należy mieć na uwadze główny trend i nakładające się na niego zakłócenia. Zakłócenia można oceniać na podstawie średnich błędów. Trend jest własnością szeregu czasowego polegającą na systematycznych jednokierunkowych (wzrost lub spadek) zmianach poziomu badanego zjawiska w czasie. Wahania okresowe są to cykliczne wahania obserwowanego zjawiska. Najczęściej obserwuje się wahania o cyklu rocznym, półrocznym, kwartalnym. Wahania koniunkturalne to wahania całych systemów gospodarczych w okresach dłuższych niż rok.

Ilustracja 4. Przykładowe szeregi czasowe
Odkrywanie reguł asocjacyjnych jest jednym z podstawowych zadań analizy danych. Reguły asocjacyjne znajdują ukryte, potencjalnie interesujące prawidłowości w danych. Początkowo projektowano je do wyszukiwania grup produktów zwykle kupowanych razem (np. w supermarkecie). Wiedza ta pozwala lepiej zrozumieć zachowania klientów. Można ją wykorzystać do maksymalizacji sprzedaży, np. przez proponowanie klientowi zestawu produktów najczęściej kupowanych razem. W administracji państwowej mogą zostać wykorzystane do szeregu zadań, np. przewidywania wpływów, estymacji kosztów reform, etc.
Sieci neuronowe to techniki analityczne wzorowane na (hipotetycznym) procesie uczenia w systemie poznawczym i funkcjach neurologicznych mózgu, zdolne do przewidywania nowych obserwacji (określonych zmiennych) na podstawie innych obserwacji (dokonanych na tych samych lub innych zmiennych) po przeprowadzeniu procesu tzw. uczenia w oparciu o istniejące dane. Ze względu na specyficzne cechy i niepodważalne zalety obszar zastosowań sieci neuronowych jest rozległy i obejmuje:
| • | Rozpoznawanie wzorców (znaków, liter, kształtów, sygnałów mowy, sygnałów sonarowych), |
| • | Klasyfikowanie obiektów, |
| • | Prognozowanie i ocena ryzyka ekonomicznego, |
| • | Prognozowanie zmian cen rynkowych (giełdy, waluty), |
| • | Ocenę zdolności kredytowej podmiotów, |
| • | Prognozowanie zapotrzebowania na energię elektryczną, |
| • | Diagnostykę medyczną, |
| • | Dobór pracowników, |
| • | Prognozowanie sprzedaży, |
| • | Aproksymowanie wartości funkcji. |

Ilustracja 5. Schemat sieci neuronowej
Przedstawione powyżej krótkie zestawienie zaimplementowanych algorytmów Data Mining miało na celu zasygnalizowanie faktu, że SQL Server 2005 stanowi kompletną i kompleksową platformę zarządzania i analizy danych. Wykorzystanie opisanych algorytmów do konkretnych zastosowań w instytucjach administracji państwowej każdego szczebla może w znacznym stopniu wspomóc wykonywanie statutowych zadań tych organizacji oraz ułatwić formułowanie tych zadań na przyszłość. Nie bez znaczenia jest również fakt, że wszystkie wymienione usługi SQL Server 2005 stanowią jednolitą całość i obniżają całkowity koszt zakupu oraz ułatwiają zarządzanie istniejącymi w administracji systemami informatycznymi klasy Enterprise.
![]() | Sławomir Strzykowski (MSP, MCAD, MCSD) |