Um Muster innerhalb von Datenmengen zu finden, unterstützen die Analysis-Services des SQL Servers die Erzeugung von so genannten Data-Mining
-Modellen. Beim Data Mining
werden mit statistischen (mathematischen) Methoden Datenbestände nach Auffälligkeiten, Mustern und sogar Regeln durchsucht. Dies kann beispielsweise eingesetzt werden, um das (Kauf)Verhalten einzelner Kunden und Gruppen zu analysieren und die Ergebnisse für ein zukünftiges strategisches Vorgehen zu nutzen.
Die SQL Server Analysis Services
(SSAS) stellen Werkzeuge für das Data Mining
bereit, mit denen Modelle für relationale Daten und Cubedaten angelegt und anschließend mit BI-Verfahren und –Methoden (Business Intelligence
) ausgewertet werden können.
Integration Services
(SSIS) für ETL-Prozesse (Extraktion, Transformation, Laden) zur Bereinigung von Daten und Verarbeitung von Modellen. Besteht aus einem Windows-Systemdienst, einer Verwaltungskonsole und dem SQL Server Business Intelligence Development Studio
.
Reporting Services
(SSRS) zur Berichtgenerierung – ähnlich wie Crystal Reports.
Auf Basis von Data Mining
können mit den vorhandenen Daten Vorhersagen für neue Daten getroffen werden. Hierfür ist der Einsatz einer SQL-Spracherweiterung notwendig, die Data Mining Extensions
(DMX). Die damit erstellten Abfragen werden in so genannten Data-Mining-Abfragetasks (data mining query tasks
) zusammengefasst. Das nachfolgende Listing zeigt ein Beispiel für eine Vorhersage-Abfrage, ob eine Person ein Buch einer bestimmten Preiskategorie kauft:
SELECT
[Kunde Buecher] AS Buchkunde,
PredictHistogram([Kunde Buecher]) AS Statistik
FROM
[Entscheidungsbaum]
NATURAL PREDICTION JOIN
(SELECT 41 AS [Alter],
'7-20 Euro' AS [Preis],
'1' AS [Berufstaetig],
'Die Cloud' AS [Letzter Titel]
3 AS [Bisherige Transaktionen 2010],
'Siegen-Wittgenstein' AS [Region]) AS t
Die gesuchte(n) Person(en) müssen hier folgende Bedingungen erfüllen:
41 Jahre alt
Berufstätig
In 2010 schon 3mal gekauft
Letztes Buch: „Die Cloud“
Lebt in der angegebenen Region
Buchpreis zwischen 7 und 20 €
Die im Listing dargestellte Abfrage nutzt PredictHistogram
, um Wahrscheinlichkeiten und Unterstützungswerte zu erhalten. Die Funktion liefert als Ergebnis eine Tabelle in der folgenden Form:
Buchkunde
…
Probability
…
John Doe
0,42234711
…
Das Schlüsselwort PREDICTION
bewirkt im gegebenen Kontext ein Mapping der Spaltennamen von der Quellabfrage auf das Modell (hier: Entscheidungsbaum
). Weiterführende Hinweise zu Data Mining Query Task
finden Sie hier
und zum Data Mininghier
. (Jörg M. Freiberger/am)
databasepro berichtet alle zwei Monate praxisnah über die Themen, die professionelle Datenbank-Architekten, -Administratoren, Consultants, Anwender und IT-Manager, die sich mit der Auswahl von Technologien, Plattformen, Datenbanken und Entwicklungsumgebungen beschäftigen, Tag für Tag brauchen.