Alle Welt spricht von CRM und den gewaltigen Potentialen, die hinter den Unmengen erhobener und gesammelter Nutzerinformationen schlummern. Doch wie bekommt man die Datenmengen tatsächlich in den Griff und wie entschlüsselt man dann das Ganze auch noch sinnvoll? Das Zauberwort hierfür lautet: Web Mining.
Der Web-Mining-Prozess unterscheidet sich vom Prozess des »klassischen« Data Mining insbesondere durch das spezielle Format der Logfile-Daten sowie die besonderen Erfordernisse der Datenaufbereitung. Daher wird der grundlegende Aufbau der Logfiles ebenso erläutert wie die notwendigen Schritte der Aufbereitung. Darüber hinaus wird aufgezeigt, welche Data-Mining-Methoden sich für die Analyse von Internetnutzungsdaten anbieten und wie die gewonnenen Ergebnisse zur Entscheidungsunterstützung in bezug auf die Gestaltung des Internetauftrittes genutzt werden können.
Ablauf einer Web-Mining-Analyse
Der Web-Mining-Prozess gliedert sich in die folgenden Schritte (vgl. Abbildung 1):
Abb. 1: Ablauf der Web-Mining-Analyse
In Abhängigkeit von der Aufgabenstellung werden zunächst die heranzuziehenden Daten ausgewählt. Primäre Datenquelle des Web Usage Mining sind die Web-Logfiles, darüber hinaus können jedoch auch noch weitere Daten einbezogen werden. Die Datenaufbereitung zerfällt in die beiden Schritte der Datenbereinigung und der Identifikation von Nutzern und Sitzungen (zusammenhängender Besuch eines Nutzers auf einer Website). Diese Schritte sind von elementarer Bedeutung für die Analyseergebnisse; gleichzeitig nehmen sie aber auch die meiste Zeit innerhalb des Prozesses in Anspruch. Werden zusätzliche Informationen zur Analyse herangezogen, erfolgt im nächsten Schritt eine Integration der verschiedenen Datenquellen. Aus der aufbereiteten Datenbasis werden mit Hilfe von Data-Mining-Verfahren Muster extrahiert, welche abschließend bewertet und interpretiert werden (vgl. Abbildung 2).
Abb. 2: Web-Mining-Prozess
Die Datenbasis: Logfiles
In den Logfiles des Webservers wird die Kommunikation des Servers mit dem Internet aufgezeichnet, unter anderem die eingegangenen Anfragen von fremden Servern und die übertragenen Inhalte. So geben Logfiles zum Beispiel Auskunft darüber, von welchem Rechner auf bestimmte Inhalte zugegriffen wurde, welcher Browser dabei genutzt wurde oder welche Fehler bei der Übertragung auftraten. Über die Auswertung der Logfiles lässt sich auch der Weg eines Besuchers beim Navigieren durch die Website, der sogenannte Clickstream, nachvollziehen. Das Standardformat, nach dem Zugriffe auf einen Webserver aufgezeichnet werden, ist das Common-Logfile-Format (CLF). Dieses enthält die folgenden Felder (vgl. Tabelle 1):
Je nach Server-Konfiguration können daneben weitere Felder aufgenommen werden. Im Expanded Common Logfile Format sieht ein typischer Eintrag folgendermaßen aus (vgl. Abbildung 3):
Abb. 3: Beispielhafter Eintrag im Expanded CLF
Dieser Eintrag zeigt die Anfrage eines Besuchers, der über die IP-Adresse 123.456.78.9 am 25.04.1998 auf die Seite B.html zugriff. Die Seitenübertragung verlief erfolgreich (Statuscode 200), und es wurden 2050 Bytes übertragen. Der Besucher verfolgte einen Link auf der Seite A.html und benutzte den Microsoft Internet Explorer in Verbindung mit Windows 95.