Web Mining oder Malen nach Zahlen

Autor: Markus Klietmann  veröffentlicht am 22 August 2002  

sympo-logo

Alle Welt spricht von CRM und den gewaltigen Potentialen, die hinter den Unmengen erhobener und gesammelter Nutzerinformationen schlummern. Doch wie bekommt man die Datenmengen tatsächlich in den Griff und wie entschlüsselt man dann das Ganze auch noch sinnvoll? Das Zauberwort hierfür lautet: Web Mining.

Der Web-Mining-Prozess

Der Web-Mining-Prozess unterscheidet sich vom Prozess des »klassischen« Data Mining insbesondere durch das spezielle Format der Logfile-Daten sowie die besonderen Erfordernisse der Datenaufbereitung. Daher wird der grundlegende Aufbau der Logfiles ebenso erläutert wie die notwendigen Schritte der Aufbereitung. Darüber hinaus wird aufgezeigt, welche Data-Mining-Methoden sich für die Analyse von Internetnutzungsdaten anbieten und wie die gewonnenen Ergebnisse zur Entscheidungsunterstützung in bezug auf die Gestaltung des Internetauftrittes genutzt werden können.

Ablauf einer Web-Mining-Analyse

Der Web-Mining-Prozess gliedert sich in die folgenden Schritte (vgl. Abbildung 1):

1 Web Mining Analyse
Abb. 1: Ablauf der Web-Mining-Analyse

In Abhängigkeit von der Aufgabenstellung werden zunächst die heranzuziehenden Daten ausgewählt. Primäre Datenquelle des Web Usage Mining sind die Web-Logfiles, darüber hinaus können jedoch auch noch weitere Daten einbezogen werden. Die Datenaufbereitung zerfällt in die beiden Schritte der Datenbereinigung und der Identifikation von Nutzern und Sitzungen (zusammenhängender Besuch eines Nutzers auf einer Website). Diese Schritte sind von elementarer Bedeutung für die Analyseergebnisse; gleichzeitig nehmen sie aber auch die meiste Zeit innerhalb des Prozesses in Anspruch. Werden zusätzliche Informationen zur Analyse herangezogen, erfolgt im nächsten Schritt eine Integration der verschiedenen Datenquellen. Aus der aufbereiteten Datenbasis werden mit Hilfe von Data-Mining-Verfahren Muster extrahiert, welche abschließend bewertet und interpretiert werden (vgl. Abbildung 2).

2 Prozess
Abb. 2: Web-Mining-Prozess

Die Datenbasis: Logfiles

In den Logfiles des Webservers wird die Kommunikation des Servers mit dem Internet aufgezeichnet, unter anderem die eingegangenen Anfragen von fremden Servern und die übertragenen Inhalte. So geben Logfiles zum Beispiel Auskunft darüber, von welchem Rechner auf bestimmte Inhalte zugegriffen wurde, welcher Browser dabei genutzt wurde oder welche Fehler bei der Übertragung auftraten. Über die Auswertung der Logfiles lässt sich auch der Weg eines Besuchers beim Navigieren durch die Website, der sogenannte Clickstream, nachvollziehen. Das Standardformat, nach dem Zugriffe auf einen Webserver aufgezeichnet werden, ist das Common-Logfile-Format (CLF). Dieses enthält die folgenden Felder (vgl. Tabelle 1):

Tabelle 1 klein
Große Ansicht

Je nach Server-Konfiguration können daneben weitere Felder aufgenommen werden.
Im Expanded Common Logfile Format sieht ein typischer Eintrag folgendermaßen aus (vgl. Abbildung 3):

3 Beispiel
Abb. 3: Beispielhafter Eintrag im Expanded CLF

Dieser Eintrag zeigt die Anfrage eines Besuchers, der über die IP-Adresse 123.456.78.9 am 25.04.1998 auf die Seite B.html zugriff. Die Seitenübertragung verlief erfolgreich (Statuscode 200), und es wurden 2050 Bytes übertragen. Der Besucher verfolgte einen Link auf der Seite A.html und benutzte den Microsoft Internet Explorer in Verbindung mit Windows 95.

Aufbereitung von Logfiles

In rohem Zustand enthalten Logfiles sehr viele Einträge, die den wahren Verkehr einer Site verfälscht wiedergeben. Daher müssen Logfiles im Vorfeld einer Analyse sorgfältig aufbereitet werden. Die grundlegenden Schritte dieser Aufbereitung bestehen in der Identifikation von Seitenaufrufen sowie der Identifikation von Besuchern und Sitzungen.

Identifikation von Seitenaufrufen (Datenbereinigung)

Die Anzahl der aufgerufenen Seiten gilt als Erfolgsgröße eines Internetauftrittes. Die Anzahl der Logfile-Einträge lässt jedoch nur indirekt auf die Anzahl der angeforderten Seiten schließen. Dies ist darin begründet, dass jede Datei, also auch jede einzelne Graphik, die für den Aufbau einer Webseite benötigt wird, zu einem eigenen Logfile-Eintrag führt. Daher übersteigt die Zahl der Logfileeinträge die der Seitenaufrufe meist um ein Vielfaches.

Um die tatsächliche Anzahl der aufgerufenen Seiten zu ermitteln, ist es notwendig, für jede Seite ein charakteristisches Element zu identifizieren. Daraufhin können alle anderen Elemente (meist Abrufe von Graphiken, in der Regel erkennbar an der Endung »gif«) aus der Logdatei gestrichen werden, und die verbleibenden Einträge beziehen sich jeweils auf eine angeforderte Seite.

Eine weitere Verfälschung der erfassten Seitenaufrufe kommt durch den Einsatz von sogenannten Cache-Mechanismen zustande. Dabei werden häufig angeforderte Seiten in einem lokalen Zwischenspeicher (Cache) abgelegt. Dies erfolgt auf zwei verschiedenen Ebenen: Internet-Serviceprovider verwenden Proxy-Server als Zwischenspeicher für häufig angeforderte Informationen und Browser legen Daten von Webseiten direkt auf der Festplatte des Benutzers in einem Cache ab. Fordert ein Nutzer eine Webseite an, welche lokal vorliegt, wird diese Seite direkt an den Nutzer weitergegeben, und der Server des Seitenanbieters erhält keine erneute Anforderung. Cache-Mechanismen führen daher zu einem verringerten Ausweis von Seitenaufrufen. Durch die Möglichkeit, eine regelmäßige Aktualisierung der Seiten zu erzwingen, kann der Einfluss von Cache-Mechanismen jedoch begrenzt werden.

Identifikation von Besuchern

Eine große Herausforderung besteht in der Identifikation einzelner Besucher. Grundsätzlich erfolgt diese anhand der gespeicherten IP-Adressen. IP-Adressen sind jedoch nicht immer eindeutig. Internet-Service-Provider müssen in der Regel eine große Anzahl Teilnehmer mit einer beschränkten Menge an IP-Adressen versorgen. Daher weisen sie ihre Adressen dynamisch zu, so dass einem Nutzer zu verschiedenen Zeitpunkten verschiedene Adressen zugeordnet werden. Entsprechend können sich hinter einer Adresse unterschiedliche Nutzer verbergen. Auch unter der Adresse eines Universitäts- oder Firmenrechners können viele verschiedene Personen agieren.
Ein möglicher Ansatz, verschiedene Nutzer mit gleicher IP-Adresse voneinander zu unterscheiden, besteht darin, die IP-Adresse mit dem verwendeten Browser zu verknüpfen und aus unterschiedlichen Browsern unter der gleichen IP-Nummer auf verschiedene Nutzer zu schließen. Da das Browser-Feld auch zeigt, ob eine Anfrage von Robots oder Spidern (automatische Systeme zur Indexierung von Internetseiten, die unter anderem von Suchmaschinen verwendet werden) stammt, können entsprechende Logfile-Einträge für die weitere Analyse ebenfalls ausgeschlossen werden. Eine Möglichkeit, um unabhängig von der IP-Adresse festzustellen, ob sich hinter zwei verschiedenen Kontakten derselbe anonyme Nutzer verbirgt, besteht in der Verwendung von Cookies. Cookies sind Textdateien, die auf den Rechner des Besuchers einer Website geschrieben werden, um diesen bei nachfolgenden Transaktionen zu identifizieren. In diesem Fall erhalten Logfiles ein zusätzliches Feld, in dem der nutzerspezifische Cookie-Name festgehalten wird. Cookies können entweder lediglich für die Dauer eines Besuchvorganges oder »persistent«, zur Wiedererkennung des Nutzers bei erneuten Besuchen, vergeben werden. Allerdings besteht für den Nutzer immer die Möglichkeit, die Verwendung von Cookies auf dem eigenen Rechner auszuschließen.

Selbst Cookies identifizieren lediglich einen bestimmten Rechner. Wird dieser Rechner von mehreren Personen genutzt, kann die Zuordnung von Zugriffen zu einzelnen Personen nur noch über eine Registrierung (Anmeldung des Nutzers beim Anbieter unter Vergabe eines persönliches Passwortes) erreicht werden. Erst auf Basis einer eindeutigen Nutzeridentifikation, die einen Nutzer auch bei wiederholten Besuchen wiedererkennt, kann nach transaktionsübergreifenden Verhaltensmustern gesucht werden. Tabelle 2 zeigt mögliche verfälschende Elemente in Logfiles sowie deren Handhabung.

Tabelle 2 klein
Große Ansicht

Identifikation von Sitzungen

Besonders wertvolle Informationen lassen sich gewinnen, wenn aus den erfassten Seitenaufrufen die vollständigen Bewegungspfade der Nutzer rekonstruiert werden. Voraussetzung dafür ist die verlässliche Nutzeridentifizierung, da die einzelnen Seitenaufrufe eines Besuchers in den Logfiles zunächst als unabhängige Vorgänge festgehalten werden.

Die entstehende Einheit verschiedener Seitenaufrufe eines Individuums wird als Sitzung oder Session bezeichnet. Zur schärferen Abgrenzung einer Sitzung wird oft verlangt, dass die Zeitspanne zwischen zwei Seitenaufrufen einen bestimmten Maximalwert (z.B. 30 Minuten) nicht überschreiten darf. Erst wenn die Daten zu Sessions gebündelt vorliegen, können beispielsweise die Verweildauer auf einer Seite, die Anzahl der betrachteten Seiten pro Sitzung sowie die häufigsten Ausstiegsseiten ermittelt werden.

Datenintegration- zusätzliche Datenquellen

Web Logfiles stellen die grundlegende Informationsbasis des Web Usage Mining dar. Die Erkenntnisse über Online-Besucher lassen sich jedoch zusätzlich verbessern, wenn neben den Logfiles weitere Informationsquellen in die Analyse eingebunden werden. In Abhängigkeit vom Gegenstand der Untersuchung können zum Beispiel Benutzerdaten, Transaktionsdaten, Kundenstammdaten oder Kampagneninformationen einbezogen werden.

Benutzerdaten zu persönlichen Eigenschaften und Präferenzen werden bei Anmelde- und Registrierungsvorgängen über Formulare erhoben. Mit Hilfe von Cookies lassen sich die gewonnenen Informationen mit den Logfile-Daten zusammenführen. Dieses Vorgehen ist in Deutschland aufgrund strenger Datenschutzbestimmungen jedoch nicht unproblematisch und sollte daher immer die Einwilligung des Nutzers zur Erhebung und Nutzung seiner Daten voraussetzen.

Datenschutz

Da im Rahmen des Web Log Mining potenziell personenbezogene Daten genutzt werden, sind die entsprechenden Gesetze des Datenschutzes zu berücksichtigen. Grundsätzlich unterliegt die Verarbeitung personenbezogener Daten in Deutschland dem Bundesdatenschutzgesetz (BDSG). In Bezug auf das Internet ist zusätzlich das Teledienstedatenschutzgesetz (TDDSG) zu beachten. Demnach ist für die Erhebung personalisierter Daten zu Marktforschungszwecken die Einwilligung des Nutzers erforderlich. Die Verwendung anonymer Nutzungsprofile ist zulässig; diese dürfen jedoch nicht ohne Einwilligung mit eventuell vorhandenen personenbezogenen Daten zusammengeführt werden.

So ist es aus rechtlichen, aber auch aus ethischen Gründen unbedingt notwendig, Besucher im Internet über die Erhebung ihrer Daten zu informieren und gegebenenfalls das Einverständnis zur Nutzung der Daten einzuholen.

Auch Transaktionsdaten zu Kauf- oder Bestellvorgängen, die über die Website getätigt werden, können vollautomatisch gewonnen und in die Datenbank überführt werden. Die Berücksichtigung dieser Daten ermöglicht die Suche nach Kriterien, anhand derer erfolgversprechende Besucher (z.B. Käufer) identifiziert werden können.

Daneben können Kundenstammdaten oder soziodemographische Daten herangezogen werden. Falls Werbekampagnen für die Website durchgeführt wurden, sollten entsprechende Informationen ebenfalls betrachtet werden. Da sich Besucher, die über einen Werbebanner oder einen bestimmten Link auf die Site kamen, anhand des Referrer-Eintrages identifizieren lassen (s. Tabelle 1), kann auf diese Weise der Erfolg einer Werbekampagne erfasst werden.

4 Datenquellen
Abb. 4: Mögliche Datenquellen des Web Usage Mining

Nachdem die Datenbasis entsprechend aufbereitet wurde, können die klassischen Verfahren des Data Mining eingesetzt werden. Für das Spezialgebiet des Web Usage Mining bieten sich insbesondere die folgenden Verfahren an.

Clusteranalyse

Clusteranalytische Verfahren ermöglichen eine Segmentierung der Internetbesucher. Mögliche Dimensionen der Segmentierung sind die Herkunft des Nutzers, eingegebene Suchbegriffe oder angeforderte Seiten. Anhand dieser Dimensionen kann versucht werden, zum Beispiel auf Berufstätigkeit (Zugriff von beispielsweise Firmen- bzw. Universitätsrechnern , Uhrzeit des Zugriffs), oder die Informationsbedürfnisse (eingegebene Suchbegriffe, angeforderte Seiten) der identifizierten Nutzergruppen zu schließen. Ziel ist die Schaffung personalisierter oder zielgruppenspezifischer Informationsangebote.

Assoziations- und Sequenzanalyse

Die Assoziationsanalyse eignet sich im Web Mining insbesondere dazu, Seiten zu identifizieren, die häufig gemeinsam innerhalb einer Sitzung aufgerufen werden. Eine Verknüpfung dieser Seitenkombinationen durch entsprechende Links kann dazu beitragen, die Benutzerfreundlichkeit der Site zu verbessern.

Mit Hilfe der Sequenzanalyse lassen sich typische Bewegungspfade der Besucher im Netz, das sogenannte Clickstreambehavior, analysieren. Gesucht werden Pfade, auf denen Besucher sich häufig bewegen. Unter der Voraussetzung einer transaktionsübergreifenden Nutzeridentifikation kann auch die Abfolge verschiedener Besuche eines Nutzers analysiert werden. In diesem Fall können zusätzlich Aussagen über die zeitliche Entwicklung des Konsumentenverhaltens getroffen werden. So lässt sich beispielsweise ermitteln, nach welcher Anzahl von Besuchen durchschnittlich eine Bestellung erfolgt oder in welchem zeitlichen Abstand Wiederholungskäufe getätigt werden.

Klassifikationsverfahren

Klassifikationsverfahren wie Entscheidungsbäume oder Künstliche Neuronale Netze ermöglichen eine Einordnung der Internet-Besucher in vorgegebene Klassen. Oftmals ist es von Interesse, Besucher zu identifizieren, die ein konkretes Ziel einer Website (z.B. Produktkauf) unterstützen. Zu diesem Zweck suchen Klassifikationsverfahren bestimmte Seitenaufrufe, Seitenfolgen oder Nutzermerkmale (bekannte Nutzermerkmale können als »virtuelle Seiten« in die Analyse eingebunden werden), anhand derer Besucher beispielsweise in die Klassen »Käufer« und »Nicht-Käufer« eingeordnet werden können. Jeder Klasse wird ein spezifisches Nutzerprofil zugeordnet. Betritt ein neuer Besucher die Site, können ihm in Abhängigkeit von seinem Profil bestimmte Inhalte dargeboten werden.

Potenzial zur Entscheidungsunterstützung

Mit Hilfe von Web Usage Mining lässt sich das Verhalten der Online-Besucher detailliert dokumentieren und analysieren. Die Frage »Wer sind meine Kunden und Interessenten?« kann zumindest ansatzweise beantwortet werden. Kunden können segmentiert, klassifiziert und nach ihrer Kaufwahrscheinlichkeit bewertet werden. Die Analyse der Einkaufsmuster liefert Hinweise auf Cross- oder Up-Selling-Möglichkeiten. Weiterhin können die Ergebnisse des Web Mining zur optimalen Konfiguration des Internetauftrittes sowie zur optimalen Werbeplatzierung genutzt werden. Beispielsweise sollte die Seitenstruktur an häufigen Bewegungspfaden ausgerichtet sein, um die Navigation zu erleichtern. Außerdem bietet es sich an, wichtige Seiteninhalte (Werbung, Produktinformationen,...) auf diesen Pfaden zu platzieren.

Daneben sind Informationen, die durch Web Mining gewonnen werden, von zentraler Bedeutung für die Personalisierung. Beispiele für die personalisierte Kundenansprache im Netz sind zielgruppenspezifische Marketingkampagnen, kundenindividuelle Interaktion via E-Mail und personalisierte Seiteninhalte. Von diesen Maßnahmen verspricht man sich einen positiven Effekt auf die Kundenbindung, da andere Anbieter dem Kunden (zunächst) nicht dieselben personalisierten Leistungen erbringen können.

5 Einsatzmoeglichkeiten
Abb. 5: Einsatzmöglichkeiten des Web Mining

Auch für die Strategische Planung können die Ergebnisse des Web Mining eine Rolle spielen. Beispielsweise müssen Marketingkampagnen nicht mehr mit einer unbekannten Anzahl unbekannter Adressaten geplant werden, sondern lassen sich nach Inhalt, Umfang und erwartetem Rücklauf auf die identifizierten Nutzergruppen ausrichten. Strategische Partnerschaften mit anderen Websites, Bannerschaltungen und Einträge in Suchmaschinen können hinsichtlich ihrer Effizienz bewertet werden, da sich detailliert feststellen lässt, welche externen Links die meisten/umsatzstärksten/langfristigsten Kundenbeziehungen vermitteln.

Fazit

Im Internet agierende Unternehmen kennen die Besucher ihrer Webseiten in der Regel nicht persönlich. Da diese Besucher aber über den Erfolg der Site entscheiden, sollte das Wissen über die Besucher, über ihre Interessen und Bedürfnisse, in die Gestaltung des Netzauftrittes einfließen. Die Auswertung von Logfiles stellt eine Möglichkeit dar, zuverlässige Informationen über Online-Besucher zu gewinnen.

Zur Auswertung von Logfiles bieten sich insbesondere Verfahren des Data Mining an, da diese in der Lage sind, über die einfachen Statistiken der herkömmlichen Logfile-Analyse hinaus versteckte Muster in den Daten aufzuspüren und damit wertvolle Informationen zur Personalisierung der Kundenansprache und zur Optimierung der Website zu generieren.


Der vorliegende Beitrag stammt von Hajo Hippner, Melanie Merzenich und Klaus D. Wilde und ist ein Auszug aus der Publikation „E-CRM - mit Informationstechnologien Kundenpotenziale nutzen“, erschienen im Symposion Publishing Verlag.

Thema des Eintrags (Marketing, eCommerce)
  • Customer-Relationship-Management
  • Webanalyse