Daten vereinheitlichen und strukturieren

Autor: Carsten Kraus  veröffentlicht am 13 März 2008  

Omikron Data Quality GmbHIm Bereich der Datenerfassung- und Archivierung werden oft vorgefertigte Textmasken benutzt, um eine einheitliche Bearbeitung zu ermöglichen. Doch das Prinzip greift oft nicht so, wie es in der Ursprungsidee geplant war. Im vierten Teil unserer "Datenmanagement" Reihe erfahren Sie, welche Probleme bei uneinheitlicher Datenstruktur auftreten und wie Sie diese vermeiden können.

Wozu wurden in der Vergangenheit Adressen genutzt? Hauptsächlich doch, um Rechnungen und Lieferungen zum Empfänger zu bringen. Wichtig war nur, dass der Briefträger die Anschrift lesen konnte und der Brief ankam. Die Struktur geriet dabei oft durcheinander:
- Vorname, Nachname, Titel wurden zusammen in ein Feld geschrieben - die Reihenfolge war egal.

- Die Felder hießen Name1, Name2 und Name3. Einmal stand in Name1 die Firma und in Name2 der Ansprechpartner - ein andermal war es umgekehrt.

- Im Feld Ansprechpartner stand kein Name, sondern die Abteilung. Für den Außendienst logisch. Doch im Mailing wird der Kunde mit "Sehr geehrter Herr Einkaufsabt." begrüßt.

- In Ansprechpartner-Feldern standen zusätzliche Infos wie Durchwahlen, Abteilungen, Privatanschriften; oder weitere Ansprechpartner: "M. Schulze, Marketing / Klaus Mayr, Vertrieb". Kein Problem für menschliche Intelligenz (=Außendienst). Aber bei vollautomatischen Aktionen druckt der Computer den Inhalt gnadenlos auf das Mailing oder in die Begrüßungszeile der e-Mail: Der mühsam konstruierte persönliche Eindruck ist dahin.

Wenn Sie diese Dinge in Ihrer Datenbank für unmöglich halten - gut. Oder vielleicht machen Sie doch besser den Gegentest: Lassen Sie sich einfach 100 Datensätze ausdrucken, und schauen Sie sie sorgfältig von Hand durch. Wichtig ist, dass Sie einen repräsentativen Ausschnitt haben, also nicht nur z.B. die 100 neuesten Datensätze. Diesen repräsentativen Ausschnitt erhalten Sie zum Beispiel, indem Sie sich einen kleinen Postleitzahlbereich als Auswahl aussuchen und dann alle Datensätze in diesem Bereich anschauen.

Haben Sie in diesen hundert Datensätzen mehr als einen Datensatz mit Strukturproblemen gefunden, dann sollten Sie die Daten vor der Übernahme in die neue Software strukturieren. Sonst verliert Ihr neues System an Wirkung, und was noch schlimmer ist: an Akzeptanz bei Ihrem Vertrieb. Denn was sagt der Kunde, der mit "Sehr geehrter Herr Maier Durchw. -33" angeschrieben wurde? Und welches Gefühl hat dabei Ihr Vertriebsmitarbeiter, dessen Unterschrift auf dem Brief eingedruckt wurde?

Für solche Restrukturierungen haben Dienstleister Verfahren, die die Namensbestandteile und weitere Informationen automatisch im Kontext erkennen und so einen Großteil der Arbeit automatisieren. Da sich jedoch in jeder Datenbank spezielle Eigenheiten verstecken, muss ich auch der Spezialist mit Ihren Daten auseinandersetzen. Daher lohnt sich der Einsatz eines solchen Spezialisten nicht für sehr kleine Kundendatenbanken: Die bearbeitet man besser auch heute noch von Hand. Ab 5.000 Adressen sollten Sie aber an die externe Vergabe denken.

Klartextfelder

Das Mailing auf Knopfdruck: Ein Versprechen, das technisch von vielen Softwarepaketen gut gelöst wird. Alle Einkaufsleiter in Maschinenbau-Unternehmen mit mehr als 100 Mitarbeitern anschreiben? Kein Problem für die Software! Aber für die Daten: Denn die Positionsbezeichnung "Einkaufsleiter" heißt manchmal "Einkaufleiter", manchmal "Leiter Einkauf" manchmal "Ltr. EK" usw. In einem konkreten Fall hatten wir eine Datenbank mit nur 33.000 Adressen, in der über 2.700 unterschiedliche Positionsbezeichnungen enthalten waren - darunter 143 verschiedene Schreibweisen für "Geschäftsführer": Abkürzungen wie GeschF., GF, Tippfehler wie "Geschfätsführer" oder Wohlgemeintes wie "Geschäftsführerin". Bei solchen Kodierungen kann auch die beste Software nicht auf Knopfdruck die richtigen Adressen selektieren. Notwendig ist eine Re-Kodierung, die die unterschiedlichen Klartexte durch eine eindeutige Bezeichnung - in der Regel einen numerischen Code - ersetzt.

Eine von offizieller Stelle genormte Kodierung für Positionsbezeichnungen gibt es noch nicht. Wichtig ist, dass Sie in eine Form rekodieren, die in Ihrem neuen System anschließend auch gepflegt werden kann. Ihre Software sollte in der Lage sein, solche numerisch codierten Felder durch Auswahlmöglichkeiten pflegbar zu machen. Alternativ können Sie einen Klartext speichern, durch so genannte Datenbank-"Constraints" aber nur die Eingabe bestimmter Textbezeichnungen erlauben.

Außer für die Positionsbezeichnungen benötigen Sie eine solche eindeutige Kodierung auch für die Branchenbezeichnung: Schließlich ist "Maschinenbau" auch in unzähligen Schreibweisen denkbar. Im Gegensatz zur Positionsbezeichnung gibt es hier Normen für eine numerische Kodierung: Wenn Ihre Software keinen Code vorgibt, ist es am besten, Sie orientieren sich an der Empfehlung der EU und verwenden den "NACE"-Branchencode. Nach dessen Nummernkreisen sind auch die Wirtschaftskennzahlen des Statistischen Bundesamts unterteilt: Der 5-stellige WZ93-Code (und auch der neue WZ03-Code) des Statistischen Bundesamts besteht in den ersten 4 Stellen aus dem NACE-Code. Falls Ihre Konzernzentrale in den USA oder in England sitzt, wird Ihnen vermutlich der Gebrauch des SIC-Codes nahe gelegt. Diese Branchencodierung ist in den USA und Großbritannien verbreitet, allerdings leider in beiden Ländern leicht unterschiedlich definiert.

Die Rekodierung solcher Textfelder kann recht aufwendig sein. Im Gegensatz zu vielen anderen Maßnahmen muss die Rekodierung jedoch nicht zwingend vor der Einführung Ihrer neuen Software stattfinden. Solange sie nicht geschehen ist, verlieren Sie "nur" einige Selektions- und Auswertungsmöglichkeiten, die Sie zu Anfang vielleicht noch gar nicht nutzen wollen. Sie können den Schritt nachholen, wenn die Software eingeführt ist und wieder Zeit und Budget zur Verfügung stehen.

Datenergänzungs-Maßnahmen

Zusatzinfos sammelt man aus drei Gründen: Zur Personalisierung, zur Selektion und zur Analyse. Bei allen drei helfen Informationen nur dann etwas, wenn sie in genügend vielen Ihrer Datensätze vorhanden sind - was nützt eine Selektion nach der Branche, wenn bei einem Großteil der Kunden gar keine Brancheninformation eingetragen ist? Man wird dann auf solche Selektionen verzichten.

Wenn Sie solche Informationen nicht haben, müssen Sie nicht kapitulieren: Es gibt Möglichkeiten, Ihre eigenen Daten mit Zusatzinformationen anzureichern:
- Datenanreicherung durch Abgleich mit externen Daten

- Datenanreicherung durch statistische Schlussfolgerung

- Eigen-Erhebung konkreter Daten (durch Rückfrage beim Kunden oder Einzel-Recherche)

Datenanreicherung durch Abgleich mit externen Informationsquellen

Was es an Informationen gibt, ist normalerweise das Folgende:
- Branche: Als Klartextinformation oder Branchencode. Wählen Sie einen Code, damit können Sie besser selektieren. Ich empfehle meist den NACE-Code bzw. WZ93. Näheres zu Branchencodes siehe Kasten im Anschluss an dieses Kapitel.

- Unternehmensgröße: Hierzu gibt es oft Mitarbeiterzahl und Umsatz. Die Mitarbeiterzahl ist für Selektionen meist besser geeignet, außerdem ist sie bei den Informationsanbietern fast immer vorhanden; über den Umsatz erteilen die Firmen oft keine Auskunft, und wenn der Informationsanbieter den Umsatz nur geschätzt hat, ist Ihnen auch nicht geholfen.

- Gründungsjahr: Nur für manche Anbieter interessant.

- Personeninformationen: Geschäftsführer gibt es fast überall, weil der Name des Geschäftsführers veröffentlicht werden muss (Rechtspflicht). Die Ebenen unterhalb des Geschäftsführers/Vorstands haben nur wenige Informationsanbieter.

- Rechtsform: Können Sie auch selbst aus dem Firmennamen extrahieren (ist allerdings manchmal recht verzwickt: "Schifffahrtsgesellschaft Hamburg mbH" soll zu "GmbH" zusammengefasst werden.)

- Besitzverhältnisse: Wem gehört das Unternehmen? In welchen Konzern ist es ggf. eingebunden? Ist als Einzelinfo meist eher für den Außendienst interessant als für Ihr Marketing. Kann aber außerhalb des Marketing z.B. für Gegengeschäftsstatistiken interessant sein oder zum Konsolidieren von Konzern-Key-Account-Beziehungen.

- Wenn Sie spezielle Informationen brauchen: Es gibt auch Anbieter, die beispielsweise detaillierte Infos über den Fuhrpark oder die EDV-Ausstattung Ihrer Kunden haben (wie viele PCs? Welche Netzwerk-Software? Wer ist der Netzwerk-Administrator? Kein Witz!) oder Bescheid wissen, welche Werbeagentur für den Kunden arbeitet.

Kosten
Die Kosten liegen je nach Art der Information und Renommee des Anbieters bei 10 Cent bis ca. 50 Cent je Einzelinfo, bei Spezialinfos (letzter Punkt in obiger Aufzählung) auch deutlich mehr: Ein ausführliches Fuhrpark-Profil liegt preislich über 10 €. Die Verarbeitungskosten kommen hinzu. Wenn Sie beispielsweise zu 20.000 Adressen jeweils 3 Informationen à 20 Cent anreichern lassen, sollten Sie 12.000 € für die Daten an Budget bereithalten, zuzüglich etwa 3.000 € für einen guten Abgleich.

So funktioniert das
Das Vorgehen ist normalerweise wie folgt: Sie beauftragen einen Abgleich-Dienstleister mit der Anreicherung Ihrer Daten. Er holt sich die Referenzdaten, macht eine Art Dublettenabgleich und hat dadurch eine Paarung zwischen Ihren Adressen und den Adressen des Referenzverzeichnisses. Anschließend übernimmt der Abgleich-Dienstleister die gewünschten Informationen aus dem Referenzbestand. In der Regel bezahlen Sie dabei nur für die tatsächlich übernommenen Informationen, also nicht für den ungenutzten Rest des Referenzbestandes. Deshalb ist der externe Dienstleister meist zwingend erforderlich: Er steht dem Informationsanbieter dafür gerade, dass die Abrechnung mit der Zahl der gelieferten Infos übereinstimmt. Normalerweise können Sie die Daten jedes Informationsanbieters bei einer Anzahl von renommierten Dienstleistern abgleichen lassen; auch wenn der Informationsanbieter am liebsten die Abgleiche selbst macht, um seine EDV-Abteilung auszulasten: Er ist auf Informationen spezialisiert, nicht auf Abgleiche. Häufig ist dies nicht die beste Wahl. Andersherum macht es Sinn, dass Sie sich bei den Daten nicht automatisch mit dem "Standard-Lieferanten" des Abgleich-Dienstleisters zufrieden geben, sondern hinterfragen, warum gerade dieser Informationsanbieter für Ihre Situation die beste Kosten-/Nutzen-Relation bieten soll.

Ergebnisqualität
Die Ergebnisqualität ist hier von zwei Faktoren abhängig: Von der Qualität der Referenzdatenbank und der des Abgleich-Dienstleisters. Mit einem gewissen Prozentsatz folgender Fälle müssen Sie sich anfreunden:
- Keine Anreicherung, weil Ihr Datensatz nicht zur Referenzdatenbank zugeordnet werden konnte. Das kann einerseits daran liegen, dass er dort nicht vorhanden ist; andererseits weicht der Name bei Ihnen vielleicht so stark von dem in der Referenzdatenbank ab, dass der Abgleich-Dienstleister die Zuordnung nicht gefunden hat. Rechnen Sie z.B. bei Telefonbuch-Anreicherungen mit ca. 70% Anreicherungsquote, wenn Ihre Daten in durchschnittlichem Zustand sind. Im Telefonbuch müssten "eigentlich" alle Unternehmen verzeichnet sein - man findet aber nicht alle, da manche Adressen Ihrer Datenbank inzwischen erloschen sind und es teilweise starke Abweichungen im Firmennamen gibt (bei Ihnen "MF Soft", im Telefonbuch "Martin Feldner"). Wenn Sie mit Verzeichnissen anreichern, die ohnehin keinen Anspruch auf Vollständigkeit erheben, sinkt die Quote naturgemäß weiter. Wir haben einmal eine Faxnummern-Anreicherung bei Zahnärzten durchgeführt, bei der nur 11% der entsprechenden Nummern gefunden wurden. Zwar hat heute jeder Zahnarzt ein Fax, aber die Nummer steht nicht im Telefonbuch.

- Keine Anreicherung trotz Zuordnung, weil die gewünschte Einzel-Information für diesen Datensatz nicht vorhanden ist. Passiert besonders häufig bei der Anreicherung spezieller Ansprechpartner.

- Falsche Anreicherung wegen falscher Zuordnung. Stellen Sie sich trotz sorgfältiger Arbeit des renommierten Abgleich-Dienstleisters auf 1% Fehlzuordnungen ein - und das trotz Sichtkontrolle durch die Mitarbeiter. Wenn Sie eine geringere Quote wollen, müssen Sie sich auch mit einer geringeren Anreicherungsquote anfreunden.

- Falsche Anreicherung wegen falscher Daten im Referenzverzeichnis. Dies ist kein Einzelfall, sondern kann je nach Informationsanbieter auch deutlich über 10% der Daten betreffen. Ich meine hiermit jetzt keine kleinen Abweichungen wie "es sind nicht 110 Mitarbeiter sondern 122, weil sich die Zahl inzwischen geändert hat", sondern Abweichungen wie beispielsweise eine völlig andere Branche, so etwa Zahnarzt statt Maurer. Diese Dinge passieren dadurch, dass Brancheninformationen abgeleitet statt erfragt werden. Beispielsweise war in einem Datenbestand die "Unternehmensberatung Dr. Schreiner und Partner" der Branche "Holzbau, Tischlereien" zugeordnet - Sie verstehen…! Es gibt hier sehr große Unterschiede zwischen den Informationsanbietern, allerdings ändert sich die Qualität auch von Zeit zu Zeit, so dass ich hier keine konkreten Empfehlungen aussprechen kann. Fragen Sie am besten einen Berater oder - wenn die Menge Ihrer Daten den Aufwand rechtfertigt - machen Sie einen Test.

Thema des Eintrags (Marketing, eCommerce)
  • Customer-Relationship-Management
  • Web-Optimierung
IT-Thema des Eintrags?
Big Data