Doppelte Daten richtig einschätzen

Nachdem wir Ihnen im zweiten Teil unserer „Datenmanagement“ Serie bereits einen Einblick in die Problematik doppelter Daten gegeben haben, finden Sie im dritten Teil der Serie Informationen zur Klärung unsicherer Dubletten. Nicht alle gefundenen Dubletten sind sicher, bei einigen Daten besteht meist nur ein Dublettenverdacht. Es gibt verschiedene Klärungswege, die aber zumeist aufwändig sind. Daher muss nicht jede Dublettenunsicherheit direkt ausgeräumt werden. Die Unterscheidung, ob eine Prüfung notwendig ist oder nicht, ist dabei ausschlaggebend.

Das Ganze lässt sich berechnen, indem man auch für die zuviel und zuwenig zusammengeführten Dubletten Kosten ansetzt. Wodurch können diese Kosten entstehen?
Wenn Sie eine Dublettenprüfung auf der Mailingdatei durchführen (also nicht auf den Stammdaten, sondern nur auf dem Datenexport für den nächsten Serienbrief), dann übersteigen die Klärungskosten in der Regel die Kosten für zuviel oder zuwenig verschickte Mailings. Machen wir es doch, das Rechenbeispiel:

Ausgangslage: 100.000 Mailings
Gefundene Dubletten in der Mailingdatei: 6.000 (6%)
Kosten je ausgeschicktem Werbebrief: 80 Cent
Erwarteter Umsatz aus dem Mailing = 600.000 € (also je ausgesandtem Mailing 6 €)
Ein Drittel des Umsatzes ist Gewinnspanne
Erwarteter Deckungsbeitrag je empfangenem Werbebrief: 6 € / 3 = 2 €
Ein zuwenig ausgesandter Werbebrief kostet Sie also 2 € abzüglich 80 Cent = 1,20 €

Per automatischen Verfahren geschätzte falsch gefundene Dubletten (Overkill): jede dreißigste; also sind 200 der 6.000 Dubletten in Wirklichkeit gar keine Dubletten.

Wenn Sie dieses Ergebnis jetzt einfach akzeptieren, dann wissen Sie, dass 200 Vielleicht-Käufer Ihr Mailing fälschlicherweise nicht erhalten, und dass Sie dies durch Klärungsaufwand hätten vermeiden können.

Der Schaden ist nach obiger Formel 200 x 1,20 € = 240 € weniger Deckungsbeitrag.
Nun müssen Sie nur noch prüfen, ob Sie die 6000 gefundenen Dubletten mit einem Aufwand von weniger als 240 € einigermaßen zuverlässig prüfen können, bevor Sie sie aus der Mailingdatei eliminieren. Nach meinen Erfahrungen wird das bei solider Kalkulation nicht möglich sein, selbst wenn Sie mit Aushilfskräften arbeiten und nur eine einfache Sichtprüfung durchführen (später mehr zu den verschiedenen Klärungsarten).

Handelt es sich bei den 100.000 Adressen nicht um eine Mailingdatei, sondern um Ihre Stammdaten, dann sieht die Kalkulation anders aus: Die Kosten für fälschlich eliminierte Datensätze sind nämlich viel höher. Wie viel jede Ihrer Adressen wert ist, haben Sie ja schon im Kapitel „Wie viel sind Ihre Daten wert“ abgeschätzt. Wenn es also beispielsweise 50 € je Adresse sind, dann sind die 200 zuviel eliminierten Overkill-Dubletten – wenn Sie sie einfach nur löschen – 200 mal 50 € = 10.000 € wert. Eine Sichtprüfung, die Sie z.B. je Datensatz 10 Cent kostet, bei der aber jede Dublette angeschaut wird und die schließlich statt 200 nur noch 20 Fehldubletten übrig lässt, ist also eine gute Investition:
Kosten: 6.000 x 0,10 € = 600 €
Nutzen: 200 – 20 = 180 vermiedene Overkill-Dubletten –> 180 x 50 € = 9.000 €

Da Sie die Dubletten bei Stammdaten nicht einfach löschen, sondern zusammenlegen, können die Kosten für falsche Zusammenlegungen in manchen Fällen viel höher sein als die Kosten der Interessentengewinnung:
– Wenn Sie dadurch dem einen Kunden Information schicken, die für den anderen bestimmt ist.

– Wenn Sie wichtige Vorgänge vertauschen, beispielsweise die Ware an den falschen Kunden schicken oder eine nicht bezahlte Rechnung beim falschen eintreiben.

– Wenn Sie fälschlicherweise Informationen über einen Kunden beziehen, die eigentlich einen anderen Kunden betreffen: beispielsweise eine Konkursmeldung.

In manchen Branchen kann der erste Punkt sehr teuer werden: Wenn eine Bank einen Kontoauszug versehentlich an einen falschen Empfänger schickt, kann daraus negative Presse entstehen, die eine Rufschädigung von 50.000 € und mehr bewirken kann – andererseits macht natürlich auch der Briefträger mal Fehler; daher werden solche Vorgänge nur in Ausnahmefällen zu negativer Presse führen und eine Entschuldigung kostet eher zwischen 20 und 100 €.

In jedem Falle gehört aber zum Aufwand das nachträgliche „Auseinandersortieren“ aller Vorgänge zu den beiden fälschlicherweise zusammengelegten Kunden/Interessenten. Der Aufwand bewegt sich selten unter 20 €, kann aber leicht erheblich höher werden. Das alles kann man rechnen oder abschätzen, und vor einer Stammdaten-Bereinigung sollten Sie genau dies tun. Und dann angemessene Klärungsmaßnahmen einrichten, bevor Sie die Dubletten zusammenführen.

Klärungsarten

Einfache Sichtprüfung (Sichtprüfung ohne Kundenkenntnis): Die Dubletten werden am Bildschirm oder im Ausdruck angeschaut und ohne weitere Nachfragen wird entschieden. Dabei kennt der prüfende Mensch die Kunden nicht; es handelt sich hierbei um eine Aushilfe oder den Mitarbeiter eines externen Dienstleisters – z.B. des Adressdienstleisters, der auch die Dublettensuche gemacht hat. Da eine Dublettensoftware die Daten nicht wirklich versteht, können auch hierdurch noch etliche „Schnitzer“ vermieden werden. Rechnen Sie aber damit, dass auch hier Fehlentscheidungen passieren – und zwar in beide Richtungen (zuviel/zuwenig aussortiert). Die Fehlerrate sinkt aber schon durch die einfache Sichtprüfung erheblich.

Sichtprüfung mit Kundenkenntnis Hier prüfen nicht Aushilfskräfte, sondern Leute, die den Kunden kennen – beispielsweise Ihr Außendienst. Machen diese die Prüfungsarbeit ernsthaft, sind erheblich geringere Fehlerraten zu erwarten als bei der einfachen Sichtprüfung. Allerdings haben diese Mitarbeiter meist a) keinerlei Nerv für solche Prüfungen und b) keine Zeit bzw. die Zeit ist sehr wertvoll. Je nachdem wie viele Kunden durch einen Mitarbeiter betreut werden, kann es natürlich auch sein, dass der Mitarbeiter die genaue Situation beim einzelnen Kunden nicht kennt.

Recherche Die Klärungsmitarbeiter rufen im Zweifel den Kunden an oder recherchieren im Internet oder in anderen Daten, z.B. in Vertragsinformationen oder einfach in Telefonbüchern (Prüfung: Gibt es beide Firmen?). Als Anhaltspunkt für den Aufwand der Dublettenklärung in Stammdaten rechnen Sie mit 5 Minuten Arbeitszeit je unsicherer Dublette.

Oftmals sind die Kosten für zuwenig zugeordnete Dubletten (Underkill) erheblich geringer als die für Overkill. Auch sie liegen bei Stammdaten aber selten unter 10 €. Rechnen Sie nicht nur die Kosten für zuviel ausgesandte Mailings oder Dokumente (Investitionsrechnung: Folgejahre einrechnen, aber abzinsen); zusätzlich verursacht eine nicht aufgespürte Dublette Informationsdefizite – die sich allerdings nur schwer berechnen lassen. Ein Ergebnis einer Kunden-Deckungsbeitragsrechnung kann beispielsweise ergeben, dass ein Kunde unprofitabel ist. Eine mögliche und nicht unübliche Folgerung ist, sich gegenüber solchen unprofitablen Kunden wenig kulant zu zeigen. Springt der -unprofitable- Kunde ab, umso besser! Aber wenn derselbe Kunde in einem anderen Geschäftsbereich ein guter Kunde ist, …!

Dubletten gefunden – und dann?

Wenn Sie in Ihrem Kundenstamm auf Dublettensuche gegangen sind und auch das Thema „unsichere Dubletten“ geregelt ist, stehen mit der fertigen Dublettenliste folgende Aufgaben an:
– Zusammenführung anhängender Daten, wie Ansprechpartner, geschriebene Rechnungen usw.

– Klärung widersprüchlicher Zusatzinformation (z.B. steht in einem Datensatz, dass der Kunde in der Branche „Textilindustrie“ tätig ist, in einem anderen ist „Textil-Einzelhandel“ angegeben: stimmt nun beides, oder ist nur eine der beiden Informationen richtig – und falls dies der Fall ist, welche?)

Zusammenführung anhängender Daten

In einer relationalen Datenbank sind mit der Kundenadresse anhängende Informationen verknüpft: Dabei handelt es sich sowohl um Stammdaten als auch um Bewegungsdaten.
Bewegungsdaten betreffen nur einzelne Vorgänge, z.B. Rechnungen. Widersprüchlichkeit muss hier nicht geprüft werden. Wenn Sie sicher sind, dass die beiden Adressen zusammengehören, können Sie die Stammdaten ohne weitere Prüfung übernehmen. Klären Sie aber zuvor, wie in Ihrem Unternehmen Revisionssicherheit gegeben sein muss: Es ist möglich, dass Sie auch aus diesen Gründen den alten Datensatz mit allen anhängenden Daten erhalten müssen (er sollte dann für weitere Bearbeitung und Benutzung gesperrt werden).

Die Zusammenführung kann auch technisch aufwendig sein, beispielsweise in einer SAP-Umgebung. Hierzu sollten Sie sich nicht scheuen, einen entsprechenden Spezialisten hinzuzuziehen; dieser sollte möglichst schon wissen, wie eine Datensatz-Zusammenführung in Ihrem System geht, und nicht nur prinzipiell etwas von Ihrer Software verstehen.

Bei anhängenden Stammdaten – Ansprechpartner und dergleichen – müssen Sie wiederum auf Dubletten prüfen: Sonst haben Sie zwar die XYZ GmbH von drei Datensätzen auf einen zusammengeführt, aber der Geschäftsführer Herr Schulze bekommt immer noch drei Briefe von Ihnen, weil er aus allen drei alten Datensätzen übernommen wurde. Auch hierbei kann Aufwand zur Klärung unsicherer Dubletten entstehen, rechnen Sie auch diesen in Ihr Zeitbudget ein!

Klärung widersprüchlicher Informationen

Neben der Adresse zählen zu den Stammdaten auch Selektionsinformationen. Bei der Zusammenführung von zwei Kunden-Stammsätzen, kann es passieren, dass in diesen unterschiedliche Informationen stehen. Beispielsweise können bei Privatadressen zwei verschiedene Geburtsdaten angegeben sein; oder bei Firmenadressen steht die Branche als Selektionsmerkmal zur Verfügung, in den beiden Kunden-Stammsätzen ist sie aber nicht identisch. Ebenso wie Selektionsinformation vorhanden ist, kann es sich auch um Informationen handeln, die für Ihr Handeln wichtig ist: Wenn in einem Datensatz steht, dass der Kunde per Rechnung beliefert werden darf, und im anderen wird Vorkasse gefordert. Wie wählen Sie nun aus, was richtig ist?

Hier ein paar Ansätze – am besten erarbeitet man solche Themen in einem Workshop:
Alter: Wie alt ist die Information? Altsysteme haben meist aber kein Pflegedatum für die Adresse, geschweige denn für die Einzelinformation gespeichert. Hier kann ein Anhaltspunkt sein, aus den Bewegungsdaten den Zeitpunkt des letzten persönlichen Kontaktes zu ermitteln (also Kontakt durch Außendienst, Innendienst, bzw. Auftrag; nicht nur ein verschicktes Mailing).

Infoquelle: Woher kommt die Information? Ist diese Information (z.B. Branche) durch einen Adressverlag geliefert worden, oder wurde sie von einem Mitarbeiter im persönlichen Gespräch ermittelt? (manche Adressverlage haben bis zu 50% Feinbranchen-Fehler – zur Datenqualität von Fremddaten siehe Kapitel 8 „Adressen mieten kaufen leasen“).

Fortschritt: Welche Variante kann nur nach der anderen eingetreten sein? Beispielsweise Bildungsstand „Abitur“ und „abgeschlossenes Studium“ – wenn Sie im einen Datensatz die eine, im anderen die andere Info haben, dann entscheiden Sie sich für das abgeschlossene Studium, weil diese Information die neuere sein muss.

– usw.
Auch hier können Sie bei besonders wertvollen Datensätzen (Kunden!) die Infos durch einen Anruf beim Kunden oder durch Recherche klären und so herausfinden, was tatsächlich richtig ist. Für den „normalen“ Datensatz lohnt sich das in der Regel nicht.

Tipps zum Softwarekauf als Dienstleister

Falls Sie selbst als Dienstleister für andere tätig sind oder werden wollen, gleichen Sie in der Regel mehrere Dateien gegeneinander ab. Prüfen Sie, ob die Software dies auch dann kann, wenn die Datenformate unterschiedlich sind. Und wie viele Prioritätsstufen gibt es? Können auch mehrere Nixie- (Negativ-)Dateien auf unterschiedlichen Prioritätsstufen verarbeitet werden? Und wie einfach ist das?
Für die Abrechnung mit Listbrokern benötigen Sie außerdem einen Report der Verarbeitung. Hierfür gilt als Standard, dass mindestens aufgezeigt werden müssen: Eingangsmenge, Intra-Dubletten (innerhalb der jeweiligen Eingangsdatei), Dubletten gegen andere Dateien und Ausgabemenge je Datei.
Hilfreich ist zudem, wenn die Software nach dem Dublettenabgleich eine Reduktion auf die vom Kunden benötigte Menge machen kann – wenn nach dem Abgleich noch 63.299 Adressen übrigbleiben und der Kunde nur 50.000 Kataloge verschicken will.

Dieser Artikel erschien am und wurde am aktualisiert.
Nach oben scrollen