Datenqualität im Mittelstand — Warum dein KI-Projekt scheitert, bevor es startet

In der Airline-Industrie wird ein Forecast auf wenige Zehntel Prozent genau berechnet. Wenn ein Flugzeug am Sonntagabend mit 89% Auslastung statt 92% startet, wird das analysiert. Drei Prozentpunkte sind in dieser Welt eine ernste Abweichung — und es gibt ganze Teams, deren Job es ist, herauszufinden, warum.

Im Mittelstand kennt der Vertrieb seine eigenen Kundennummern oft nicht. Marketing pflegt eine Excel-Liste, der Service eine andere, das CRM eine dritte. Drei Versionen derselben Wahrheit — und keine davon stimmt.

Das ist kein Witz. Das ist die Ausgangslage in fast jedem Beratungsprojekt, das ich begleite. Und es ist der Grund, warum die meisten KI- und BI-Initiativen scheitern, bevor sie überhaupt richtig starten. Nicht an der Technologie. An den Daten.

Warum Datenqualität das ungeliebteste Thema im Unternehmen ist

Datenqualität hat ein PR-Problem. Niemand bekommt einen Bonus dafür, dass die Kundenstammdaten sauber sind. Niemand wird im Newsletter erwähnt, weil die Dubletten weg sind. Es ist Hygiene-Arbeit — wichtig, unsichtbar, undankbar.

Das Ergebnis: Datenqualität ist nie dringend. Bis sie plötzlich kritisch wird.

Typische Auslöser, an denen das Thema im Mittelstand erst sichtbar wird:

Ein KI-Projekt liefert unsinnige Vorhersagen — und niemand versteht warum
Ein neues CRM wird eingeführt und die Migration zeigt: 30% der Datensätze sind doppelt oder unvollständig
Eine Werbekampagne erreicht die falschen Kunden, weil das Segmentierungsfeld leer ist
Die Geschäftsleitung will ein Dashboard und stellt fest, dass dieselbe Kennzahl in drei Systemen drei verschiedene Werte hat

Das alles ist nicht „Pech". Das sind die direkten Folgen jahrelang ignorierter Datenqualität — die jetzt mit voller Wucht in die Realität von KI und Automation eintreffen. KI verzeiht keine schmutzigen Daten. Sie skaliert sie.

Die fünf Daten-Krankheiten, die jedes KMU hat

In meiner Arbeit habe ich keinen einzigen Mittelständler gesehen, dessen Daten in mehreren dieser Punkte nicht krank sind. Wenn du dich ehrlich prüfst, wirst du dich wiedererkennen.

1. Dubletten — der Klassiker

„Müller GmbH", „Mueller GmbH", „Müller G.m.b.H.", „Müller Gmbh & Co. KG". Vier Einträge, ein Kunde. Die Folgen reichen vom doppelten Werbeanschreiben bis zum falsch konsolidierten Umsatz pro Kunde.

Das ist nicht Faulheit. Das passiert, wenn jeder Mitarbeiter beim Anlegen die Felder neu eintippt und niemand vorher prüft, ob es den Datensatz schon gibt.

2. Excel-Inseln

Das Marketing-Team hat eine eigene Liste. Der Außendienst pflegt seine eigenen Kontakte. Die Buchhaltung hat ihre eigene Sicht auf die Welt. Niemand spricht miteinander, jeder hat „seine" Daten.

Sobald du diese Inseln zusammenführen willst — etwa für ein KI-Modell, das Kundenwert vorhersagen soll — wird sichtbar, dass nichts zusammenpasst. Verschiedene Schreibweisen, verschiedene IDs, verschiedene Definitionen.

3. Pflichtfelder, die niemand pflegt

„Branche", „Mitarbeiterzahl", „Region" — alles als Pflichtfeld definiert, in der Praxis aber zu 60% leer oder mit „sonstige" gefüllt. Weil das Anlegen schnell gehen muss und niemand die Zeit hat, zu recherchieren.

Das Problem: Genau diese Felder brauchst du später für jede sinnvolle Auswertung. Ohne saubere Branchenzuordnung kannst du keine Branchenanalyse machen. So einfach.

4. Historische Brüche

Vor fünf Jahren wurde das System gewechselt. Die alten Daten wurden „migriert", aber Zeitstempel sind verschwunden, Kundenhistorien gerissen, alte Kategorien existieren nicht mehr.

Wenn du heute ein KI-Modell auf Basis der letzten sieben Jahre trainieren willst, hast du in Wahrheit zwei verschiedene Welten: die Welt vor und nach der Migration. Das Modell lernt das — und liefert Quatsch.

5. Schatten-IT und Tribal Knowledge

Frau Becker im Vertriebsinnendienst weiß, welche Kunden eigentlich „A-Kunden" sind. Aber dieses Wissen steht nirgendwo. Es lebt in ihrem Kopf, in einer Excel auf ihrem Desktop, in einer Notiz im Kalender.

Wenn Frau Becker geht — und das tut sie irgendwann — geht das Wissen mit. Und dein angeblich „datengetriebenes" Unternehmen merkt, dass es in Wahrheit Bauchgefühl-getrieben war. Das Bauchgefühl von Frau Becker.

Was schlechte Daten dich konkret kosten

Die Versuchung ist groß, das Thema abzutun: „Ein paar Dubletten, ein paar leere Felder — kein Drama." Lass mich dir zeigen, was das wirklich kostet.

Beispiel 1: Verlorener Kunde durch falsche Stammdaten

Ein B2B-Kunde mit 80.000€ Jahresumsatz erhält über Monate hinweg Mahnungen, weil seine neue Bankverbindung nicht eingepflegt wurde. Er kündigt frustriert. Direkter Schaden: 80.000€ Umsatz pro Jahr. Indirekter Schaden: Empfehlungen, Reputation. Ursache: ein nicht aktualisiertes Stammdatenfeld.

Beispiel 2: Doppelte Marketingkosten

Eine Mailing-Kampagne mit 5.000 Empfängern. Aufgrund von Dubletten erhalten 700 Kunden das Anschreiben doppelt. Druck- und Versandkosten: 1,80€ pro Stück. Direkter Verlust: 700 × 1,80€ = 1.260€ pro Kampagne. Bei sechs Kampagnen pro Jahr: 7.560€ verbrannt. Jedes Jahr.

Beispiel 3: KI-Forecast, der danebenliegt

Ein KMU implementiert ein KI-Tool zur Absatzvorhersage. Investition: 15.000€ Setup, 400€/Monat. Das Modell wird auf Verkaufsdaten der letzten drei Jahre trainiert — die zur Hälfte unbereinigt sind, mit doppelten Aufträgen, falsch zugeordneten Produktkategorien und inkonsistenten Datumsangaben.

Das Modell liefert Vorhersagen, die systematisch um 12-18% danebenliegen. Lagerbestände werden falsch geplant. Folge: Überbestände in einer Produktgruppe (Kapitalbindung), Out-of-Stock in einer anderen (entgangener Umsatz). Geschätzter Schaden im ersten Jahr: 60.000–90.000€. Schuld? Nicht das Tool. Die Datenbasis.

Das 14-Tage-Datenqualitäts-Audit

Du brauchst kein Data-Science-Team, um das Thema in den Griff zu bekommen. Du brauchst zwei Wochen, eine simple Methodik und Disziplin. Hier ist mein Standard-Vorgehen:

Tag 1–3: Inventur

Liste alle Datenquellen auf, die im Unternehmen zur Entscheidungsfindung herangezogen werden. Wirklich alle. Auch die Excel auf dem Desktop von Herrn Schmidt. Auch die Google Sheet, die Marketing nutzt. Auch das Backup von 2019, das niemand mehr anfasst.

Pro Quelle dokumentiere:

Wer ist verantwortlich? (Name, nicht Rolle)
Wer pflegt aktiv?
Wer nutzt für Entscheidungen?
Wann wurde zuletzt aktualisiert?
Welche Felder gelten als Pflichtfeld?

Allein diese Inventur ist meist eine Offenbarung. Du wirst Datenquellen entdecken, von denen du nicht wusstest, dass es sie gibt.

Tag 4–7: Profilieren

Jetzt geht es ans Messen. Für jede zentrale Datenquelle prüfst du vier Dimensionen:

Vollständigkeit: Wie viel Prozent der Pflichtfelder sind tatsächlich gefüllt?
Eindeutigkeit: Wie viele Dubletten gibt es? (Tipp: Per Fuzzy-Matching auf Firmennamen prüfen, nicht nur exakter Vergleich.)
Konsistenz: Stimmen die Werte zwischen den Systemen überein? Wenn dein CRM und dein ERP unterschiedliche Umsätze für denselben Kunden zeigen — wo liegt der Fehler?
Aktualität: Wann wurden die Datensätze zuletzt geändert? Bei Stammdaten ist alles älter als 24 Monate verdächtig.

Das geht mit SQL, Python (pandas), oder für die meisten KMUs mit Excel und Pivot-Tabellen. Du brauchst keine Enterprise-Software — du brauchst eine ehrliche Stunde pro Datenquelle.

Tag 8–11: Priorisieren

Du wirst hunderte Probleme finden. Du kannst nicht alle lösen. Also priorisiere nach zwei Achsen:

Business-Impact: Welche Daten werden für Entscheidungen mit echtem Geldwert genutzt? (Pricing, Forecasting, Kundensegmentierung)
Aufwand: Wie schwer ist die Bereinigung? Dubletten lassen sich oft halbautomatisch lösen, fehlende historische Daten meist gar nicht.

Top-Quadrant: Hoher Impact, niedriger Aufwand. Das machst du zuerst. Niedriger Impact, hoher Aufwand: lass es liegen, eventuell für immer.

Tag 12–14: Quick Wins umsetzen

In den letzten drei Tagen lieferst du mindestens drei sichtbare Verbesserungen:

Dublettenliste an die zuständige Person, mit Vorschlag zur Zusammenführung
Pflichtfeld-Validierung im wichtigsten System (technisch durchsetzen, was bisher nur Hoffnung war)
Eine zentrale „Single Source of Truth" für ein konkretes Thema (z.B. Kundenliste) definieren — und alle anderen Versionen offiziell deaktivieren

Ergebnis nach 14 Tagen: Du hast Transparenz, eine Priorisierung, drei umgesetzte Verbesserungen — und eine ehrliche Roadmap für die nächsten 90 Tage.

Tools, die kostenlos oder günstig wirklich helfen

Du brauchst weder Master Data Management Software für 50.000€ noch Enterprise-Tools mit zwölf Lizenzen. Hier die Werkzeuge, mit denen 80% der KMU-Datenqualitätsprobleme lösbar sind:

OpenRefine (kostenlos): Open-Source-Tool zur Datenbereinigung. Erkennt Dubletten per Fuzzy-Matching, normalisiert Schreibweisen, validiert Formate. Perfekt für einmalige Aufräumaktionen.
PostgreSQL mit Constraints: Wenn deine Datenbank technisch erzwingt, dass Felder ausgefüllt sein müssen und Werte einem Format entsprechen, lösen sich 50% der Probleme von selbst. Constraints sind keine Bürokratie — sie sind Qualitätssicherung.
Python mit pandas: Für Profiling und Reporting. Ein 50-Zeilen-Script reicht, um wöchentlich einen Datenqualitäts-Report zu erzeugen. Wer mit GPT/Claude arbeitet, kann sich solche Scripts in einer halben Stunde generieren lassen.
Great Expectations (kostenlos): Framework für Datenvalidierung. Definiere Erwartungen („Kundenumsatz ist immer positiv", „Postleitzahl hat fünf Ziffern"), und das Tool prüft sie automatisch. Bei Abweichung: Alarm.
SQL-Queries: Profil-Queries („Wie viele Datensätze haben ein leeres Feld X?") sind die einfachste, billigste, zuverlässigste Form von Datenqualitäts-Monitoring. Direkt in deinem ERP/CRM, ohne zusätzliche Software.

Mein Rat: Starte mit SQL-Queries und einem PostgreSQL-Setup mit sauberen Constraints. Erweitere bei Bedarf um Great Expectations oder Python-Profiling. Tools wie OpenRefine sind perfekt für einmalige Bereinigungen, aber kein laufender Prozess.

Wo die Grenzen sind — Ehrlich bleiben

Datenqualität ist kein Projekt mit Anfang und Ende. Sie ist ein Prozess. Und sie hat klare Grenzen:

100% saubere Daten sind ein Mythos. Es gibt sie nicht, hat sie nie gegeben, wird es nie geben. Ziel ist „gut genug für die Entscheidungen, die du triffst" — nicht Perfektion.
Manche Daten sind den Aufwand nicht wert. Wenn ein Feld in keinem Reporting auftaucht und keine Entscheidung beeinflusst, ist es egal, ob es gepflegt ist. Nicht jeder Datensatz verdient deine Zeit.
Kultur schlägt Tools. Du kannst die beste Software einführen — wenn deine Mitarbeiter Datenpflege als „lästig" empfinden, wird nichts besser. Datenqualität ist 30% Technik, 70% Verhalten.
Bereinigung ohne Prozess ist verschwendete Zeit. Wer einmal aufräumt und dann wieder schludert, ist nach sechs Monaten wieder beim alten Stand. Erst die Quelle dichten, dann den Boden wischen.

Und ein Punkt, der oft fehlt: Manchmal ist die ehrliche Antwort, dass dein KMU für ein bestimmtes KI-Projekt schlicht nicht datenreif ist. Dann ist die richtige Entscheidung nicht „mehr Tools kaufen", sondern „erst Fundament bauen, dann KI bauen". Sechs Monate vorher investiert sparen oft zwölf Monate Frust hinterher.

Die einfache Formel: Ist deine Datenbasis KI-ready?

Bevor du ein KI-Projekt startest, prüfe diese vier Werte für die relevanten Datenquellen:

Vollständigkeit ≥ 90% | Eindeutigkeit ≥ 95%
Aktualität ≤ 30 Tage (Stammdaten) | Konsistenz zwischen Systemen messbar

Wenn du in einem dieser Werte deutlich darunter liegst, ist die Wahrscheinlichkeit hoch, dass dein KI-Projekt enttäuschen wird. Nicht weil die KI schlecht ist — sondern weil der Input nicht trägt.

Das ist keine Ausrede, um KI-Projekte aufzuschieben. Es ist eine Bedingung, sie ehrlich zu kalkulieren. Wenn du diese Schwellen nicht erreichst, plane die Datenarbeit als Teil des Projekts ein. Sie ist nicht „Vorbereitung" — sie ist 50% der Wertschöpfung.

Warum das jetzt zählt

In den letzten Jahren konntest du dir schlechte Datenqualität leisten. Die Entscheidungen wurden ohnehin per Bauchgefühl getroffen, die Reports waren mehr Show als Substanz. Schmutzige Daten haben dich nicht direkt Geld gekostet — höchstens indirekt.

2026 ändert sich das. Wer KI in Pricing, Forecasting, Kundenkommunikation oder Operations einsetzt, baut seine Entscheidungen direkt auf den Daten auf. Eine 5%-Abweichung in den Stammdaten führt zu einer 5%-Abweichung im Forecast — und einer 5%-Abweichung in der Lagerplanung. Das skaliert.

In der Airline-Welt haben wir das vor 30 Jahren gelernt. Datenqualität ist dort kein IT-Thema, sondern Chefsache — weil jeder Prozentpunkt direkt in den Umsatz fließt. Der Mittelstand steht jetzt vor demselben Lernprozess. Wer heute investiert, hat 2027 einen strukturellen Vorteil. Wer es weiter ignoriert, wird sich wundern, warum „die KI nicht funktioniert".

Die Wahrheit ist: Die KI funktioniert. Deine Daten nicht.

Du willst wissen, wie es um deine Datenbasis wirklich steht — und wo der größte Hebel liegt?

Ich helfe Mittelständlern dabei, ihre Datenqualität ehrlich zu auditieren und in pragmatischen Schritten ein Fundament zu bauen, auf dem BI und KI tatsächlich tragen. Kein Beratungs-Theater, keine 200-Seiten-Konzepte — nur belastbare Ergebnisse.

Lass uns sprechen →