Datenqualität im Mittelstand — Warum dein KI-Projekt scheitert, bevor es startet

Schlechte Daten sind der unsichtbare Engpass, an dem 90% aller BI- und KI-Projekte zerbrechen. Warum saubere Daten 2026 zur strategischen Kernfrage werden — und wie du in 14 Tagen ein belastbares Fundament aufbaust.

In der Airline-Industrie wird ein Forecast auf wenige Zehntel Prozent genau berechnet. Wenn ein Flugzeug am Sonntagabend mit 89% Auslastung statt 92% startet, wird das analysiert. Drei Prozentpunkte sind in dieser Welt eine ernste Abweichung — und es gibt ganze Teams, deren Job es ist, herauszufinden, warum.

Im Mittelstand kennt der Vertrieb seine eigenen Kundennummern oft nicht. Marketing pflegt eine Excel-Liste, der Service eine andere, das CRM eine dritte. Drei Versionen derselben Wahrheit — und keine davon stimmt.

Das ist kein Witz. Das ist die Ausgangslage in fast jedem Beratungsprojekt, das ich begleite. Und es ist der Grund, warum die meisten KI- und BI-Initiativen scheitern, bevor sie überhaupt richtig starten. Nicht an der Technologie. An den Daten.

Warum Datenqualität das ungeliebteste Thema im Unternehmen ist

Datenqualität hat ein PR-Problem. Niemand bekommt einen Bonus dafür, dass die Kundenstammdaten sauber sind. Niemand wird im Newsletter erwähnt, weil die Dubletten weg sind. Es ist Hygiene-Arbeit — wichtig, unsichtbar, undankbar.

Das Ergebnis: Datenqualität ist nie dringend. Bis sie plötzlich kritisch wird.

Typische Auslöser, an denen das Thema im Mittelstand erst sichtbar wird:

Das alles ist nicht „Pech". Das sind die direkten Folgen jahrelang ignorierter Datenqualität — die jetzt mit voller Wucht in die Realität von KI und Automation eintreffen. KI verzeiht keine schmutzigen Daten. Sie skaliert sie.

Die fünf Daten-Krankheiten, die jedes KMU hat

In meiner Arbeit habe ich keinen einzigen Mittelständler gesehen, dessen Daten in mehreren dieser Punkte nicht krank sind. Wenn du dich ehrlich prüfst, wirst du dich wiedererkennen.

1. Dubletten — der Klassiker

„Müller GmbH", „Mueller GmbH", „Müller G.m.b.H.", „Müller Gmbh & Co. KG". Vier Einträge, ein Kunde. Die Folgen reichen vom doppelten Werbeanschreiben bis zum falsch konsolidierten Umsatz pro Kunde.

Das ist nicht Faulheit. Das passiert, wenn jeder Mitarbeiter beim Anlegen die Felder neu eintippt und niemand vorher prüft, ob es den Datensatz schon gibt.

2. Excel-Inseln

Das Marketing-Team hat eine eigene Liste. Der Außendienst pflegt seine eigenen Kontakte. Die Buchhaltung hat ihre eigene Sicht auf die Welt. Niemand spricht miteinander, jeder hat „seine" Daten.

Sobald du diese Inseln zusammenführen willst — etwa für ein KI-Modell, das Kundenwert vorhersagen soll — wird sichtbar, dass nichts zusammenpasst. Verschiedene Schreibweisen, verschiedene IDs, verschiedene Definitionen.

3. Pflichtfelder, die niemand pflegt

„Branche", „Mitarbeiterzahl", „Region" — alles als Pflichtfeld definiert, in der Praxis aber zu 60% leer oder mit „sonstige" gefüllt. Weil das Anlegen schnell gehen muss und niemand die Zeit hat, zu recherchieren.

Das Problem: Genau diese Felder brauchst du später für jede sinnvolle Auswertung. Ohne saubere Branchenzuordnung kannst du keine Branchenanalyse machen. So einfach.

4. Historische Brüche

Vor fünf Jahren wurde das System gewechselt. Die alten Daten wurden „migriert", aber Zeitstempel sind verschwunden, Kundenhistorien gerissen, alte Kategorien existieren nicht mehr.

Wenn du heute ein KI-Modell auf Basis der letzten sieben Jahre trainieren willst, hast du in Wahrheit zwei verschiedene Welten: die Welt vor und nach der Migration. Das Modell lernt das — und liefert Quatsch.

5. Schatten-IT und Tribal Knowledge

Frau Becker im Vertriebsinnendienst weiß, welche Kunden eigentlich „A-Kunden" sind. Aber dieses Wissen steht nirgendwo. Es lebt in ihrem Kopf, in einer Excel auf ihrem Desktop, in einer Notiz im Kalender.

Wenn Frau Becker geht — und das tut sie irgendwann — geht das Wissen mit. Und dein angeblich „datengetriebenes" Unternehmen merkt, dass es in Wahrheit Bauchgefühl-getrieben war. Das Bauchgefühl von Frau Becker.

Was schlechte Daten dich konkret kosten

Die Versuchung ist groß, das Thema abzutun: „Ein paar Dubletten, ein paar leere Felder — kein Drama." Lass mich dir zeigen, was das wirklich kostet.

Beispiel 1: Verlorener Kunde durch falsche Stammdaten

Ein B2B-Kunde mit 80.000€ Jahresumsatz erhält über Monate hinweg Mahnungen, weil seine neue Bankverbindung nicht eingepflegt wurde. Er kündigt frustriert. Direkter Schaden: 80.000€ Umsatz pro Jahr. Indirekter Schaden: Empfehlungen, Reputation. Ursache: ein nicht aktualisiertes Stammdatenfeld.

Beispiel 2: Doppelte Marketingkosten

Eine Mailing-Kampagne mit 5.000 Empfängern. Aufgrund von Dubletten erhalten 700 Kunden das Anschreiben doppelt. Druck- und Versandkosten: 1,80€ pro Stück. Direkter Verlust: 700 × 1,80€ = 1.260€ pro Kampagne. Bei sechs Kampagnen pro Jahr: 7.560€ verbrannt. Jedes Jahr.

Beispiel 3: KI-Forecast, der danebenliegt

Ein KMU implementiert ein KI-Tool zur Absatzvorhersage. Investition: 15.000€ Setup, 400€/Monat. Das Modell wird auf Verkaufsdaten der letzten drei Jahre trainiert — die zur Hälfte unbereinigt sind, mit doppelten Aufträgen, falsch zugeordneten Produktkategorien und inkonsistenten Datumsangaben.

Das Modell liefert Vorhersagen, die systematisch um 12-18% danebenliegen. Lagerbestände werden falsch geplant. Folge: Überbestände in einer Produktgruppe (Kapitalbindung), Out-of-Stock in einer anderen (entgangener Umsatz). Geschätzter Schaden im ersten Jahr: 60.000–90.000€. Schuld? Nicht das Tool. Die Datenbasis.

Das 14-Tage-Datenqualitäts-Audit

Du brauchst kein Data-Science-Team, um das Thema in den Griff zu bekommen. Du brauchst zwei Wochen, eine simple Methodik und Disziplin. Hier ist mein Standard-Vorgehen:

Tag 1–3: Inventur

Liste alle Datenquellen auf, die im Unternehmen zur Entscheidungsfindung herangezogen werden. Wirklich alle. Auch die Excel auf dem Desktop von Herrn Schmidt. Auch die Google Sheet, die Marketing nutzt. Auch das Backup von 2019, das niemand mehr anfasst.

Pro Quelle dokumentiere:

Allein diese Inventur ist meist eine Offenbarung. Du wirst Datenquellen entdecken, von denen du nicht wusstest, dass es sie gibt.

Tag 4–7: Profilieren

Jetzt geht es ans Messen. Für jede zentrale Datenquelle prüfst du vier Dimensionen:

Das geht mit SQL, Python (pandas), oder für die meisten KMUs mit Excel und Pivot-Tabellen. Du brauchst keine Enterprise-Software — du brauchst eine ehrliche Stunde pro Datenquelle.

Tag 8–11: Priorisieren

Du wirst hunderte Probleme finden. Du kannst nicht alle lösen. Also priorisiere nach zwei Achsen:

Top-Quadrant: Hoher Impact, niedriger Aufwand. Das machst du zuerst. Niedriger Impact, hoher Aufwand: lass es liegen, eventuell für immer.

Tag 12–14: Quick Wins umsetzen

In den letzten drei Tagen lieferst du mindestens drei sichtbare Verbesserungen:

Ergebnis nach 14 Tagen: Du hast Transparenz, eine Priorisierung, drei umgesetzte Verbesserungen — und eine ehrliche Roadmap für die nächsten 90 Tage.

Tools, die kostenlos oder günstig wirklich helfen

Du brauchst weder Master Data Management Software für 50.000€ noch Enterprise-Tools mit zwölf Lizenzen. Hier die Werkzeuge, mit denen 80% der KMU-Datenqualitätsprobleme lösbar sind:

Mein Rat: Starte mit SQL-Queries und einem PostgreSQL-Setup mit sauberen Constraints. Erweitere bei Bedarf um Great Expectations oder Python-Profiling. Tools wie OpenRefine sind perfekt für einmalige Bereinigungen, aber kein laufender Prozess.

Wo die Grenzen sind — Ehrlich bleiben

Datenqualität ist kein Projekt mit Anfang und Ende. Sie ist ein Prozess. Und sie hat klare Grenzen:

Und ein Punkt, der oft fehlt: Manchmal ist die ehrliche Antwort, dass dein KMU für ein bestimmtes KI-Projekt schlicht nicht datenreif ist. Dann ist die richtige Entscheidung nicht „mehr Tools kaufen", sondern „erst Fundament bauen, dann KI bauen". Sechs Monate vorher investiert sparen oft zwölf Monate Frust hinterher.

Die einfache Formel: Ist deine Datenbasis KI-ready?

Bevor du ein KI-Projekt startest, prüfe diese vier Werte für die relevanten Datenquellen:

Vollständigkeit ≥ 90%  |  Eindeutigkeit ≥ 95%
Aktualität ≤ 30 Tage (Stammdaten)  |  Konsistenz zwischen Systemen messbar

Wenn du in einem dieser Werte deutlich darunter liegst, ist die Wahrscheinlichkeit hoch, dass dein KI-Projekt enttäuschen wird. Nicht weil die KI schlecht ist — sondern weil der Input nicht trägt.

Das ist keine Ausrede, um KI-Projekte aufzuschieben. Es ist eine Bedingung, sie ehrlich zu kalkulieren. Wenn du diese Schwellen nicht erreichst, plane die Datenarbeit als Teil des Projekts ein. Sie ist nicht „Vorbereitung" — sie ist 50% der Wertschöpfung.

Warum das jetzt zählt

In den letzten Jahren konntest du dir schlechte Datenqualität leisten. Die Entscheidungen wurden ohnehin per Bauchgefühl getroffen, die Reports waren mehr Show als Substanz. Schmutzige Daten haben dich nicht direkt Geld gekostet — höchstens indirekt.

2026 ändert sich das. Wer KI in Pricing, Forecasting, Kundenkommunikation oder Operations einsetzt, baut seine Entscheidungen direkt auf den Daten auf. Eine 5%-Abweichung in den Stammdaten führt zu einer 5%-Abweichung im Forecast — und einer 5%-Abweichung in der Lagerplanung. Das skaliert.

In der Airline-Welt haben wir das vor 30 Jahren gelernt. Datenqualität ist dort kein IT-Thema, sondern Chefsache — weil jeder Prozentpunkt direkt in den Umsatz fließt. Der Mittelstand steht jetzt vor demselben Lernprozess. Wer heute investiert, hat 2027 einen strukturellen Vorteil. Wer es weiter ignoriert, wird sich wundern, warum „die KI nicht funktioniert".

Die Wahrheit ist: Die KI funktioniert. Deine Daten nicht.


Du willst wissen, wie es um deine Datenbasis wirklich steht — und wo der größte Hebel liegt?

Ich helfe Mittelständlern dabei, ihre Datenqualität ehrlich zu auditieren und in pragmatischen Schritten ein Fundament zu bauen, auf dem BI und KI tatsächlich tragen. Kein Beratungs-Theater, keine 200-Seiten-Konzepte — nur belastbare Ergebnisse.

Lass uns sprechen →