Datenqualität für KI: Minimalanforderungen & schnelle Checks
Welche Daten braucht KI wirklich? Praktische Checklisten und schnelle Qualitätsprüfungen für den Einstieg.
"Wir haben keine guten Daten" – dieser Satz tötet mehr KI-Projekte als technische Probleme. Aber stimmt das wirklich? Oft ist die Datenlage besser als gedacht. Man muss nur wissen, worauf es ankommt.
Was KI wirklich braucht
Für LLM-Anwendungen (ChatGPT, RAG, Agents)
Gute Nachricht: LLMs sind erstaunlich robust gegenüber "schmutzigen" Daten. Was zählt:
- Textdaten in lesbarem Format (PDF, Word, HTML, Markdown)
- Struktur ist nice-to-have, nicht must-have
- Aktualität wichtiger als Perfektion
- Relevanz – lieber weniger, aber passende Daten
Typische Quellen:
- Interne Dokumentation (Confluence, SharePoint, Notion)
- E-Mails und Tickets (anonymisiert)
- Produktdatenblätter, FAQs, Handbücher
- CRM-Notizen, Meeting-Protokolle
Für klassisches ML (Forecasting, Klassifikation)
Hier sind die Anforderungen strenger:
- Strukturierte Daten (Tabellen, Datenbanken)
- Historische Tiefe (mindestens 12-24 Monate)
- Konsistente Definitionen (was ist ein "Kunde"?)
- Minimale Lücken (fehlende Werte unter 20%)
Die 5 Dimensionen der Datenqualität
1. Vollständigkeit
Frage: Sind die wichtigen Felder gefüllt?
Schneller Check:
SELECT
COUNT(*) as total,
SUM(CASE WHEN email IS NULL THEN 1 ELSE 0 END) as missing_email
FROM customers
Akzeptabel für KI:
- LLM/RAG: Lücken sind okay, solange Kerninfo vorhanden
- ML: Unter 20% fehlende Werte in Zielfeldern
2. Aktualität
Frage: Sind die Daten noch relevant?
Schneller Check:
- Wann wurde das Dokument zuletzt aktualisiert?
- Gibt es veraltete Preise, Ansprechpartner, Produkte?
Akzeptabel für KI:
- RAG: Dokumente älter als 2 Jahre kritisch prüfen
- Forecasting: Daten vor COVID oft weniger aussagekräftig
3. Konsistenz
Frage: Bedeuten gleiche Begriffe überall dasselbe?
Typische Probleme:
- "Umsatz" = Brutto vs. Netto
- "Kunde" = Kontakt vs. zahlender Account
- Datumsformate: DD.MM.YYYY vs. MM/DD/YYYY
Schneller Check:
SELECT DISTINCT status FROM orders
-- Erwartet: 5-10 Werte
-- Problem: 50+ verschiedene Schreibweisen
4. Genauigkeit
Frage: Stimmen die Daten mit der Realität überein?
Schneller Check:
- Stichproben manuell prüfen (10-20 Datensätze)
- Plausibilitätschecks (negative Preise? Geburtsdatum in der Zukunft?)
Akzeptabel für KI:
- Einzelne Fehler sind tolerierbar
- Systematische Fehler sind kritisch (alle Preise um 10% falsch)
5. Zugänglichkeit
Frage: Können wir die Daten technisch erreichen?
Typische Hürden:
- Daten in Legacy-System ohne API
- PDF-Scans statt durchsuchbare Dokumente
- Berechtigungen fehlen
- DSGVO-Restriktionen
Schnelle Qualitätsprüfung (30 Minuten)
Schritt 1: Datenquellen inventarisieren (10 Min)
| Quelle | Format | Umfang | Aktualität | Zugriff |
|---|---|---|---|---|
| SharePoint Docs | PDF, DOCX | 500+ | Gemischt | Ja |
| CRM (Salesforce) | Strukturiert | 10k Kontakte | Aktuell | API vorhanden |
| E-Mail-Archiv | EML/MSG | 50k+ | 3 Jahre | Komplex |
Schritt 2: Stichprobenprüfung (10 Min)
- 10 zufällige Dokumente öffnen
- Sind sie lesbar? Vollständig? Aktuell?
- Gibt es Duplikate oder Versionen-Chaos?
Schritt 3: Technischer Quick-Check (10 Min)
Für Textdaten:
- Lassen sich PDFs in Text extrahieren? (Test mit PyMuPDF oder pdfplumber)
- Sind Scans OCR-fähig?
Für strukturierte Daten:
import pandas as pd
df = pd.read_csv("data.csv")
print(df.info()) # Datentypen, Nullwerte
print(df.describe()) # Statistische Übersicht
print(df.duplicated().sum()) # Duplikate
Häufige Datenprobleme und Lösungen
Problem 1: Dokumente sind PDF-Scans
Lösung: OCR-Tools (Azure Document Intelligence, AWS Textract, Tesseract)
Aufwand: Moderat – 1-2 Tage für Pipeline-Setup
Qualitätsverlust: 5-15% je nach Scan-Qualität
Problem 2: Daten in Silos verteilt
Lösung:
- Kurzfristig: Manuelle Zusammenführung für Pilot
- Langfristig: Data Warehouse oder Lakehouse
Aufwand: Hoch für Langfristlösung, niedrig für Pilot
Problem 3: Inkonsistente Namenskonventionen
Lösung: Mapping-Tabelle erstellen
status_mapping = {
"abgeschlossen": "completed",
"fertig": "completed",
"erledigt": "completed",
"offen": "open",
"in Bearbeitung": "in_progress"
}
Problem 4: Zu wenig Daten
Faustregel für ML:
- Klassifikation: Mindestens 100 Beispiele pro Klasse
- Regression: Mindestens 10x so viele Datenpunkte wie Features
- RAG: Kein Minimum – funktioniert auch mit 50 Dokumenten
Lösungen:
- Data Augmentation
- Transfer Learning
- Synthetische Daten (mit Vorsicht)
Problem 5: Sensible Daten
Lösung:
- Anonymisierung/Pseudonymisierung vor Verarbeitung
- On-Premise-Modelle statt Cloud-APIs
- Azure OpenAI in EU-Region
Minimalanforderungen nach Use-Case
Interner Chatbot / RAG
- 50+ relevante Dokumente
- Text extrahierbar (kein reiner Bildscan)
- Dokumente nicht älter als 3 Jahre (oder bewusst historisch)
- Keine DSGVO-kritischen Personendaten
Dokumentenklassifikation
- 100+ Beispiele pro Kategorie
- Kategorien klar definiert und abgegrenzt
- Repräsentative Stichprobe (nicht nur einfache Fälle)
Forecasting / Zeitreihen
- 24+ Monate historische Daten
- Tägliche oder wöchentliche Granularität
- Bekannte Sondereffekte dokumentiert (Corona, Streiks, Kampagnen)
- Unter 10% fehlende Werte
Sentiment-Analyse / NLP
- 500+ gelabelte Beispiele
- Ausgewogene Verteilung (nicht 95% positiv)
- Konsistente Labeling-Richtlinien
Fazit
Perfekte Daten gibt es nicht. Die Frage ist nicht "Sind unsere Daten gut genug?" sondern "Für welchen Use-Case reichen sie?"
Die meisten Unternehmen haben mehr nutzbare Daten als sie denken. Der Trick: Klein starten, mit echten Daten testen, iterativ verbessern.
Unsicher über Ihre Datenlage? In der KI-Erstberatung machen wir gemeinsam einen Quick-Check und identifizieren die Low-Hanging Fruits.

Über den Autor
Edward Abiakin
KI-Berater & Software Engineer
10 Jahre Erfahrung in Software & KI. Ich helfe Unternehmen, KI-Use-Cases zu finden, zu priorisieren und umzusetzen.
Auf LinkedIn vernetzen →Sie wollen das umsetzen?
In der Erstberatung erstellen wir gemeinsam Ihren individuellen Plan.
Erstberatung buchen