Datenqualität für KI: Minimalanforderungen & schnelle Checks

"Wir haben keine guten Daten" – dieser Satz tötet mehr KI-Projekte als technische Probleme. Aber stimmt das wirklich? Oft ist die Datenlage besser als gedacht. Man muss nur wissen, worauf es ankommt.

Was KI wirklich braucht

Für LLM-Anwendungen (ChatGPT, RAG, Agents)

Gute Nachricht: LLMs sind erstaunlich robust gegenüber "schmutzigen" Daten. Was zählt:

Textdaten in lesbarem Format (PDF, Word, HTML, Markdown)
Struktur ist nice-to-have, nicht must-have
Aktualität wichtiger als Perfektion
Relevanz – lieber weniger, aber passende Daten

Typische Quellen:

Interne Dokumentation (Confluence, SharePoint, Notion)
E-Mails und Tickets (anonymisiert)
Produktdatenblätter, FAQs, Handbücher
CRM-Notizen, Meeting-Protokolle

Für klassisches ML (Forecasting, Klassifikation)

Hier sind die Anforderungen strenger:

Strukturierte Daten (Tabellen, Datenbanken)
Historische Tiefe (mindestens 12-24 Monate)
Konsistente Definitionen (was ist ein "Kunde"?)
Minimale Lücken (fehlende Werte unter 20%)

Die 5 Dimensionen der Datenqualität

1. Vollständigkeit

Frage: Sind die wichtigen Felder gefüllt?

Schneller Check:

SELECT 
  COUNT(*) as total,
  SUM(CASE WHEN email IS NULL THEN 1 ELSE 0 END) as missing_email
FROM customers

Akzeptabel für KI:

LLM/RAG: Lücken sind okay, solange Kerninfo vorhanden
ML: Unter 20% fehlende Werte in Zielfeldern

2. Aktualität

Frage: Sind die Daten noch relevant?

Schneller Check:

Wann wurde das Dokument zuletzt aktualisiert?
Gibt es veraltete Preise, Ansprechpartner, Produkte?

Akzeptabel für KI:

RAG: Dokumente älter als 2 Jahre kritisch prüfen
Forecasting: Daten vor COVID oft weniger aussagekräftig

3. Konsistenz

Frage: Bedeuten gleiche Begriffe überall dasselbe?

Typische Probleme:

"Umsatz" = Brutto vs. Netto
"Kunde" = Kontakt vs. zahlender Account
Datumsformate: DD.MM.YYYY vs. MM/DD/YYYY

Schneller Check:

SELECT DISTINCT status FROM orders
-- Erwartet: 5-10 Werte
-- Problem: 50+ verschiedene Schreibweisen

4. Genauigkeit

Frage: Stimmen die Daten mit der Realität überein?

Schneller Check:

Stichproben manuell prüfen (10-20 Datensätze)
Plausibilitätschecks (negative Preise? Geburtsdatum in der Zukunft?)

Akzeptabel für KI:

Einzelne Fehler sind tolerierbar
Systematische Fehler sind kritisch (alle Preise um 10% falsch)

5. Zugänglichkeit

Frage: Können wir die Daten technisch erreichen?

Typische Hürden:

Daten in Legacy-System ohne API
PDF-Scans statt durchsuchbare Dokumente
Berechtigungen fehlen
DSGVO-Restriktionen

Schnelle Qualitätsprüfung (30 Minuten)

Schritt 1: Datenquellen inventarisieren (10 Min)

Quelle	Format	Umfang	Aktualität	Zugriff
SharePoint Docs	PDF, DOCX	500+	Gemischt	Ja
CRM (Salesforce)	Strukturiert	10k Kontakte	Aktuell	API vorhanden
E-Mail-Archiv	EML/MSG	50k+	3 Jahre	Komplex

Schritt 2: Stichprobenprüfung (10 Min)

10 zufällige Dokumente öffnen
Sind sie lesbar? Vollständig? Aktuell?
Gibt es Duplikate oder Versionen-Chaos?

Schritt 3: Technischer Quick-Check (10 Min)

Für Textdaten:

Lassen sich PDFs in Text extrahieren? (Test mit PyMuPDF oder pdfplumber)
Sind Scans OCR-fähig?

Für strukturierte Daten:

import pandas as pd
df = pd.read_csv("data.csv")
print(df.info())  # Datentypen, Nullwerte
print(df.describe())  # Statistische Übersicht
print(df.duplicated().sum())  # Duplikate

Häufige Datenprobleme und Lösungen

Problem 1: Dokumente sind PDF-Scans

Lösung: OCR-Tools (Azure Document Intelligence, AWS Textract, Tesseract)

Aufwand: Moderat – 1-2 Tage für Pipeline-Setup

Qualitätsverlust: 5-15% je nach Scan-Qualität

Problem 2: Daten in Silos verteilt

Lösung:

Kurzfristig: Manuelle Zusammenführung für Pilot
Langfristig: Data Warehouse oder Lakehouse

Aufwand: Hoch für Langfristlösung, niedrig für Pilot

Problem 3: Inkonsistente Namenskonventionen

Lösung: Mapping-Tabelle erstellen

status_mapping = {
    "abgeschlossen": "completed",
    "fertig": "completed",
    "erledigt": "completed",
    "offen": "open",
    "in Bearbeitung": "in_progress"
}

Problem 4: Zu wenig Daten

Faustregel für ML:

Klassifikation: Mindestens 100 Beispiele pro Klasse
Regression: Mindestens 10x so viele Datenpunkte wie Features
RAG: Kein Minimum – funktioniert auch mit 50 Dokumenten

Lösungen:

Data Augmentation
Transfer Learning
Synthetische Daten (mit Vorsicht)

Problem 5: Sensible Daten

Lösung:

Anonymisierung/Pseudonymisierung vor Verarbeitung
On-Premise-Modelle statt Cloud-APIs
Azure OpenAI in EU-Region

Minimalanforderungen nach Use-Case

Interner Chatbot / RAG

50+ relevante Dokumente
Text extrahierbar (kein reiner Bildscan)
Dokumente nicht älter als 3 Jahre (oder bewusst historisch)
Keine DSGVO-kritischen Personendaten

Dokumentenklassifikation

100+ Beispiele pro Kategorie
Kategorien klar definiert und abgegrenzt
Repräsentative Stichprobe (nicht nur einfache Fälle)

Forecasting / Zeitreihen

24+ Monate historische Daten
Tägliche oder wöchentliche Granularität
Bekannte Sondereffekte dokumentiert (Corona, Streiks, Kampagnen)
Unter 10% fehlende Werte

Sentiment-Analyse / NLP

500+ gelabelte Beispiele
Ausgewogene Verteilung (nicht 95% positiv)
Konsistente Labeling-Richtlinien

Fazit

Perfekte Daten gibt es nicht. Die Frage ist nicht "Sind unsere Daten gut genug?" sondern "Für welchen Use-Case reichen sie?"

Die meisten Unternehmen haben mehr nutzbare Daten als sie denken. Der Trick: Klein starten, mit echten Daten testen, iterativ verbessern.

Unsicher über Ihre Datenlage? In der KI-Erstberatung machen wir gemeinsam einen Quick-Check und identifizieren die Low-Hanging Fruits.

Datenqualität für KI: Minimalanforderungen & schnelle Checks

Was KI wirklich braucht

Für LLM-Anwendungen (ChatGPT, RAG, Agents)

Für klassisches ML (Forecasting, Klassifikation)

Die 5 Dimensionen der Datenqualität

1. Vollständigkeit

2. Aktualität

3. Konsistenz

4. Genauigkeit

5. Zugänglichkeit

Schnelle Qualitätsprüfung (30 Minuten)

Schritt 1: Datenquellen inventarisieren (10 Min)

Schritt 2: Stichprobenprüfung (10 Min)

Schritt 3: Technischer Quick-Check (10 Min)

Häufige Datenprobleme und Lösungen

Problem 1: Dokumente sind PDF-Scans

Problem 2: Daten in Silos verteilt

Problem 3: Inkonsistente Namenskonventionen

Problem 4: Zu wenig Daten

Problem 5: Sensible Daten

Minimalanforderungen nach Use-Case

Interner Chatbot / RAG

Dokumentenklassifikation

Forecasting / Zeitreihen

Sentiment-Analyse / NLP

Fazit

Edward Abiakin

Sie wollen das umsetzen?