KI einführen

Datenqualität für KI: Minimalanforderungen & schnelle Checks

Welche Daten braucht KI wirklich? Praktische Checklisten und schnelle Qualitätsprüfungen für den Einstieg.

"Wir haben keine guten Daten" – dieser Satz tötet mehr KI-Projekte als technische Probleme. Aber stimmt das wirklich? Oft ist die Datenlage besser als gedacht. Man muss nur wissen, worauf es ankommt.

Was KI wirklich braucht

Für LLM-Anwendungen (ChatGPT, RAG, Agents)

Gute Nachricht: LLMs sind erstaunlich robust gegenüber "schmutzigen" Daten. Was zählt:

  • Textdaten in lesbarem Format (PDF, Word, HTML, Markdown)
  • Struktur ist nice-to-have, nicht must-have
  • Aktualität wichtiger als Perfektion
  • Relevanz – lieber weniger, aber passende Daten

Typische Quellen:

  • Interne Dokumentation (Confluence, SharePoint, Notion)
  • E-Mails und Tickets (anonymisiert)
  • Produktdatenblätter, FAQs, Handbücher
  • CRM-Notizen, Meeting-Protokolle

Für klassisches ML (Forecasting, Klassifikation)

Hier sind die Anforderungen strenger:

  • Strukturierte Daten (Tabellen, Datenbanken)
  • Historische Tiefe (mindestens 12-24 Monate)
  • Konsistente Definitionen (was ist ein "Kunde"?)
  • Minimale Lücken (fehlende Werte unter 20%)

Die 5 Dimensionen der Datenqualität

1. Vollständigkeit

Frage: Sind die wichtigen Felder gefüllt?

Schneller Check:

SELECT 
  COUNT(*) as total,
  SUM(CASE WHEN email IS NULL THEN 1 ELSE 0 END) as missing_email
FROM customers

Akzeptabel für KI:

  • LLM/RAG: Lücken sind okay, solange Kerninfo vorhanden
  • ML: Unter 20% fehlende Werte in Zielfeldern

2. Aktualität

Frage: Sind die Daten noch relevant?

Schneller Check:

  • Wann wurde das Dokument zuletzt aktualisiert?
  • Gibt es veraltete Preise, Ansprechpartner, Produkte?

Akzeptabel für KI:

  • RAG: Dokumente älter als 2 Jahre kritisch prüfen
  • Forecasting: Daten vor COVID oft weniger aussagekräftig

3. Konsistenz

Frage: Bedeuten gleiche Begriffe überall dasselbe?

Typische Probleme:

  • "Umsatz" = Brutto vs. Netto
  • "Kunde" = Kontakt vs. zahlender Account
  • Datumsformate: DD.MM.YYYY vs. MM/DD/YYYY

Schneller Check:

SELECT DISTINCT status FROM orders
-- Erwartet: 5-10 Werte
-- Problem: 50+ verschiedene Schreibweisen

4. Genauigkeit

Frage: Stimmen die Daten mit der Realität überein?

Schneller Check:

  • Stichproben manuell prüfen (10-20 Datensätze)
  • Plausibilitätschecks (negative Preise? Geburtsdatum in der Zukunft?)

Akzeptabel für KI:

  • Einzelne Fehler sind tolerierbar
  • Systematische Fehler sind kritisch (alle Preise um 10% falsch)

5. Zugänglichkeit

Frage: Können wir die Daten technisch erreichen?

Typische Hürden:

  • Daten in Legacy-System ohne API
  • PDF-Scans statt durchsuchbare Dokumente
  • Berechtigungen fehlen
  • DSGVO-Restriktionen

Schnelle Qualitätsprüfung (30 Minuten)

Schritt 1: Datenquellen inventarisieren (10 Min)

QuelleFormatUmfangAktualitätZugriff
SharePoint DocsPDF, DOCX500+GemischtJa
CRM (Salesforce)Strukturiert10k KontakteAktuellAPI vorhanden
E-Mail-ArchivEML/MSG50k+3 JahreKomplex

Schritt 2: Stichprobenprüfung (10 Min)

  • 10 zufällige Dokumente öffnen
  • Sind sie lesbar? Vollständig? Aktuell?
  • Gibt es Duplikate oder Versionen-Chaos?

Schritt 3: Technischer Quick-Check (10 Min)

Für Textdaten:

  • Lassen sich PDFs in Text extrahieren? (Test mit PyMuPDF oder pdfplumber)
  • Sind Scans OCR-fähig?

Für strukturierte Daten:

import pandas as pd
df = pd.read_csv("data.csv")
print(df.info())  # Datentypen, Nullwerte
print(df.describe())  # Statistische Übersicht
print(df.duplicated().sum())  # Duplikate

Häufige Datenprobleme und Lösungen

Problem 1: Dokumente sind PDF-Scans

Lösung: OCR-Tools (Azure Document Intelligence, AWS Textract, Tesseract)

Aufwand: Moderat – 1-2 Tage für Pipeline-Setup

Qualitätsverlust: 5-15% je nach Scan-Qualität

Problem 2: Daten in Silos verteilt

Lösung:

  • Kurzfristig: Manuelle Zusammenführung für Pilot
  • Langfristig: Data Warehouse oder Lakehouse

Aufwand: Hoch für Langfristlösung, niedrig für Pilot

Problem 3: Inkonsistente Namenskonventionen

Lösung: Mapping-Tabelle erstellen

status_mapping = {
    "abgeschlossen": "completed",
    "fertig": "completed",
    "erledigt": "completed",
    "offen": "open",
    "in Bearbeitung": "in_progress"
}

Problem 4: Zu wenig Daten

Faustregel für ML:

  • Klassifikation: Mindestens 100 Beispiele pro Klasse
  • Regression: Mindestens 10x so viele Datenpunkte wie Features
  • RAG: Kein Minimum – funktioniert auch mit 50 Dokumenten

Lösungen:

  • Data Augmentation
  • Transfer Learning
  • Synthetische Daten (mit Vorsicht)

Problem 5: Sensible Daten

Lösung:

  • Anonymisierung/Pseudonymisierung vor Verarbeitung
  • On-Premise-Modelle statt Cloud-APIs
  • Azure OpenAI in EU-Region

Minimalanforderungen nach Use-Case

Interner Chatbot / RAG

  • 50+ relevante Dokumente
  • Text extrahierbar (kein reiner Bildscan)
  • Dokumente nicht älter als 3 Jahre (oder bewusst historisch)
  • Keine DSGVO-kritischen Personendaten

Dokumentenklassifikation

  • 100+ Beispiele pro Kategorie
  • Kategorien klar definiert und abgegrenzt
  • Repräsentative Stichprobe (nicht nur einfache Fälle)

Forecasting / Zeitreihen

  • 24+ Monate historische Daten
  • Tägliche oder wöchentliche Granularität
  • Bekannte Sondereffekte dokumentiert (Corona, Streiks, Kampagnen)
  • Unter 10% fehlende Werte

Sentiment-Analyse / NLP

  • 500+ gelabelte Beispiele
  • Ausgewogene Verteilung (nicht 95% positiv)
  • Konsistente Labeling-Richtlinien

Fazit

Perfekte Daten gibt es nicht. Die Frage ist nicht "Sind unsere Daten gut genug?" sondern "Für welchen Use-Case reichen sie?"

Die meisten Unternehmen haben mehr nutzbare Daten als sie denken. Der Trick: Klein starten, mit echten Daten testen, iterativ verbessern.


Unsicher über Ihre Datenlage? In der KI-Erstberatung machen wir gemeinsam einen Quick-Check und identifizieren die Low-Hanging Fruits.

Edward Abiakin

Über den Autor

Edward Abiakin

KI-Berater & Software Engineer

10 Jahre Erfahrung in Software & KI. Ich helfe Unternehmen, KI-Use-Cases zu finden, zu priorisieren und umzusetzen.

Auf LinkedIn vernetzen →

Sie wollen das umsetzen?

In der Erstberatung erstellen wir gemeinsam Ihren individuellen Plan.

Erstberatung buchen