Moderne KI-Modelle wie GPT-4, LLaMA und Anthropic’s Modelle haben die Messlatte für mehrsprachige Textgenerierung hoch gelegt. Doch speziell in Europa stehen Unternehmen vor einer Herausforderung: Sie bevorzugen Open-Source-LLMs, die sich lokal und privat hosten lassen. Dies ist entscheidend, um sensible proprietäre Daten sicher zu verarbeiten, ohne sie dem Internet auszusetzen. Zudem wünschen sich viele Unternehmen die volle Kontrolle über Fine-Tuning und Alignment, um die Modelle exakt auf ihre spezifischen Anforderungen abzustimmen.
Texte in deutscher Sprache erstellen
Ein zentrales Problem: Die meisten modernen Open-Source-Modelle haben nur begrenzte Fähigkeiten in europäischen Sprachen, insbesondere im Deutschen. Das erschwert die Entwicklung leistungsstarker KI-Lösungen für den deutschsprachigen Markt erheblich.
Die zentrale Frage lautet also: Wie können wir die deutschen Sprachfähigkeiten kleiner Open-Source-LLMs auf das Niveau großer Foundation-Modelle heben? Diese Herausforderung zeigt nicht nur die bestehenden Lücken in aktuellen Open-Source-KI-Angeboten, sondern auch die Notwendigkeit innovativer Ansätze, um diese zu schließen. So stellen wir sicher, dass deutsche KI-Anwendungen die gleiche Qualität, Präzision und Anwendbarkeit erreichen wie ihre Pendants in besser unterstützten Sprachen.
Um die deutschen Sprachfähigkeiten in Open-Source-LLMs signifikant zu verbessern, haben wir eine Initiative gestartet, in der wir mehrere führende Open-Source-Sprachmodelle gezielt trainiert haben. Dafür haben wir ein umfangreiches deutsches Instruction-Tuning-Dataset entwickelt, das die Leistung der Modelle über eine Vielzahl von Aufgaben hinweg optimiert.
Doch unser Ziel ging über die reine Modellentwicklung hinaus: Wir haben sowohl die verbesserten Modelle als auch die Trainingsdaten öffentlich auf Hugging Face zugänglich gemacht. Diese Entscheidung basiert auf unserer Überzeugung, dass Open-Source-KI-Technologie eine transformative Kraft hat – und dass gemeinschaftliche Innovation der Schlüssel ist, um künstliche Intelligenz für alle nutzbar zu machen.
Ein Schritt hin zu einer zugänglicheren und demokratisierten KI
Die durch unsere Optimierungen verbesserten Modelle bieten nicht nur eine erstklassige deutsche Textgenerierung, sondern sind zugleich kompakt und ressourcenschonend. Trotz ihrer geringeren Größe liefern sie eine beeindruckende Leistung – ein entscheidender Schritt hin zu einer breit zugänglichen und demokratisierten KI. Dank ihres geringen Rechenbedarfs lassen sich diese leistungsstarken LLMs effizient trainieren und ausführen, was sie ideal für vielseitige Anwendungen macht – von Unternehmenslösungen bis hin zu lokalen persönlichen KI-Assistenten, die direkt auf dem eigenen Computer laufen. Diese Entwicklung verkörpert unsere Vision von KI: leistungsfähig, effizient und für jeden zugänglich – ein echter Fortschritt hin zu mehr Inklusivität und praktischer Nutzbarkeit.
• AWS Sagemaker for hardware access
• Deepspeed for distributed training setup
• vLLM for fast and efficient inference
• Huggingface datatrove for data pre-processing tasks
• Mergekit for merging multiple models to stabilize the overall performance