How China’s DeepSeek is reshaping AI training without top-tier chips

Das chinesische KI-Startup DeepSeek hat neue Forschungsergebnisse veröffentlicht, die aufzeigen, wie chinesische KI-Entwickler sich an Hardwarebeschränkungen anpassen und gleichzeitig die Modellleistung weiter vorantreiben.

Das Papier skizziert eine effizientere Methode zur Ausbildung fortgeschrittener KI-Systeme und hebt hervor, wie chinesische Unternehmen die durch eingeschränkten Zugang zu erstklassigen Chips auferlegten Beschränkungen umgehen.

Die Veröffentlichung erscheint, während der Wettbewerb zwischen chinesischen KI-Unternehmen und globalen Marktführern wie OpenAI zunimmt.

Da der Zugang zu den fortschrittlichsten Halbleitern eingeschränkt ist, wenden sich chinesische Start-ups zunehmend architektonischen und softwarebezogenen Innovationen zu.

DeepSeeks neueste Arbeit bietet einen Einblick, wie diese Einschränkungen die nächste Generation der KI-Entwicklung prägen.

Ein anderer Ansatz zur KI-Effizienz

Im Zentrum der Forschung steht ein Rahmenwerk namens Manifold-Constrained Hyper-Connections.

Die Technik ist darauf ausgelegt, die Skalierung großer KI-Modelle zu verbessern und gleichzeitig sowohl die Rechenbelastung als auch den Energieverbrauch während des Trainings zu reduzieren.

Die Forschung behandelt auch Probleme wie Trainingsinstabilität, die oft mit wachsender Modellgröße ausgeprägter wird.

Der neueste Durchbruch hilft Sprachmodellen, mehr interne Informationen kontrolliert zu teilen, während Stabilität und Effizienz auch dann erhalten bleiben, wenn die Modelle größer skaliert sind.

Forschung als Signal für das, was als Nächstes kommt

Die technischen Arbeiten von DeepSeek dienten historisch als frühe Indikatoren für kommende Produkte.

Vor etwa einem Jahr erregte das Unternehmen mit seinem R1-Logikmodell, das zu deutlich geringeren Kosten entwickelt wurde als vergleichbare Systeme von Silicon-Valley-Firmen, in der gesamten Branche Aufmerksamkeit.

Das Unternehmen hatte vor dem Start von R1 grundlegende Trainingsforschung veröffentlicht.

Seitdem hat DeepSeek mehrere kleinere Plattformen veröffentlicht und dabei ein stetiges Experimentiertempo beibehalten.

Die Vorfreude auf das nächste Flaggschiff-System wächst nun, weithin als R2 bezeichnet und für das Spring Festival im Februar erwartet wird.

Obwohl das neue Papier dieses Modell nicht explizit erwähnt, haben sein Timing und seine Tiefe die Erwartungen genährt, dass es zukünftige Veröffentlichungen zugrunde liegt.

Innovation unter äußeren Einschränkungen

US-Exportkontrollen verhindern weiterhin den Zugang chinesischer Unternehmen an die fortschrittlichsten Halbleiter, die zur Ausbildung und zum Betrieb modernster KI verwendet werden.

Diese Beschränkungen sind zu einem prägenden Faktor in Chinas KI-Strategie geworden und ermutigen Unternehmen, unkonventionelle Modellarchitekturen und effizienzorientierte Designs zu erforschen.

Die Forschung von DeepSeek passt genau zu diesem Trend.

Durch den Fokus auf Skalierbarkeit und Infrastrukturoptimierung versucht das Unternehmen, die Leistungslücke zu globalen Wettbewerbern zu verringern, ohne deren Hardware-Budgets anzupassen.

Das Papier wurde diese Woche im offenen Forschungsarchiv arXiv und auf der Open-Source-Plattform Hugging Face veröffentlicht.

Sie listet 19 Autoren auf, wobei Gründer Liang Wenfeng zuletzt genannt wird.

Liang hat die Forschungsagenda von DeepSeek konsequent geleitet und Teams dazu ermutigt, die Art und Weise, wie groß angelegte KI-Systeme gebaut werden, neu zu überdenken.

Die im Artikel beschriebenen Tests wurden an Modellen von 3 Milliarden bis 27 Milliarden Parametern durchgeführt.

Die Arbeit baut zudem auf Forschungen zur Hyperverbindungsarchitektur auf, die 2024 von ByteDance veröffentlicht wurde.

The post DeepSeek stellt eine effiziente KI-Trainingsmethode vor, während China versucht, Chip-Beschränkungen zu überwinden appeared first on Invezz