Nous Research stellt NousCoder-14B vor: Open-Source-Codierungsmodell fordert proprietäre Giganten heraus

USA - Ekhbary Nachrichtenagentur

Nous Research stellt NousCoder-14B vor: Open-Source-Codierungsmodell fordert proprietäre Giganten heraus

In einem Schritt, der die rasante Entwicklung der KI-gestützten Softwareentwicklung unterstreicht, hat Nous Research, ein Startup im Bereich Open-Source-Künstliche Intelligenz, das von der Krypto-Venture-Firma Paradigm unterstützt wird, ein neues Modell für kompetitives Programmieren veröffentlicht. Das Modell mit dem Namen NousCoder-14B soll mehrere größere proprietäre Systeme erreichen oder übertreffen und wurde in erstaunlichen vier Tagen unter Verwendung von 48 der neuesten Nvidia B200 Grafikprozessoren trainiert.

NousCoder-14B tritt in ein sich schnell entwickelndes Feld von KI-Codierungsassistenten ein, und das zu einem besonders günstigen Zeitpunkt. Das agentenbasierte Programmierwerkzeug Claude Code des Konkurrenten Anthropic hat seit Neujahr die Diskussionen in sozialen Medien dominiert, wobei Entwickler enthusiastische Erfahrungsberichte über seine Fähigkeiten teilen. Diese gleichzeitigen Entwicklungen verdeutlichen das beschleunigte Tempo der KI-gesteuerten Softwareentwicklung und den erbitterten Wettbewerb zwischen großen und kleinen Unternehmen, um das zu erobern, was viele als eine grundlegende Technologie für die Softwareerstellung betrachten.

Auch lesen

Auf LiveCodeBench v6, einer standardisierten Bewertung für kompetitive Programmierprobleme, die zwischen August 2024 und Mai 2025 veröffentlicht wurden, erreichte NousCoder-14B eine Genauigkeit von 67,87 Prozent. Laut dem technischen Bericht von Nous Research stellt dieser Wert eine signifikante Verbesserung um 7,08 Prozentpunkte gegenüber seinem Basismodell, Qwen3-14B von Alibaba, dar.

Die aktuelle Stimmung rund um KI-Codierungswerkzeuge wurde von Jaana Dogan, Principal Engineer bei Google für die Gemini API, lebhaft eingefangen. In einem viralen Beitrag auf X letzte Woche teilte Dogan ihre Erfahrung: "Ich gab Claude Code die Beschreibung des Problems, und es generierte in einer Stunde, was wir letztes Jahr gebaut haben." Sie bezog sich auf ein verteiltes Agenten-Orchestrierungssystem, dessen Entwicklung ihr Team ein Jahr lang gedauert hatte und das Claude Code aus einer dreiteiligen Beschreibung approximieren konnte.

Diese Gegenüberstellung ist aufschlussreich. Während Claude Code von Anthropic die Vorstellungskraft mit Demonstrationen der End-to-End-Softwareentwicklung gefangen genommen hat, positioniert Nous Research NousCoder-14B als eine leistungsstarke Open-Source-Alternative. Ihre Strategie basiert auf der Überzeugung, dass Modelle, die auf verifizierbaren Problemen trainiert werden, die Fähigkeitslücke schließen können und dass Transparenz im Modellbildungsprozess ebenso entscheidend ist wie rohe Leistung.

Transparenz und Reproduzierbarkeit: Die Besonderheit von NousCoder-14B

Was die Veröffentlichung von NousCoder-14B von vielen Konkurrenzmeldungen wirklich unterscheidet, ist sein Engagement für radikale Offenheit. Nous Research hat nicht nur die Modellgewichte veröffentlicht, sondern auch die gesamte Reinforcement-Learning-Umgebung, die Benchmark-Suite und das Trainings-Harness, die alle auf dem Atropos-Framework des Unternehmens basieren. Diese umfassende Veröffentlichung ermöglicht es jedem Forscher mit ausreichenden Rechenressourcen, die Arbeit zu reproduzieren oder darauf aufzubauen.

„Das Open-Sourcing des Atropos-Stacks liefert die notwendige Infrastruktur für reproduzierbare Forschungsarbeiten auf Olympiade-Niveau im Bereich des logischen Denkens“, bemerkte ein Beobachter auf X und fasste die tiefgreifende Bedeutung dieses Ansatzes für akademische und Open-Source-Gemeinschaften zusammen.

Das Modell wurde von Joe Li trainiert, einem Forscher bei Nous Research und selbst ehemaligem Wettkamp programmierer. Li's technischer Bericht bietet eine persönliche Perspektive und vergleicht die Leistungskurve des Modells mit seinem eigenen Werdegang auf Codeforces, einer beliebten Plattform für kompetitives Programmieren. Er ordnete die LiveCodeBench-Ergebnisse den Codeforces-Ranglisten zu und schätzte, dass die Verbesserung von NousCoder-14B – von einer ungefähren Ranglisten-Spanne von 1600-1750 auf 2100-2200 – einen Sprung widerspiegelt, der ihm zwischen 14 und 16 Jahren fast zwei Jahre intensiver Übung kostete. Das Modell erreichte diesen äquivalenten Fortschritt in nur vier Tagen.

„Es war eine ziemlich surreale Erfahrung, den letzten Trainingslauf zu beobachten“, schrieb Li im technischen Bericht. Er wies jedoch auch auf eine wichtige Einschränkung hinsichtlich der Effizienz von KI hin: Während er in seinen zwei Jahren Übung etwa 1.000 Probleme löste, benötigte das Modell 24.000 Probleme. Dies unterstreicht, dass Menschen zumindest vorerst deutlich sample-effizientere Lerner bleiben.

Einblick in das Reinforcement-Learning-System: Training mit 24.000 Problemen

Der Trainingsprozess von NousCoder-14B gibt Einblick in die hochentwickelten Techniken, die Forscher anwenden, um die Denkfähigkeiten von KI durch Reinforcement Learning zu verbessern. Die Kernmethodik basiert auf dem, was Forscher als „verifizierbare Belohnungen“ bezeichnen. In diesem System generiert das Modell Code-Lösungen, die dann anhand von Testfällen ausgeführt werden. Das Modell erhält ein einfaches binäres Feedback-Signal: richtig oder falsch. Obwohl konzeptionell einfach, erfordert dieser Feedback-Loop eine beträchtliche Infrastruktur für die Ausführung im großen Maßstab.

Nous Research nutzte Modal, eine Cloud-Computing-Plattform, um isolierte (sandboxed) Code-Ausführungen parallel durchzuführen. Jedes der 24.000 Trainingsprobleme enthält durchschnittlich Hunderte von Testfällen. Das System muss rigoros überprüfen, ob der generierte Code innerhalb strenger Zeit- und Speicherbeschränkungen – 15 Sekunden bzw. 4 Gigabyte – korrekte Ergebnisse liefert.

Das Training verwendete eine Technik namens DAPO (Dynamic Sampling Policy Optimization), die sich in ihren Experimenten als geringfügig besser als Alternativen erwies. Eine Schlüsselinnovation ist das „dynamische Sampling“ – das Verwerfen von Trainingsbeispielen, bei denen das Modell entweder alle Versuche löst oder bei allen Versuchen scheitert, da diese kein nützliches Gradientensignal für das Lernen liefern.

Die Forscher implementierten auch „iterative Kontextverlängerung“, indem sie das Modell zunächst mit einem Kontextfenster von 32.000 Tokens trainierten, bevor sie es auf 40.000 Tokens erweiterten. Während der Evaluierung lieferte die Erweiterung des Kontexts auf etwa 80.000 Tokens die besten Ergebnisse mit einer Genauigkeit von 67,87 Prozent.

Besonders bedeutsam ist, dass die Trainingspipeline Inferenz und Verifizierung überlappt – sobald das Modell eine Lösung generiert hat, beginnt es mit dem nächsten Problem, während die vorherige Lösung überprüft wird. Dieses Pipelining, kombiniert mit asynchronem Training, bei dem mehrere Modellinstanzen parallel arbeiten, maximiert die Hardwareauslastung auf teuren GPU-Clustern.

Nous Research stellt NousCoder-14B vor: Open-Source-Codierungsmodell fordert proprietäre Giganten heraus

Neues Modell für kompetitives Programmieren, in Rekordzeit t