Nous Research представляет NousCoder-14B: модель кодирования с открытым исходным кодом бросает вызов проприетарным гигантам

США - Информационное агентство Эхбари

Nous Research представляет NousCoder-14B: модель кодирования с открытым исходным кодом бросает вызов проприетарным гигантам

В шаге, подчеркивающем стремительный темп развития программного обеспечения с помощью ИИ, Nous Research, стартап в области искусственного интеллекта с открытым исходным кодом, поддерживаемый венчурной фирмой Paradigm, выпустила NousCoder-14B. Эта новая модель для соревновательного программирования, обученная за удивительные четыре дня с использованием 48 новейших графических процессоров Nvidia B200, претендует на соответствие или превосходство над несколькими более крупными проприетарными системами. Ее появление усиливает конкуренцию в и без того переполненной нише ИИ-ассистентов для кодирования, особенно в момент, когда агентный инструмент программирования от Anthropic, Claude Code, доминировал в обсуждениях в социальных сетях с Нового года, а разработчики делились восторженными отзывами.

Одновременное появление этих передовых инструментов для кодирования на базе ИИ подчеркивает быструю эволюцию разработки программного обеспечения с помощью ИИ. Это также свидетельствует о жесткой конкуренции между компаниями, как крупными, так и малыми, стремящимися захватить то, что многие считают основополагающей технологией для будущего программной инженерии. Гонка за определение того, как будет писаться код и управляться проекты в ближайшие годы, началась.

Приверженность Nous Research открытости и воспроизводимости

Ключевым отличием выпуска NousCoder-14B является его радикальная открытость. Nous Research поделилась не только весами модели, но и полной средой обучения с подкреплением, набором эталонных тестов и инструментами обучения. Построенные на основе фреймворка Atropos компании, эти ресурсы позволяют любому исследователю, обладающему достаточными вычислительными мощностями, воспроизвести или развить их работу. Эта приверженность открытой науке ускоряет прогресс и позволяет проводить более широкий анализ и улучшения.

"Открытое предоставление стека Atropos обеспечивает необходимую инфраструктуру для воспроизводимых исследований на уровне олимпиад", — отметил наблюдатель на X, подчеркивая значимость для академических сообществ и сообществ открытого исходного кода. Этот шаг демократизирует доступ к передовым инструментам и методологиям исследований в области ИИ.

Модель была обучена Джо Ли, исследователем-резидентом в Nous Research и бывшим соревновательным программистом. Технический отчет Ли предлагает личную перспективу, сравнивая траекторию обучения модели с его собственным путем на Codeforces, популярной платформе для соревновательного программирования. Он сопоставил оценки LiveCodeBench с рейтингами Codeforces, оценив, что улучшение NousCoder-14B — с примерного диапазона рейтинга 1600-1750 до 2100-2200 — отражает скачок, которого он достиг примерно за два года непрерывной практики в возрасте от 14 до 16 лет. Модель ИИ повторила этот эквивалентный прогресс всего за четыре дня.

"Наблюдать за финальным этапом обучения было очень сюрреалистичным опытом", — написал Ли в техническом отчете. Однако он быстро добавил важное предостережение относительно эффективности ИИ: хотя он решил около 1000 задач за два года практики, модели потребовалось 24 000 задач. Это подчеркивает, что пока люди остаются значительно более эффективными в обучении на основе выборки, что является ключевой областью для будущих исследований в области ИИ.

Внутри системы обучения с подкреплением

Процесс обучения NousCoder-14B предоставляет ценную информацию о сложных методах, которые исследователи используют для улучшения рассуждений ИИ посредством обучения с подкреплением. Методология основана на "проверяемых вознаграждениях", при которых ИИ генерирует решения кода, эти решения выполняются в отношении тестовых случаев, и модель получает простой бинарный отклик: правильно или неправильно. Этот цикл обратной связи, хотя и прост по концепции, требует значительной инфраструктуры для крупномасштабной реализации.

Nous Research использовала Modal, платформу облачных вычислений, для параллельного выполнения изолированных программных кодов. Каждая из 24 000 обучающих задач включает в среднем сотни тестовых случаев. Система должна строго проверять, что сгенерированный код выдает правильные результаты в рамках строгих ограничений по времени (15 секунд) и памяти (4 гигабайта).

Обучение включало в себя технику, известную как DAPO (Dynamic Sampling Policy Optimization), которая, по мнению исследователей, оказалась немного эффективнее альтернатив. Ключевым нововведением является "динамическая выборка" — отбрасывание обучающих примеров, в которых модель либо успешно выполняет все попытки, либо терпит неудачу во всех попытках, поскольку они не дают полезного сигнала для обучения. Кроме того, исследователи внедрили "итеративное расширение контекста", первоначально обучая модель с окном контекста в 32 000 токенов, а затем расширяя его до 40 000 токенов. При оценке расширение контекста примерно до 80 000 токенов дало наилучшие результаты точности, достигнув заявленных 67,87%.

Важно отметить, что конвейер обучения эффективно совмещает вывод и проверку. Как только модель генерирует решение, она начинает работать над следующей задачей, в то время как предыдущее решение проверяется. Этот конвейерный процесс, в сочетании с асинхронным обучением, при котором несколько экземпляров модели работают параллельно, максимизирует использование оборудования на дорогостоящих кластерах GPU.

Надвигающийся дефицит данных в разработке ИИ

Значительное открытие в техническом отчете Ли указывает на потенциальное узкое место для будущего развития ИИ: набор данных для обучения NousCoder-14B использовал "значительную часть всех легкодоступных, проверяемых задач соревновательного программирования в стандартизированном формате набора данных". Это предполагает, что в специфической области соревновательного программирования доступность высококачественных обучающих данных достигает своего предела.

"Общее количество задач соревновательного программирования в Интернете примерно того же порядка величины", — заявил Ли, ссылаясь на 24 000 использованных задач. "Это говорит о том, что в области соревновательного программирования мы достигли пределов высококачественных данных." Это наблюдение перекликается с более широкими опасениями в индустрии ИИ относительно ограничений данных. В то время как вычислительная мощность продолжает масштабироваться предсказуемым образом, обучающие данные становятся все более ограниченными.

Ли пришел к выводу: "Похоже, что некоторые из наиболее важных исследований, которые необходимо провести в будущем, будут касаться областей генерации синтетических данных и эффективных по данным алгоритмов и архитектур." Проблема особенно остро стоит для соревновательного программирования, поскольку она требует задач с известными, автоматически проверяемыми правильными решениями, в отличие от обработки естественного языка, где возможны неоднозначность и множественные допустимые интерпретации.

Информационное агентство Эхбари

Nous Research представляет NousCoder-14B: модель кодирования с открытым исходным кодом бросает вызов проприетарным гигантам

Новая модель ИИ, обученная за четыре дня, демонстрирует конк