США - Информационное агентство Эхбари
Nous Research представляет NousCoder-14B: модель кодирования с открытым исходным кодом бросает вызов проприетарным гигантам
В шаге, подчеркивающем стремительный темп развития программного обеспечения с помощью ИИ, Nous Research, стартап в области искусственного интеллекта с открытым исходным кодом, поддерживаемый венчурной фирмой Paradigm, выпустила NousCoder-14B. Эта новая модель для соревновательного программирования, обученная за удивительные четыре дня с использованием 48 новейших графических процессоров Nvidia B200, претендует на соответствие или превосходство над несколькими более крупными проприетарными системами. Ее появление усиливает конкуренцию в и без того переполненной нише ИИ-ассистентов для кодирования, особенно в момент, когда агентный инструмент программирования от Anthropic, Claude Code, доминировал в обсуждениях в социальных сетях с Нового года, а разработчики делились восторженными отзывами.
Одновременное появление этих передовых инструментов для кодирования на базе ИИ подчеркивает быструю эволюцию разработки программного обеспечения с помощью ИИ. Это также свидетельствует о жесткой конкуренции между компаниями, как крупными, так и малыми, стремящимися захватить то, что многие считают основополагающей технологией для будущего программной инженерии. Гонка за определение того, как будет писаться код и управляться проекты в ближайшие годы, началась.
Читайте также
- Моди запускает крупнейшую в мире программу здравоохранения: амбиции и вопросы
- Президент Южной Кореи Мун Чжэ Ин отправляется в США, стремясь к прорыву в застопорившихся переговорах между США и КНДР
- Мун Чжэ Ин в США: Сможет ли он добиться прорыва в переговорах по денуклеаризации между Вашингтоном и Пхеньяном?
- Вице-президент Вьетнама Данг Тхи Нгок Тхинь назначена исполняющей обязанности президента
- Дилемма «активов деменции» в Японии: 215 триллионов иен к 2030 году создают растущие экономические и социальные проблемы
NousCoder-14B достиг 67,87% точности в LiveCodeBench v6, стандартизированном бенчмарке для оценки задач соревновательного программирования, опубликованных между августом 2024 и маем 2025 года. Согласно техническому отчету Nous Research, сопровождающему выпуск, эта производительность представляет собой значительное улучшение на 7,08 процентных пункта по сравнению с базовой моделью, на основе которой она была разработана, — Qwen3-14B от Alibaba. Этот быстрый прогресс от базовой модели демонстрирует эффективность применяемой методологии обучения.
Ажиотаж вокруг инструментов кодирования на базе ИИ был ощутим на прошлой неделе, когда Джаана Доган, ведущий инженер Google, ответственный за API Gemini, опубликовала вирусный пост в X. Она рассказала, как предоставила Claude Code описание проблемы, и тот сгенерировал систему, на разработку которой ее команда потратила год, всего за час. Доган имела в виду распределенную систему оркестрации агентов, которую Claude Code смог аппроксимировать на основе трехпараграфного запроса, иллюстрируя потенциал ИИ для ускорения сложных задач разработки.
Это сопоставление поучительно. В то время как Claude Code от Anthropic захватил воображение общественности демонстрациями возможностей сквозной разработки программного обеспечения, Nous Research отстаивает другой путь. Они делают ставку на опенсорсные альтернативы, обученные на проверяемых задачах, чтобы сократить разрыв в производительности. Кроме того, Nous Research подчеркивает, что прозрачность в построении модели и процессе обучения так же важна, как и сырая производительность, что способствует доверию и позволяет вносить вклад сообщества.
Приверженность Nous Research открытости и воспроизводимости
Ключевым отличием выпуска NousCoder-14B является его радикальная открытость. Nous Research поделилась не только весами модели, но и полной средой обучения с подкреплением, набором эталонных тестов и инструментами обучения. Построенные на основе фреймворка Atropos компании, эти ресурсы позволяют любому исследователю, обладающему достаточными вычислительными мощностями, воспроизвести или развить их работу. Эта приверженность открытой науке ускоряет прогресс и позволяет проводить более широкий анализ и улучшения.
"Открытое предоставление стека Atropos обеспечивает необходимую инфраструктуру для воспроизводимых исследований на уровне олимпиад", — отметил наблюдатель на X, подчеркивая значимость для академических сообществ и сообществ открытого исходного кода. Этот шаг демократизирует доступ к передовым инструментам и методологиям исследований в области ИИ.
Модель была обучена Джо Ли, исследователем-резидентом в Nous Research и бывшим соревновательным программистом. Технический отчет Ли предлагает личную перспективу, сравнивая траекторию обучения модели с его собственным путем на Codeforces, популярной платформе для соревновательного программирования. Он сопоставил оценки LiveCodeBench с рейтингами Codeforces, оценив, что улучшение NousCoder-14B — с примерного диапазона рейтинга 1600-1750 до 2100-2200 — отражает скачок, которого он достиг примерно за два года непрерывной практики в возрасте от 14 до 16 лет. Модель ИИ повторила этот эквивалентный прогресс всего за четыре дня.
"Наблюдать за финальным этапом обучения было очень сюрреалистичным опытом", — написал Ли в техническом отчете. Однако он быстро добавил важное предостережение относительно эффективности ИИ: хотя он решил около 1000 задач за два года практики, модели потребовалось 24 000 задач. Это подчеркивает, что пока люди остаются значительно более эффективными в обучении на основе выборки, что является ключевой областью для будущих исследований в области ИИ.
Внутри системы обучения с подкреплением
Процесс обучения NousCoder-14B предоставляет ценную информацию о сложных методах, которые исследователи используют для улучшения рассуждений ИИ посредством обучения с подкреплением. Методология основана на "проверяемых вознаграждениях", при которых ИИ генерирует решения кода, эти решения выполняются в отношении тестовых случаев, и модель получает простой бинарный отклик: правильно или неправильно. Этот цикл обратной связи, хотя и прост по концепции, требует значительной инфраструктуры для крупномасштабной реализации.
Nous Research использовала Modal, платформу облачных вычислений, для параллельного выполнения изолированных программных кодов. Каждая из 24 000 обучающих задач включает в среднем сотни тестовых случаев. Система должна строго проверять, что сгенерированный код выдает правильные результаты в рамках строгих ограничений по времени (15 секунд) и памяти (4 гигабайта).
Обучение включало в себя технику, известную как DAPO (Dynamic Sampling Policy Optimization), которая, по мнению исследователей, оказалась немного эффективнее альтернатив. Ключевым нововведением является "динамическая выборка" — отбрасывание обучающих примеров, в которых модель либо успешно выполняет все попытки, либо терпит неудачу во всех попытках, поскольку они не дают полезного сигнала для обучения. Кроме того, исследователи внедрили "итеративное расширение контекста", первоначально обучая модель с окном контекста в 32 000 токенов, а затем расширяя его до 40 000 токенов. При оценке расширение контекста примерно до 80 000 токенов дало наилучшие результаты точности, достигнув заявленных 67,87%.
Важно отметить, что конвейер обучения эффективно совмещает вывод и проверку. Как только модель генерирует решение, она начинает работать над следующей задачей, в то время как предыдущее решение проверяется. Этот конвейерный процесс, в сочетании с асинхронным обучением, при котором несколько экземпляров модели работают параллельно, максимизирует использование оборудования на дорогостоящих кластерах GPU.
Похожие новости
- Китайские исследователи разработали полутвердотельную батарею для электромобилей с запасом хода 620 миль, но вопросы остаются
- Тачловини Габриесос: Маяк надежды для олимпийской сборной беженцев на Токио-2020
- Пассивные RFID теперь могут передавать данные датчиков в реальном времени
- Крах и мрак: Последствия мощнейших ударов по инфраструктуре Украины
- Великое белое безмолвие: Вспоминая паралич Нью-Йорка во время метели 1888 года
Надвигающийся дефицит данных в разработке ИИ
Значительное открытие в техническом отчете Ли указывает на потенциальное узкое место для будущего развития ИИ: набор данных для обучения NousCoder-14B использовал "значительную часть всех легкодоступных, проверяемых задач соревновательного программирования в стандартизированном формате набора данных". Это предполагает, что в специфической области соревновательного программирования доступность высококачественных обучающих данных достигает своего предела.
"Общее количество задач соревновательного программирования в Интернете примерно того же порядка величины", — заявил Ли, ссылаясь на 24 000 использованных задач. "Это говорит о том, что в области соревновательного программирования мы достигли пределов высококачественных данных." Это наблюдение перекликается с более широкими опасениями в индустрии ИИ относительно ограничений данных. В то время как вычислительная мощность продолжает масштабироваться предсказуемым образом, обучающие данные становятся все более ограниченными.
Ли пришел к выводу: "Похоже, что некоторые из наиболее важных исследований, которые необходимо провести в будущем, будут касаться областей генерации синтетических данных и эффективных по данным алгоритмов и архитектур." Проблема особенно остро стоит для соревновательного программирования, поскольку она требует задач с известными, автоматически проверяемыми правильными решениями, в отличие от обработки естественного языка, где возможны неоднозначность и множественные допустимые интерпретации.
Информационное агентство Эхбари