

新智元报谈
[新智元导读]Karpathy让Agent整夜跑了110次实验把模子练强后说了句「去桑拿了」,然后开源630行代码的autoresearch,一块GPU就能领有一个永不放工的AI推敲实验室——东谈主类推敲员的新使命,是写好教唆词然后去蒸桑拿。
刚刚,Karpathy在x上发了一条让总共这个词AI圈炸锅的帖子:
ahyes,thisiswhatpost-agifeelslike:)ididn'ttouchanything.brbsauna
啊对,这便是后AGI的嗅觉:)我什么王人没碰。先去蒸桑拿了。

什么样的技能冲破,能让这位AI大神如斯淡定地撂下一句话就去蒸桑拿?
谜底是:他的AIAgent,在他睡眠的12个小时里,自主提交了110次代码变更,把一个说话模子的验证亏损(valloss)从0.862415一齐压到了0.858039——何况莫得增多一秒钟的历练时辰。
更炸裂的是,就在几天后,Karpathy把这套「AI我方搞科研」的递次论打包成了一个仅630行代码的开源名堂——autoresearch,扔到了GitHub上。

名堂地址:https://github.com/karpathy/autoresearch
上线刚几个小时,就已冲到了3k星标!
Karpathy示意,任何东谈主只须有一块GPU,就能在彻夜之间运行一个AI推敲实验室。

这两件事叠在沿途,组成了一幅前所未有的画面:AI不再仅仅东谈主类的器具,它开动我方优化我方了。
而东谈主类推敲员的新使命,酿成了——写一份教唆词,然后去蒸桑拿。
nanochat
100好意思元训一个ChatGPT
故事要从Karpathy的nanochat名堂提及。
nanochat是Karpathy在2025年10月开源的一个名堂,标语非常炸裂——「100好意思元能历练的最佳的ChatGPT」。

nanochat名堂地址:https://github.com/karpathy/nanochat
它用大致8000行干净的PyTorch代码,兑现了一个齐备的、从零开动的说话模子历练活水线:分词、预历练、微调、强化学习、推理、WebUI,一条龙全包。
在一个8块H100GPU的节点上,花4个小时傍边,你就能训出一个不错跟你聊天的袖珍ChatGPT。
但nanochat果然让东谈主振作的地方,不在于它有多低廉,而在于它有多「可迭代」。
总共这个词名堂围绕一个中枢参数——Transformer的深度(depth)。
你只须拧这一个旋钮,其他总共超参数(宽度、头数、学习率、历练时长、权重衰减……)王人会自动诊疗到诡计最优。
换句话说,这是一个极简但极其精密的历练系统,自然符合用来作念实验。
昨天,nanochat取得了一个里程碑式的发达:在单个8×H100节点上,仅用2小时就能训出GPT-2级别才智的模子。
一个月前这个数字如故3小时。
但果然的重头戏来了——Karpathy开动让AIAgent自动迭代nanochat的历练代码。
具体如何玩的?
他给AI代理写了一份大致120行的Markdown文档,非常于一份「任务施展书」,告诉AI:这个名堂是干什么的,什么样的变调算好的(验证亏损更低),什么样的变调不可接受(历练时辰变长、内存爆炸、代码变得太肥胖)。
然后,AIAgent就开动在一个Git特质分支上自主使命:读代码、想主意、改代码、跑历练、看斥逐。
要是后果变好,就团结到主分支;要是后果变差或者历练变慢,就丢弃,从头来过。
斥逐呢?
12个小时,110次代码提交,d12模子的验证亏损从0.862降到了0.858,降了0.004——关于说话模子来说,这是一个实确凿在的跨越,时时彩app下载何况是在不增多任何历练时辰的前提下取得的。

有一个越过特意旨酷好酷好的细节:其中有一次提交,AI代理确乎把valloss降下来了,但历练时辰变长了,于是被系统自动隔断了。
Karpathy设的法例很严格——要么改善亏损,要么改善速率,要么两个王人改善,不可拆西补东。
更特意旨酷好酷好的是Karpathy我方的反念念。
他说,在以前两周里,他花在「调优AI代理的使命进程」上的时辰,险些比他径直改nanochat代码的时辰还多。
他迭代的不是代码自己,而是「让AI更好地迭代代码的那套系统」——一个「元优化」的过程。

这意味着东谈主类推敲员的变装正在发生质变:从「亲手写代码作念实验」,酿成了「遐想一个能让AI自动作念实验的系统」。
Karpathy把这种嗅觉称为「后AGI(post-AGI)」。
自然,他我方也说这个说法半开打趣——今天的AI代理在兑现想法方面如故非常猛烈,但在建议创造性的新想法方面还差得远,现时更接近于一个自动化的超参数调优器具,而不是一个果然的推敲员。
但他紧接着说了一句情理深长的话:「跟着AI才智的提高,这条路的地方是浮现的——AI在自主变调下一代我方。」

autoresearch
630行代码,一块GPU,5分钟一轮实验
要是说nanochat上的AI代理自动迭代是一次「主意验证」,那么autoresearch便是Karpathy把这个主意打包成了一个东谈主东谈主可用的开源器具。
Karpathy慎重开源了autoresearch名堂。
他给这个名堂写了一段极具科幻感的媒介:
曾几何时,前沿AI推敲还靠着一群碳水化合物诡计机——他们在吃饭睡眠摸鱼的错误,偶尔通过组会庆典用声波彼此吼两嗓子,就这样鼓舞着东谈主类的技能畛域。
阿谁年代如故断线风筝。如今,推敲澈底被AI智能体采纳……传闻代码如故迭代到了第10205代,幸运彩app但这数字真伪已无从考据——那些代码早已进化为能自我修改的二进制人命,远远超出了东谈主类的领略范围。
这个代码仓库,恰是这一切故事的首先。

诚然这段话写的是「将来愿景」,但autoresearch名堂自己的遐想,如故在慎重地朝着这个地方迈步。
autoresearch践诺上是nanochat的「精简便机版」。
Karpathy把大模子历练的中枢代码压缩到了一个约630行的Python单文献里,在单块GPU上就能跑。
总共这个词名堂只须三个中枢文献:
prepare.py——数据准备:下载历练数据、历练BPE分词器,还有运行时需要的数据加载器和评估器具。这个文献是固定的,AI不会碰它。
train.py——历练代码:包含齐备的GPT模子界说、优化器(Muon+AdamW)和历练轮回。从模子架构、超参数、优化器到批量大小,AI代理不错修改这里的一切。
program.md——东谈主类写给AI的「指示书」:用自然说话刻画推敲方针和不停条款,东谈主类推敲员通过裁剪这个文献来指引AI的使命地方。
名堂的中枢计制号称精妙——固定5分钟历练时长。
无论你用的是什么GPU,无论AI代理如何改模子大小、批量大小、架构遐想,每一轮历练王人精准戒指在5分钟。
这个遐想有两个平允:第一,总共实验斥逐径直可比,因为诡计预算是固定的;第二,AI代理睬自动为你的特定硬件找到最优竖立。
你一晚上睡8个小时,AI代理大致能跑100轮实验。第二天早上起来,你眼前摆着的是一份细心的实验日记,和一个(概况率)比昨晚更好的模子。
总共这个词使命流被Karpathy玄虚为两句话:
AI代理在一个Git特质分支上自主轮回运行:改代码→历练5分钟→查验分数→要是更好就提交→要是更差就回滚→络续改。
每个提交王人是一次经过验证的变调,像搭积木同样一层层往上垒。
而Karpathy为这个名堂设定的终极方针,说出来有点猖獗:遐想出能够无穷期、无需任何东谈主工骚扰、以最快速率取得推敲发达的AIAgent。
一块GPU,一个文献,一个贪图——这便是总共这个词实验环境。
从「东谈主作念实验」
到「东谈主遐想作念实验的AI」
传统的AI推敲是这样的:一个博士生(或者一群博士生)猜测一个idea,写代码兑现,跑实验,看斥逐,改参数,再跑,再看,轮回走动。
Karpathy我方就说,这基本上是他总共这个词博士期间作念的事情。
一个idea从建议到验证,可能要花几天以致几周——因为东谈主要吃饭,要睡眠,要开组会,要跟导师battle,要修bug修到怀疑东谈主生。
当今呢?
AI代理不吃饭不睡眠不摸鱼不怀恨,它24小时不停地跑实验,5分钟一轮,一晚上100轮。
它不会因为贯穿跑了20次实验王人失败了就心态崩了去刷酬酢媒体——它只会安闲地分析斥逐,诊疗计谋,络续下一轮。
自然,Karpathy我方也坦率地承认:AI当今相当擅长兑现想法,但在建议果然创造性的新想法方面还差得远。
autoresearch现时的使命景况,更像是一个极其深邃且不知困乏的「超参数调优工程师」,而不是一个能建议变革性表面的推敲员。
但枢纽在于——趋势是浮现的。
Karpathy说的那句话,险些不错看成这个时间的注脚:
{jz:field.toptypename/}AI在自主变调下一代的我方,东谈主类推敲员偶尔往内部扔几个想法就行了。
这不是科幻,这是今天正在GitHub上开源运行的代码。
而autoresearch的开源,让这件事的门槛降到了令东谈主瞠目的进度。
当今,一个颓靡竖立者,一块GPU,一份尽心写好的教唆词,就能在彻夜之间跑完一个袖珍推敲实验室一周的使命量。
这对总共这个词AI竖立生态的潜在影响是深入的。
中小团队以致个东谈主竖立者,也能参与到模子历练和优化的竞技场中。
AI研发的民主化,正在从赢得模子(开源权重)鼓舞到优化模子(自动化实验)。
更深档次地看,autoresearch代表的是一种新的「东谈主机互助范式」:东谈主类负责界说问题、设定不停、提供地方性的直观;AI负责在稠密的搜索空间里不知困乏地试错和优化。
东谈主类的创造力和AI的奉行力,第一次以一种系统化的景况趋奉在了沿途。
去蒸桑拿吧
寰宇正在被改写
回到Karpathy那条闻名的帖子——「thisiswhatpost-agifeelslike,brbsauna」。
这句话的妙处在于,它既是一句打趣,亦然一个果然的信号。
当一个AI领域最顶尖的推敲者,能够宽心肠把模子优化的使命交给AI代理,我方去蒸桑拿而不是在电脑前盯着历练日记——这自己就施展了一些深刻的东西。
AI自主使命的才智如故跨过了一个临界点:它不仅能奉行明确的指示,还能在一个果然的、敞开的推敲环境中,自主地发现变调空间并付诸行动。
Karpathy为autoresearch写的那段媒介里有一句话越过值得玩味——这个代码仓库,恰是这一切故事的首先。
这不是尽头,这仅仅收尾的开动。
AI代理在今天还仅仅一个不知困乏的调参妙手。
但来日,当模子才智再上一个台阶,当它们不仅能兑现想法还能建议想法的时候——阿谁Karpathy笔下「代码进化为自我修改的二进制人命」的科幻场景,未必并莫得咱们想象的那么远处。
到当时候,也许咱们总共东谈主王人该去桑拿了。
你期待吗。

备案号: