仅凭一篇博客,他成功入职OpenAI

2025-06-16 06:25:26 · chineseheadlinenews.com · 来源: 新智元

未中顶会,没有发表arXiv,一篇博客却成为OpenAI速通票。天才科学家Keller Jordan仅凭Muon优化器博客加入OpenAI。甚至,它可能被用于训练下一代超级模型GPT-5。

如果想成功应聘加入OpenAI需要什么条件?

科班出身?顶会论文?师从像Hinton、LeCun这样的AI大师?还是社交媒体上的技术红人?

或者,也许只需要写一篇博客就行。

Keller Jordan是一名机器学习领域的研究学者,2024年底他设计了一种神经网络隐藏层的优化器Muon,并公开记录了自己的研究进展。

很快,社区成员也开始并行实验,报告结果,事情变得越来越有趣——OpenAI和xAI同时注意到了他,最终他选择加入了OpenAI!

Muon第二作者Yuchen Jin直言,发表论文≠影响力。或许Muon已经被用于GPT-5的训练中。

别再盲目追顶会

Keller Jordan的故事和DeepSeek开源引发的轰动有些相似,虽然两者的影响力远不可比拟,但事情背后的底层逻辑似乎都指向同一个——

在快速迭代的AI世界里,传统的论文模式似乎已经落伍,开放&社区共建&快速响应也许才能让人类跟上AI进化的速度。

微软研究院的研究工程师Shital Shah在知晓Keller Jordan的经历后感到非常兴奋,因为他一直认为研究就该“以这种方式进行”。

即使在“开放”的研究实验室中,你也会看到太多研究人员对“早期想法”敝帚自珍、斤斤计较。

研究分享通常只在亲密的朋友之间进行,很长一段时间,人们对此过于执着……

任何一个想法都需要花费数月时间才能通过发表的论文面世。

而当它最终发表时,又常常淹没于大量其他论文之中。

如果有人确实注意到了它,对其做出改进又需要经历同样漫长而艰难的另一个周期。

Keller则采取了不同的方法。

他将初步想法作为公开的GitHub仓库发布,而不是以论文形式发表。

人们可以立即尝试并改进这些内容。

所有人都可以在任何时间验证所有内容。由于一切都是开放的,因此不存在作弊或夸大主张的空间。

这确实可以称得上是“分布式实时人工智能研究”!短短几天内,Keller和其他人就改进了想法。看到潜力的人们纷纷加入并协助进行并行化。

在传统的人工智能研究领域,这个反馈周期本需要6个多月的时间,而不是仅仅6天。

关于在发论文和“速通技术”之间,Keller Jordan的看法依然和半年前一样,今日他转发了一则2月份的自己的推文,表示虽然Muon火了,也帮他进入了OpenAI,但是他不会给Muon写一篇论文。

Keller Jordan的意思很明显,相比于arXiv上的一篇大概率被“淹没”的论文,还不如老老实实的继续研究自己的“优化器”。

甚至在今天还“特地”表达了自己关于目前AI优化其论文的看法——“都是虚假的,都是水文”。

影响力>声望

说来,仅凭一个博客被OpenAI招入麾下,Keller Jordan本人有着怎样的背景?

他于2020年获得了加州大学圣地亚哥分校数学和计算机科学双学士学位,也曾就读于加州大学圣克鲁斯分校和UC伯克利。

毕业后,他曾入职专注于生成式AI公司Hive任机器学习工程师。随后,又在维也纳复杂性科学中心担任访问研究员。

直到2024年12月,Keller正式加入OpenAI。

他所有GitHub项目中,最具影响力的便是——Modded-NanoGPT,星标超2.4k。

Keller和团队仅用8块H100在3分钟内复现GPT模型,仅需处理0.73B token。

他本人还有一个个人博客,自入职OpenAI以来,一直没有更新,最后一篇文章正是Muon优化器。

Muon这篇文章究竟讲的是什么?

一个优化器,破训练速度新纪录

在深度学习领域,优化器是推动模型训练效率和性能的核心工具。

直到2024年12月,一个名为Muon优化器横空出世,凭借卓越性能刷新NanoGPT和CIFAR-10训练速度世界纪录。

Muon,是一种为神经网络2D参数隐藏层设计的优化器。

其核心思想是,SGD-动量法(SGD-momentum)生成的更新矩阵,通过Newton-Schulz迭代进行正交化处理,生成接近于半正交矩阵的更新,从而提升训练效率。

它的实现简单高效,支持在bf16精度下稳定运行,显著降低了计算开销。

比起AdamW优化器,Muon在多个任务中,表现非常惊艳。

在CIFAR-10中,它将达到94%准确率的训练时间从3.3缩短至2.6 A100 秒,提升约21%。

针对NanoGPT训练,Muon在FineWeb数据集上,将验证损失达到3.28训练速度提升了1.35倍。

此外,在774M和1.5B参数规模的模型上,Muon依旧保持训练速度优势。

训练一个1.5B参数的Transformer模型达到GPT-2 XL水平,Muon仅需10个8xH100小时,而AdamW需要13.3小时,效率提升约25%。

那么,在AI圈,Muon的影响力有多大?

微软团队1月份论文中,便使用了Muon优化器。

一些机器学习大佬专为此著分析,还有更多研究中拥抱Muon优化器。

Muon的潜力

人工智能发展速度飞快,模型训练始终是其核心环节,而优化器则扮演着至关重要的角色,它负责调整模型的参数,让模型在数据上表现得更好。

过去几年里,AdamW一直是训练大语言模型的主力。

AdamW能让GPT、LLaMA、Qwen这类庞然大物学得又稳又快。

然而,随着模型参数从几亿增加到几千亿,训练时间从几天变成几周甚至几个月,AdamW的局限性开始显现——它在超大规模场景下的效率开始受到挑战。

进一步提升AI能力,需要更大的模型和更多的训练资源。

但计算资源的成本高昂,训练时间过长也会拖慢研究和应用的进度。

因此,开发更高效的优化器,不仅是技术上的追求,更是经济和实践上的迫切需求。

然后Muon“悄然出现”,尽管它还未成为业界焦点,但其独特的设计和卓越的性能表明,它可能是AI模型训练领域的一次重大基础创新。

而这个事关重大的创新,并不是来自于著名论文或者知名团队,而仅仅是Keller Jordan的一次“练手”。

AI研究员就业市场的“混乱现状”

许多AI研究员博士似乎都陷入了一个误区,认为在顶级会议上发表论文就是最终目标。

曾经有一段时间,发表论文就等于产生影响!

ResNet、Seq2Seq、Adam、Attention、Transformers、MoE,都是以论文的形式出现的。

真正的错误在于未能察觉这一情况早已不再适用。

发表文章≠影响力。

Muon只是一篇博客文章。它让Keller成功进入了OpenAI,他现在可能正用它来训练GPT-5。

Keller并不是孤例!

即便是没有获得博士学位,也可以入职OpenAI。昨天,James Campbell官宣放弃博士学位,要为ChatGPT和AGI引入记忆与人格。

传统的同行评审周期根本无法跟上现代人工智能研究和开发的步伐。

当然基于人工智能的同行评审可能还是很有必要的。

开源就像新的同行评审。现实世界的采用和可复现性更为重要。

但不幸的是,在学术界,激励机制有些错位。学者需要展示“证据”来推动自己的职业生涯(升职、资金支持、同行认可)。

而最有价值的证明形式就是在顶级会议上发表论文。

顶级AI企业的人才选拔是否已从单纯看学术论文,转向综合考察论文、工程和社区等多维度表现还不能就此下定论。

但正如OpenAI官方所言,他们“并不唯学历论,更看重实际潜力与技能”。

无论通过哪条路径,关键在于拿出过硬的成果(无论是论文、代码还是项目)并产生实质影响力。


    24小时新闻排行榜更多>>
  1. 就这样子退场了!怂人习近平:上不能守帝位、下不能护妻女、自绝于百姓!
  2. 曾庆红被曝软禁 白俄删报道泄天机 习时日无多
  3. 以色列"护国铁穹"是什么?每组造价破1亿,最大弱点曝光
  4. 爱挖鼻孔的人,早晚承受4个后果
  5. 沈舟:美军如何应对中共的自杀式海战
  6. 新党魁接班密会曝光!习近平借他“跪地求饶”
  7. 为抢稀土,美国出招了
  8. 中东局势紧张 美航母离开南海向西航行
  9. 爱美人士看过来 用这一物可以让你更年轻
  10. 大多数美国人远未达到最低生活质量标准
  11. 一个人身心很健康的10个迹象 快看看你有几个?
  12. 【翻墙必看】中国中产返贫新三件套
  13. 川普赴加拿大出席G7!峰会5大焦点一次看
  14. RBC警告最坏情况下美股或暴跌20%
  15. 泡泡玛特:狂热背后的隐忧
  16. 陈之汉"洗底"还是"洗脑"?馆长大陆行引发舆论争辩
  17. 全球烽烟四起,央视发布重磅消息
  18. 更多细节曝光:7人小组定期讨论对伊朗袭击
  19. 希拉里发对比图讽“低能量美式阅兵”
  20. 哈萨克斯坦高规格欢迎习近平
  21. 川普当总统 近臣们个个都发财捞金 民望持续低迷
  22. 曾庆红陷不妙传闻 郭声琨广西“大管家”落马
  23. 高盛再次唱多:看好中国“十巨头”股票
  24. 分析:十三年积怨 中共军中清洗比战场危险
  25. 100名警察花2天追捕 美国议员杀手落网全过程曝光
  26. “扁担女孩” 登央视,正脸照首曝光
  27. 歼-10CE,到巴黎了
  28. 仅凭一篇博客,他成功入职OpenAI
  29. 日本最美公主出国坐经济舱被偷拍 “睡颜照”全网疯传
  30. 场面骇人 重庆轿车恶意撞人反复碾压致1死4伤
  31. 越南正式成为第10金砖伙伴国! 参与新开发银行合作案
  32. 中东冲突如何影响油价?
  33. 中共统计局公布5月份失业率5% 满屏嘲讽
  34. 伊朗与以色列的冲突,有一个中东国家态度耐人寻味
  35. 成都异议者出狱后受监控 其母遭打劫财物失踪
  36. 泡泡玛特杭州新店开业两小时“闪电”闭店
  37. 美国不香了?半世纪来首次 移民人口“入不敷出”
  38. 川普集团推T1智能手机 售价499美元 月费47.45美元
  39. 消息:美国敦促越南与中国科技脱钩
  40. 明星战机歼-10CE亮相巴黎航展
  41. 湖南花炮厂爆炸威力惊人 蘑菇云升百米高空
  42. CR-V与Tucson大比拼
  43. 川普集团推出通讯服务和499美元美制手机
  44. 专家析共军攻台可能性 吁台湾做好备战能力
  45. 美债上限危机,“雷声大、雨点小”?
  46. 广浙多地“围村收费”惹争议 被指违法圈地
  47. 赞助商与总统关系匪浅 华府阅兵涉嫌公器私用
  48. ICE被曝秘密签约扩建拘留中心
  49. 近6000公寓空置,纽约房屋管理局遭质疑
  50. 3.6亿美元,泰勒·斯威夫特终于拿回属于她的一切
  51. 涉嫌枪杀美国民主党女州议员和丈夫嫌犯落网
  52. 郭富城宣传新电影 证实老婆方媛怀上第三胎
  53. 盛世疯魔,乱世魅魔
  54. 川普和斯塔默在G7峰会上签署美英贸易协议
  55. 【名家专栏】中共与洛杉矶反ICE暴乱的关系
  56. 大纪元CEO:中共发动一场无声的战争
  57. 美国又当又立,到底参不参战?
  58. 庆国旗日与“无王”抗议南加相遇 1持枪者被捕
  59. 六四大屠杀“幸存者”的负罪感伴随我一生
  60. 为何睡到一半总在清晨莫名醒来?