Meta高薪挖走的余家辉什么来历?
2025-07-21 08:25:20 · chineseheadlinenews.com · 来源: 极思TopMinds
2025年6月27日,硅谷上演了一场令人瞠目结舌的人才争夺战。Meta以近乎疯狂的诚意——1亿美元年薪、九位数签字费、无上限算力支持,外加零KPI的研究自由,成功从OpenAI挖走了团队的四位核心成员。
年仅30岁的华人科学家余家辉(Jiahui Yu)是这场争夺战的核心人物之一。就在半个月前,余家辉仍是让 ChatGPT“睁开眼睛”的灵魂人物,是OpenAI多模态革命的关键推手。如今他的突然离职,不仅让OpenAI损失了一位重要人才,更在科技圈引发了关于AI人才争夺战的白热化讨论。
翻开余家辉的履历,或许能理解为何科技巨头们对他如此渴求:17岁考入中科大少年班,博士期间横跨7家顶尖科技公司实习,从谷歌Gemini的视觉架构师到OpenAI感知团队负责人,他的每一步都踩在AI技术演进的关键节点上。这位年轻的天才正在用他独特的职业轨迹,诠释着顶级AI人才在行业内的稀缺价值。
一. 求学之路:天才的起跑线
1.中科大少年班的“野马”
1995 年,余家辉出生于浙江慈溪。2012年,他尚在浙江慈溪中学读高二,便因卓越的数理天赋被中科大少年班破格录取。年仅17岁的他跳过高考,提前进入这所中国科技顶尖学府就读计算机科学专业。中科大少年班素有“天才集中营”之称,而余家辉的出现,让这支队伍又多了一位锋芒毕露的“野马”。在课程学习中,他稳扎稳打地夯实数学、物理与计算基础;在课余时光,他则像一匹饥渴的猎豹般,疯狂汲取AI、图像识别与并行计算等前沿技术论文。
他的名字也很快频频出现在各类学术荣誉榜单上。2014年,他与队友桑榆阳凭借领先的语音识别方案,摘得中科大“Hello!语时代”智能化技术训练营一等奖,颁奖嘉宾是彼时已名震业界的科大讯飞高级副总裁胡郁。
2015年,他作为中科大超算团队主力选手,在全国并行应用挑战赛(PAC2015)中凭借异构计算优化方案击败清华、上交等传统强校,勇夺全国冠军。同年,他又率队参加国际大学生超级计算竞赛(SCC),获得季军,同时也是亚洲队伍的最佳成绩。
“Hello!语时代”智能化技术训练营与会嘉宾与获奖者合影,余家辉为左上。图源:中科大官网
接连不断的重量级奖项,勾勒出一幅远超“学霸”二字的立体画像。语音识别与异构计算两条赛道跨度极大,他却能在短时间内完成知识迁移与深度创新,说明他具备极强的跨领域学习与工程落地能力;从校内训练营到国际赛场的三级跳,则展现了他在高压环境中统筹人力、时间与算力的系统领导力——既能拆解算法瓶颈,又能把一群天才捏合成高效战队;更难得的是,一年之内连战连捷,持续刷新纪录,证明他兼具长期专注与快速迭代的抗压续航力。
2.远渡重洋的博士生涯
2016年,余家辉从中科大毕业后,远赴美国伊利诺伊大学厄巴纳-香槟分校(UIUC)攻读博士。
黄煦涛照片图源:维基百科
在这所全球计算机科学重镇中,他师从享有“计算机视觉之父”美誉的黄煦涛(Thomas Huang)教授——一位对图像识别、模式识别与多媒体计算等领域有着深远影响的学界泰斗,其门下不乏依图科技CTO颜水成、云从科技创始人周曦等重量级人物。
在黄教授的指导下,余家辉迅速进入状态,不仅在多模态感知、神经网络结构优化方面打下理论基础,还在实践中不断锤炼工程能力。他在博士期间提出将图神经网络嵌入图像识别流程,通过端到端训练优化计算效率,开启了自己向“多模态神经系统设计者”转变的起点。
与此同时,余家辉仍然学有余力,在短短三年内完成七段高强度实习,覆盖了AI产业链的多个关键环节:在微软亚洲研究院参与前沿视觉算法研发;在旷视科技优化产业级人脸检测方案;在Adobe主导开发DeepFill系列图像修复模型,被誉为图像补全领域的“新标杆”;在Snap设计移动端AR滤镜,追求算法轻量化;在百度美国研究院推进图像超分辨率和压缩方案;在英伟达专注GPU加速框架优化;在量化交易公司Jump Trading深耕C++与CUDA,探索低延迟数据处理……
余家辉的实习经历图源:领英
这种横跨高校、互联网巨头、芯片企业和量化交易平台的实战经历,不仅为他带来了扎实的编程功底与系统思维,更使他具备了完整的“从芯片到底层框架、再到算法与产品”的全链条技术视野。他不仅会做算法,更知道算法如何在资源受限的真实系统中运行得高效、稳定,并最终服务于复杂应用场景。
正是这段看似“跨度极大”的技术旅程,为他之后在谷歌、OpenAI乃至Meta承担多模态架构顶层设计打下了坚实基础。余家辉不是传统意义上的研究型博士,他更像一名在实验室和工业战场间反复切换的“全栈AI战将”,早早完成了从论文到落地、从理论到系统的跃迁。
二. 一路高升:从谷歌到OpenAI
1.谷歌:从语音突破到多模态革命
2019年,余家辉博士毕业,命运对余家辉开了一个残酷的玩笑——导师黄煦涛教授因病去世。这位引领他步入AI世界的大师永远离开了讲坛,也让他在科研道路上首次面对失重感。但他并没有停下脚步。同年,他正式加入谷歌,开启了人生中另一段高强度、高密度的技术进阶。
在谷歌的初期岁月中,余家辉结识了另一位影响深远的技术引路人:吴永辉(Yonghui Wu),谷歌最早一批语言模型的开拓者之一,拥有Fellow级科学家的头衔,也是谷歌内部备受尊重的“架构型人物”,现在是字节跳动大模型团队负责人。这位同样出身于中国的AI前辈,与他迅速建立起深度合作关系。两人成为密切搭档,在语音、多模态领域频频联手,共同塑造了多项行业标杆成果。
初登谷歌舞台,余家辉便带来一次引人瞩目的技术突破。他主导设计的 Conformer 模型,创新性地融合卷积(CNN)与Transformer两大机制优势,克服了传统流式语音识别系统在准确率和延迟间的难以平衡问题。该模型不仅被广泛应用于Google Assistant、YouTube自动字幕等核心产品,还成为后续语音建模研究的重要基石。Conformer一经发表,迅速引发业界高度关注,被评价为“将语音识别拉入新时代的关键模型”。
但余家辉的眼界并不止于语音。他很快将研究重心转向更具挑战性和战略性的方向——多模态智能系统,即赋予AI跨越文本、语音、图像甚至视频的理解与表达能力。
2021年,他晋升为谷歌高级研究科学家,并开始领导团队推进 CoCa(Contrastive Captioners)项目的研发。该模型首次将对比学习与自回归生成有机结合,在图文对齐与生成任务上取得双重突破,被用于Google Photos中的图像智能描述模块,同时也被视为多模态预训练架构的新方向。
几乎在同一时期,他还深度参与了Parti 项目的建设——一个面向文本到图像生成的大模型框架。借助CoCa打下的预训练基座,Parti得以实现高质量图像合成,并显著压缩了推理路径,成为谷歌构建生成式AI体系的关键拼图。
2022年底,谷歌将他调任至DeepMind,担任 Gemini 多模态项目的视觉模态负责人。在这一角色中,他不仅要统筹视觉系统架构设计,还需负责多模态推理能力的融合与评估。与此同时,他的搭档吴永辉则主导PaLM 2语言建模优化,两人以“语言+视觉”的双轨协作推动Gemini系列对标OpenAI的GPT-4,并最终实现了 Gemini 1.0 的问世。
Gemini 1.0的发布是谷歌迈向通用人工智能(AGI)的里程碑,主要实现了两大核心技术突破:其一是创新的原生多模态架构,该架构从底层实现了对文本、图像、音频和代码等模态的深度融合与推理;其二是在优化方法上的重大创新。在视觉模态方面,余家辉带领团队整合了强化学习与人类反馈优化(RLHF)技术等方法,实现了视觉–语言推理路径的优化与可靠性提升。
在余家辉等顶尖科学家的推动下,Gemini系列帮助谷歌在多模态领域重拾技术主动权,并凭借这一架构与OpenAI的GPT?4系列竞争,为全球 AI 生态注入新活力。
图源:谷歌学术
在谷歌四年,余家辉完成了从“语音技术专家”到“多模态领导者”的跃迁。他的贡献不仅体现在论文数量和影响因子,更体现在产品与系统层面的深远落地。他擅长打通研究与工程之间的断层,既能精雕模型细节,又能站在平台层面思考长远演进方向——这是工业界最稀缺的能力之一。
或许可以这样评价他在谷歌的成就:他不是造了一座模型高塔,而是打通了多模态智能从理论构想到产品应用的整个闭环。
2.OpenAI:让GPT睁开“感知之眼”
2023年10月,余家辉做出一个令业界意想不到的选择——在DeepMind刚刚推出Gemini 1.0、研究工作正值上升期时,他转而加入了OpenAI,接替原有技术负责人,担任感知团队的核心领导人。这一决定,被认为是他职业生涯的再一次“主动跃迁”——不是为了安稳,而是为了向更具挑战性的系统边界进发。
他的首项代表作,便是横空出世的GPT-4o——一款集视觉、语音与文本于一体的“全感知模型”。GPT?4o 不仅能够生成高质量的语言内容,还能精准识别图像场景、理解视频结构、进行自然流畅的语音对话,甚至具备一定的情感识别能力,展现了跨模态交互的卓越实力。更为创新的是,GPT?4o 打破了传统多模态处理流程——以往多模态模型通常需要先将语音转换为文本,再调用语言模型进行处理,而 GPT?4o 通过单一神经网络,直接同时处理所有输入和输出,无需中间转换,实现了端到端的多模态理解和生成。
在这背后,是余家辉带领感知团队历时近一年,搭建起一整套轻量化多模态神经框架。与业界普遍采用的数百亿参数、极度依赖算力堆叠的大模型策略不同,余家辉更强调“智能系统在边缘设备上的生存能力”——即在有限计算资源条件下,依然能够高效完成感知、理解与交互任务。他创新性地提出了“轻量级注意力融合机制”和“跨模态投影缓存技术”,显著降低了多模态模型的推理负担,使 GPT?4o 不仅在云端强力运行,更能广泛适配手机、笔记本等边缘设备,推动了人工智能的普及化应用。
2024年至2025年间,他继续主导并发布了 GPT-4.1、o3、o4-mini 等一系列多模态模型的关键模块。这些模型不仅优化了感知能力,更强化了“语境理解”的维度——图像不再是像素的拼贴,声音也不再是波形的解码,它们成为语言的补充,成为AI判断与决策的参考依据。
余家辉在OpenAI的部分作品,图源:https://jiahuiyu.com/
在OpenAI的这段时间,余家辉完成了从“模块级优化者”到“系统级决策者”的飞跃。他不仅负责研发模型,更参与整个产品生态的架构设计——从ChatGPT的视觉输入接口,到Whisper系统与DALL·E的嵌合调度,再到语音交互中实时响应与上下文感知的策略设定,都有他的身影。
这段旅程,也让他成为少数几个真正“深度贯通语言-视觉-语音”的AI架构师之一。在OpenAI,他帮助这个原本以语言建模见长的机构,迈向了一个更完整、更接近通用智能(AGI)愿景的未来。
然而,他并未止步于此。
三. “亿级转会”:Meta重金挖人
如果说GPT-4o标志着OpenAI在多模态时代的技术高峰,那么2025年6月27日,就是那座高峰被另一家公司“引爆”的日子。
就在那天,Meta正式宣布:余家辉与三位OpenAI核心华人研究员集体跳槽,加入扎克伯格亲自组建的“超级智能实验室”(Superintelligence Lab),全力推进下一代Llama模型的多模态架构。
马克·扎克伯格公开宣布成立Meta超级智能实验室,图源:Vocal Media
为了将余家辉从OpenAI 带走,Meta发起了一场真正意义上的闪电战——从首次接触到完成Offer,仅用了72小时:
2025年6月,Meta通过WhatsApp联系余家辉,扎克伯格与其本人和家属直接会面,承诺给予:接近九位数的签约奖金、无限制的算力资源、无KPI考核的研究自由,以及代表着项目主导权的核心席位。Meta更通过收购Scale AI、引入Alexandr Wang(前OpenAI合作方)等动作,展示Meta在数据链、算力链、人才链三方面的长期承诺。
换句话说,Meta不是单纯在“请人做事”,而是邀请他共同构建Meta的智能命脉。
这场耗资巨大的“挖人”行为一经披露,硅谷哗然,在外网引起了热议。
“左边是罗纳尔多,皇马花了 8000 万美元从曼联签下他。右边是余家辉,Meta 花了 1 亿美元从 OpenAI 签下他,”一位外国网友发帖道。
图源:X
实际上,Meta 开出一亿美元年薪,并不是简单地“请一位研究员”,而是要从余家辉身上一次性补齐四块关键拼图:
第一块拼图是下一代模型的技术路线。Llama-4 的多项基准落后 GPT-4.5 约 12%,而余家辉深度参与了 Gemini、GPT-4o/4.1、o3/o4-mini 等项目的核心架构。Meta 把他挖来,等于把 Google 与 OpenAI 的多模态技术、训练策略、数据配比以及工程细节一次性搬进自家实验室,大幅缩短了试错周期。
第二块拼图是顶尖人才的虹吸效应。余家辉在 Google Brain 和 OpenAI 的交叉网络里拥有极高号召力,他亲自带过的团队、合作过的研究员、指导过的实习生分布两大巨头。Meta 用他作为“人形招募广告”,可以持续吸引全球华人及国际一流 AI 人才。
第三块拼图是“从 0 到 1”的组织方法论。余家辉曾总结 OpenAI 成功的四大要素:时间、人才、组织、自信。过去 Meta 的 FAIR 学术路线与产品落地长期脱节,而余家辉把 Gemini 和 GPT-4o 同时做成研究突破与商业产品的经验,正是 Meta 目前最缺乏的“工程化—商业化双轮驱动”模板。
第四块拼图是资本市场的叙事权。投资人已对Meta的AI故事审美疲劳,天价签下余家辉等于向华尔街发出强烈信号:Meta有决心、有能力在最前沿模型上与OpenAI正面竞争。消息公布后,Meta 股价在四月以来反弹45%,市值凭空多出千亿美元,一亿美元年薪瞬间变成了高杠杆的首付。
最终,余家辉与三位OpenAI华人研究骨干在2025年6月27日一起转投Meta,成为 2025 年硅谷最具震撼力的人才流动。业界评论普遍认为,这是Meta在与OpenAI长期博弈中的一次重要反攻。加入由Alexandr Wang领导的Superintelligence Labs核心团队后,余家辉将负责下一代多模态架构的构建工作,重点推动视觉、语音与文本等模态的深度融合,增强Llama 4及其后续模型的感知能力与推理能力;同时,他也将参与Meta生态级应用的智能系统设计,包括Messenger、WhatsApp、Instagram、Ray?Ban智能眼镜等终端场景中的AI部署。
更重要的是,他将有机会在系统级别推动Meta实现一件事——不是简单复制GPT-4,而是建立一个真正能够“看懂世界”的原生多模态智能架构。
四. 技术之外,他始终站在问题一侧
从浙江慈溪中学少年班的录取通知书开始,到中科大语音识别夺冠的掌声;从UIUC黄煦涛门下的实验台前,到谷歌Gemini的多模态战场;从OpenAI GPT-4o的“感知觉醒”,再到Meta超级智能实验室的系统重构……短短十余年,余家辉以一种几乎令人眩目的速度,穿越了人工智能技术发展的每一个重大阶段,几乎参与并塑造了这个时代所有关键的“感知节点”。
在AI这条急速演进的技术长河中,余家辉并没有反复出现在公众视野中,也不属于那种极善包装自己的明星科学家。相反,他更像是一个在工程堆栈中“消失多年”的建构者,用实际代码推动了一个又一个关键系统上线,却始终保持低调。
在很多合作伙伴眼中,他有一种“技术纯粹主义者”的气质——不热衷表达,也不急于站C位。他真正关心的问题从未改变:模型真的理解人了吗?算法真的有能力感知复杂世界吗?而不是各个媒体报道的热度,或者技术简报里美化后的形容词。
他的职业路径也证明了一件事:真正有系统设计能力的人,不是堆叠更多功能,而是能在复杂架构中找到最小可行路径(MVP)的人——能用有限参数做出高性能系统,能用最小算力换取最大通用性,能在高不确定性中推进技术闭环。这种能力,不靠炫技,也无法包装,只靠一次次在实战中修补缝隙,构建标准。
如今,他来到Meta,将继续解决核心的问题——如何真正将感知、理解与智能决策连接起来,而不是再造另一个语言模型的变体。他选择这场挑战,不是因为它安全,而是因为它难。
技术世界的舞台向来喧嚣,但真正的推动者,往往埋首其间。他或许不会站在聚光灯下,但却可能改变我们与AI共处的方式。
他从不站在风口上,他只站在问题一侧。