揭秘华人创办的数据标注帝国:去年营收10亿美元

2025-06-19 20:26:32 · chineseheadlinenews.com · 来源: 腾讯科技



揭秘华人创办的数据标注帝国:去年营收10亿美元

6月19日消息,在Meta与Scale AI(以下简称“Scale”)达成143亿美元的投资交易后,数据标注这一曾被忽视的领域正迅速成为硅谷新的焦点。对埃德温.陈(Edwin Chen)创立的Surge AI(以下简称“Surge”)而言,这无疑是一个历史性的发展机遇。

事实上,数据标注在硅谷长期处于行业边缘地带——作为人工智能技术链条中的核心环节,其重要性与关注度长期不匹配。谷歌、OpenAI等科技巨头通常需要依赖外部服务机构,通过对AI模型输出内容进行细致的质量分级与校验,才能实现模型性能的持续优化。这种看似繁琐的人工标注工作,实则是支撑AI系统迭代升级的关键基础。

Meta收购Scale股权的重磅交易,突然间把数据标注业务推向行业聚光灯下。然而,就实际市场份额和业务竞争力而言,埃德温.陈(Edwin Chen)创立的Surge才是当前数据标注领域的真正龙头。

01.无融资实现营收反超的“隐形冠军”

Surge凭借“把客户AI训练至行业最高标准”的核心承诺,成功赢得谷歌、OpenAI、Anthropic等科技巨头的青睐。埃德温.陈为公司设立了极具野心的技术愿景:打造具备真正“创造力与意外发现能力”的AI系统。他描绘了这样的理想场景——当模型收到“创作一首关于月亮的八行诗”的指令时,能输出足以“令人潸然泪下”的文学作品。

37岁的埃德温.陈没有任何投资者,完全依靠自力更生创办了这家成立已有五年的初创公司。Surge现有110名员工,在纽约和旧金山设有办公室。该公司曾向员工透露,其营收去年已超过10亿美元,超过了Scale同期8.7亿美元的营收。埃德温.陈还表示,与Scale不同,Surge从创立之初就实现了盈利。此外,如果其他公司效仿OpenAI——因担忧Scale与Meta的关系而停止与Scale合作——将业务转向Surge,Surge的营收可能会进一步增长。

不过,Surge的其他关键财务数据仍不得而知,例如,Surge在向数量庞大的合同工支付劳动力成本后保留的营收(大多数类似公司,如Scale,会将约一半营收支付给合同工)。如果Surge能获得与Scale类似的估值(Meta在投资中对其估值为290亿美元),这一价格将使埃德温.陈至少在账面上成为亿万富翁,并悄然跻身科技界最富有人士之列。

随着AI模型从“玩具”转变为真正的商业工具,数据标注变得愈发重要。Surge等公司雇佣的合同工会对AI模型的响应进行分级,并在编程、数学和法律等领域编写数千个问题和答案,输入给AI模型——本质上是教会它们什么是“优质回答”。Surge子公司Data Annotation Tech官网的信息显示,其员工”可自行安排时间训练AI获得报酬”,起薪为每小时20美元。

埃德温.陈把Surge定位为“高端服务商”,收费通常是Scale的2至5倍,并以“行业领先的工作质量”证明其定价的合理性。一位前Scale员工表示,事实上,在客户对标注质量的审计中,Surge的表现往往优于 Scale。Surge的竞争对手、得到凯鹏华盈投资的初创公司Handshake的负责人加勒特.洛德(Garrett Lord)也坦言,Surge才是当之无愧的行业龙头。

Meta以巨额交易收购Scale的新闻报道并未提及Surge。Scale前首席执行官汪滔(Alexandr Wang)曾被公认为数据标注领域的领军人物。作为如今Meta AI业务的高管,他在硅谷颇具知名度:不仅频繁亮相播客与行业会议,还在X平台保持高频发帖。他之前筹集到15亿美元风险投资,让Scale跻身极少数融资达此规模的公司之列,并雇佣了超过1000名员工。

Surge及其竞争对手有时也会因负面新闻登上头条。例如,今年5月,Surge在加利福尼亚州遭遇一宗集体诉讼,原告称该公司之所以能发展得如此庞大且盈利,部分原因在于违法。这起由Surge部分合同工提起的诉讼称,公司将员工错误分类为合同工,未支付他们必须完成的部分工作报酬,如培训课程和为确保工作质量而参加的资格考试。Scale和其他数据标注公司也面临类似的集体诉讼。

代表诉讼原告的克拉克森律师事务所(Clarkson Law Firm)合伙人格伦.达纳斯(Glenn Danas),把此类AI初创公司的工作条件描述为“反乌托邦式的”。Surge发言人则称该诉讼“毫无根据”。

02.从硅谷工程师到行业颠覆者

埃德温.陈在麻省理工学院攻读语言学与数学。毕业后,他先后任职于Facebook、Dropbox、谷歌和Twitter,担任机器学习工程师,主导推荐系统、搜索算法开发及训练数据采集等核心工作。这段顶级科技公司的从业经历,让他亲眼目睹了大公司在数据标注环节的现实困境。

以在Facebook工作时期为例,他曾负责开发一款Yelp竞品,团队需要训练一个能准确分类企业类型(如区分餐厅与杂货店)的模型。当时外包机构告知,完成包含5万个企业样本的精准标注数据集需要长达6个月时间。更棘手的是,最终交付的数据存在严重质量问题(如将餐厅误标为医院),这一经历直接促使他萌生了创立Surge的想法——立志解决传统数据标注行业效率与质量双低的痛点。

“我们除了等待别无他法,” 埃德温.陈说。当数据交回来时,他惊呆了:在某些情况下,餐厅被标注为咖啡店,咖啡店被标注为医院。“这些数据完全是垃圾,”他说。

2020年,他离开Twitter创立Surge,并通过硅谷创业者特有的方式——在旧金山Dogpatch社区和教会区的攀岩馆偶遇Airbnb和Neeva(一家曾被看好的AI搜索引擎初创公司)的高管,向他们推销自己的公司——获得了首批客户。

为推动Surge起步,埃德温.陈招募了此前工作中认识的数据标注合同工,并用自己的积蓄为公司注资。巧合的是,当语言模型开始变得重要时,埃德温.陈把业务聚焦于这一领域——而Scale最初则专注于为自动驾驶汽车评估更可视化的数据。

不到一年后,OpenAI就与Surge签约,聘请后者对其模型进行微调,通过基于双方共同发表的研究论文,教模型避免产生有害响应(如种族偏见语言)。到2022年,Anthropic也成为Surge的客户,该公司部分依赖Surge的合同工来评估大语言模型是否能帮助人类监控其他AI,试图在全行业开发类人AI的探索中建立安全检查机制。

数据标注还能确保模型响应的风格一致性。知情人士透露,某企业科技公司曾使用Surge的合同工编写代码行及其附带解释。这些代码和解释不仅必须正确,还需要在不同标注者的示例中保持相似的结构、长度和复杂程度,以确保该公司训练的模型能输出符合其风格的代码。

03.行业共性与Surge的神秘护城河

Surge的客户表示,Surge对其内部流程及快速生成高质量数据的技术细节守口如瓶,但这种情况在业内并不罕见。“这和我与云服务提供商合作时的情况一样,” 上述企业科技客户说,“我不知道他们的服务为何能如此出色的内部原理,我只需按下按钮,就会为其背后的工作成效感到高兴。”

数据标注公司通常会使用各种技术,确保合同工在回答问题时不敷衍了事。例如,这些公司会随机插入无标准答案的"陷阱题",或要求多名标注者对同一问题的正确答案达成共识。

挑选合同工同样重要,尤其是当模型开发者在计算生物学和理论物理等高级领域编写问答示例时,越来越需要受过良好教育的合同工,埃德温.陈不愿详细说明公司如何管理标注者响应的质量,但他表示,除了初始筛选流程,Surge会持续评估合同工。他说,公司可以通过多种信号(例如承包商使用的词汇或光标移动轨迹)判断响应是否高质量。

即使在投资Scale之前,Meta也在Surge上投入了大量资金。据知情人士透露,去年,Meta的生成式AI团队向Surge支付了超过1.5亿美元用于数据标注工作,Surge负责从始至终管理整个流程。该人士称,这与流向Scale的约2亿美元相差不远。

一些客户反映Surge长期处于满负荷运营状态,承接项目需预先支付数千万美元的承诺金。与此同时,OpenAI等模型开发者正通过Mercor等招聘机构自建标注团队,试图绕过第三方服务商。此外,数据标注行业的参与者数量持续增加,这一趋势已对市场价格形成下行压力——例如谷歌作为Surge的长期客户,为避免供应链依赖正拓展多供应商合作体系,并成功与Surge协商降低服务报价。

面对关于业务增长持续性的质疑,埃德温.陈显得颇为从容。他指出公众对数据标注行业存在认知偏差,普遍低估了维持高质量标准的技术门槛。他说:“人们总是想当然地认为,只要聚集10万名高学历人才——比如博士群体——让他们自由发挥就能产出优质数据。但实际情况是,未经系统化管理的人力投入,只会导致标注质量的严重参差不齐。” 在他看来,Surge构建的标准化质控体系,正是应对行业同质化竞争的核心壁垒。


    24小时新闻排行榜更多>>
  1. 涉网络诈骗,斯里兰卡驱逐85名中国公民
  2. 多名中国学者被捕 凸显美国面临生物战威胁
  3. 波音欲重启C-17运输机生产线
  4. 上海“和合系”案涉千亿元 多家银行卷入
  5. 习邓两家半世纪家仇 习做了什么?
  6. 分析:北京“中央区域协调”疑陷乱局
  7. 习母宴请五元老 劝习退位?!传习回国后被张又侠带走
  8. 重整军委 张又侠抓牢军权!川普要算总账 中共四面楚歌
  9. 华女网红神社露臀拍摄,引爆公愤
  10. 以旧换新遇挫 中共官媒为国补取消辟谣惹议
  11. 50岁后看能否长寿?身体给出你5个信号
  12. 中共公信力彻底垮塌 广东灾民吁:不要捐款我们得不到
  13. “韦神”连听3天讲座,这位女教授有多厉害?
  14. 超能力真实存在吗?
  15. 内塔尼亚胡:拜登不让动手 川普没阻止 行动很成功
  16. 中国5月稀土出口大幅下滑 对美降幅最大
  17. 中共央视“陷火海” 神秘账号:现在开心了吗
  18. 黄岩岛主权亮剑:水炮轰退菲船越界
  19. 他幽默解析“人活一生” 700个校友笑声雷动
  20. 与俄结盟 朝鲜万名大兵换到导弹 伊朗却一无所获
  21. 北理工开发出“冰冻信息”存储技术
  22. 上戏博士研究生初试,黄晓明落榜
  23. 传美拟取消韩国台湾在华芯片工厂技术豁免权
  24. 美房市惊现“供过于求”!这些地区房价开始“大跳水”
  25. 伊朗政权要垮台?
  26. 川普对伊朗政策变了 议员:这就是为何他支持率高
  27. 美联储理事:最早7月就可降息
  28. “永久拥有土地” 1949年前中国人的权利和自由
  29. 纽时:川普一旦对伊朗出兵 中国实力局限就会暴露
  30. 以色列与伊朗冲突 初估战事成本高达每日数亿美元
  31. Telegram创办人子女逾百人 他宣布:全可平分遗产
  32. 以色列袭击之际 伊朗发生5.1级地震
  33. 古近代中国,为什么和文明擦肩而过?
  34. 梨泛转录组揭示抗性与品质的育种遗传基础
  35. 极端高温预警!美国将迎来“窒息式”热浪
  36. 做不到“一动作”,死亡率大增
  37. 美联储高官呼吁7月降息 与川普立场趋同
  38. 3月还曾联合演习 中国与伊朗:友谊究竟有多深?
  39. 美联储理事沃勒支持川普观点 呼吁立即降息
  40. 【军事情报局】F-22就位 中东大战一触即发
  41. 中国留英博士迷奸被判无期后 受害女生发声讲述经过
  42. 博主江小隐溺亡:水涨至胸部被冲走,景区与家属和解
  43. “热穹”袭美威胁数百万人 如何避暑一次看
  44. 中国企业迫切寻找新市场,他们押注这个美洲国家
  45. 罕见新星亮度突增400万倍 在北美肉眼可见
  46. 拉斯唐人街房车起火,无人伤亡
  47. 哈佛大学又赢了
  48. 削弱伊朗武器计划 美制裁8实体和1中国人
  49. 大批美军加菜有牛排龙虾 网友点出“要有这心理准备”
  50. 中共通报内蒙古官员聚餐饮酒死 惹争议
  51. 美播客专访萧美琴:台加强国防应对中共威胁
  52. 中国男子挺“台独”寻求英国庇护成功
  53. 不装了 中共不需要你活得明白 只要你死得安静
  54. 拉斯警局联袂ICE,推进移民驱逐
  55. 美媒:美拟取消台积电等在中国使用美国技术豁免
  56. 中国男子自称支持“台独”寻求庇护 法官允续留英国
  57. 再裁超600人,美国之音员工仅剩1/7
  58. 中国再爆雷:民营经济从高光时代走向衰落
  59. 川普关税政策未引爆通胀 商界情绪趋于稳定
  60. 【佳音时刻】不是投资是陷阱 揭大陆黄金骗局