“纳米香蕉”LMArena两周500万投票

2025-09-04 11:25:27 · chineseheadlinenews.com · 来源: 新智元

8月,nano?banana登顶LMArena文生图像榜单,带动LMArena社区流量暴增10倍,月活用户300万+。nano?banana在LMArena启动盲测后,短短两周便吸引了超过500万次总投票,并单独赢得了250万+直接投票,创下历史最高参与度。自2023年推出以来,LMArena已成为谷歌、OpenAI等AI大厂扎堆厮杀的竞技场。

今年8月,一款名为“纳米香蕉”的神秘AI图像编辑器轻松登顶Image Edit Arena榜首,直接把LMArena8月份的平台流量拉爆:

流量暴增10倍,月活300万+。

该模型自在LMArena启动盲测以来,短短两周便吸引了超过500万次总投票,并单独赢得了250万+直接投票,创下历史最高参与度。

nano?banana的神秘身份,也在LMArena社区引发广泛猜测。

在谷歌认领“纳米香蕉”,将其正式定名为Gemini 2.5 Flash Image之前,已不少网友猜到谷歌是Nano Banana的真正主人。

还有网友贴出了在LMArena上使用正版“纳米香蕉”的方法,该方法不仅免费,而且不需要登录。

不仅能让用户“近距离”接触各种最新模型,LMArena还为大模型比拼,提供了一个真实的“罗马竞技场”,它让谷歌、OpenAI等公司的最新模型,在这里真刀真枪对决,接受成千上万用户的检阅。

用户的投票和反馈,决定了这些大模型的排名,也为大模型厂商迭代模型,提供了真实的用例数据,使他们能够更加有的放矢地改进模型。

nano?banana爆红,让LMArena流量狂涨10倍,据LMArena首席技术官Wei-Lin Chiang证实,该站月活跃用户已超过300万。

无论谷歌,还是LMArena都成为这场流量盛宴中的最大赢家。

从Chatbot Arena到LMArena

LMArena联合创始人Wei-Lin Chiang和Anastasios Angelopoulos

LMArena前身叫Chatbot Arena,最初起源于2023年伯克利的一项研究项目,后来更名为LMArena。

Chatbot Arena像一个用户社区评测中心,它改变了通过学科测试来评测AI技术的传统方式,将评价权交给了社区用户,并且采用匿名、众包的成对比较,来评估大模型。

用户还可以选择模型进行自我测试。

ChatGPT、Llama 1等大模型的发布,为Chatbot Arena的出现提供了一个契机。

因为,当时人们还没有一个评测大模型的有效方法,于是Chiang就与伯克利研究人员Anastasios Angelopoulos,以及Ion Stoica共同创办了Chatbot Arena,也就是后来的LMArena。

他们的想法,是做一个以社区为中心的公开的、基于网络的平台,邀请所有人来参与评测。

很快,Chatbot Arena就引起了许多关注,成千上万的人前来投票,他们就利用这些用户投票数据,整理出了第一版排行榜。

最初上榜的,多是一些开源模型,唯一商用模型只有Claude和GPT。

随着更多模型的不断加入,Chatbot Arena的关注度也越来越高。各AI大厂纷纷请求将自己产品排名,并试图登上这个排行榜的榜首。

Chatbot Arena的走红,也让众多科技公司将之视为AI技术的风向标,他们像华尔街交易员盯盘一样,密切关注着Chatbot Arena榜单的变化。

这一切都让Meta AI产品管理总监Joseph Spisak感到十分惊讶,他惊叹于几个学生竟能产生如此重大的影响力。

Chiang希望LMArena能够成为一个对所有人都开放可及的平台,希望更多的用户来测试这些模型,表达他们的看法和偏好,以此帮助社区以及模型提供方,能够更好地基于这些真实用例来评估AI。

正如Chiang所言,在LMArena社区中,最受欢迎、增长最快的模型,往往来自于真实场景中的用例。“纳米香蕉”就是最成功的例子之一。

匿名登场和盲测机制,让nano-banana在LMArena自然爆红,当时普通用户无法手动挑选nano-banana,只有在 Battle里随机遇到它,社区里大量帖子讨论“刷很多局才等到香蕉”的体验。

目前,Gemini 2.5 Flash Image成为LMArena的“双料冠军”,获得了Image Edit Arena、Text-to-Image两个榜单的第一名。

从LMArena排名上,还可以看出各个领域表现最佳的模型。

比如,在编码领域,Claude排名最佳。在创意领域,Gemini位居前列。

也许是Meta内部AI团队调整的缘故,Chiang并没有听到太多Llama 4的消息。但他认为Meta正在构建的“全模型”,也许代表着未来行业的一大趋势。

大模型厂商为何钟情“屠榜”?

OpenAI、谷歌、Anthorpic等大模型厂商,为什么都喜欢将它们的模型放到LMArena等排行榜上?

是为了建立品牌曝光度,还是获得用户反馈来改进他们的模型?

显然,曝光与背书,是一个最直观的短期效应。

LMArena是业内关注度最高的公开榜之一,累计投票已达数百万次。而且科技媒体也喜欢频繁引用LMArena的数据,这些都可以为大模型品牌带来显著的口碑与流量红利。

其次,是更贴近“真实使用”的用户反馈。

LMArena采用匿名、随机配对的投票方式,并用Elo计分,这样做减少了“品牌光环”“位置偏置”等主观影响,能真实反映用户对模型回答质量的评价。

Elo系统最初用于国际象棋计分,也是LMArena排行榜背后的核心机制。在该规则下,每个选手(或模型)都有一个实力分数(Elo 分),每场对战后,会根据结果和预期,更新双方的Elo分。

这让每次用户投票都成为一场对战,模型Elo分经过成千上万次对战收敛,排名就可以更真实地反映用户偏好。

此外,LMArena提供了一个跨厂商、跨开源/闭源的同台竞技舞台,这天然就会带来更高流量的曝光,也为用户提供了更丰富的选型信息。

正如Chiang所言,希望将LMArena打造成一个人人都能参与、都能表达自己观点的开放空间。

这里的一切都是社区机制来驱动,鼓励大家提问和投票,表达自己对不同模型的评价。

对于大模型厂商来说,LMArena提供了一个很好的“照镜子”的机会。

大模型厂商可以看清自己在所在领域的排行情况,以及获得LMArena根据社区反馈提供的报告和分析,详细评估自己模型的表现,对症下药提升模型能力。

需要新的LLM基准测试吗?

当所有模型,都非常接近基准测试了,还需要新的基准测试吗?

Chiang认为这一点是非常必要的。但是其中一个核心原则,是这些基准要扎根于真实世界用例。

比如,能够超越传统的基准测试,转向更贴近真实用户场景的基准测试,尤其是善于使用AI工具完成任务的专业人士所驱动的基准。

以LMArena最新推出的WebDev基准测试为例,用户可以用提示词让一个模型搭建网站。这种基准测试,可以更好地将AI技术与真实世界用例紧密相连,使其更快在实际应用场景落地。

针对MIT关于“大多数投资AI的公司都没有看到投资回报”的报告,Chiang认为这是一项很有意思的研究。

他认为该研究反映了“将AI与真实世界用例紧密相连尤为重要”,这也正是他要将LMArena平台扩展到更多行业的原因。

希望通过更多扎根于真实用例的基准测试,去弥合技术与实用场景的鸿沟,并为之提供可衡量的标准。

Chiang表示,LMArena的目标是利用平台数据来理解模型的局限性,保持数据研究流程的透明,并将数据发布出来,以此推动社区平台的持续建设。

对于大模型厂商和“用户观众”来说,这里是一个永不落幕的竞技场。


    24小时新闻排行榜更多>>
  1. 中国阅兵见效了,美媒开始劝美国冷静
  2. 习阅兵病态加重 王岐山笑开怀 马兴瑞难掩惊慌
  3. 中国到处爆炸!蘑菇云升空如核爆!重庆出大事!
  4. 【纪元焦点】9·3阅兵阴霾密布:中共覆亡前兆
  5. 国民党败退台湾并不是输给毛泽东 而是他
  6. 美终止非法移民州内学费优惠 影响数万大学生
  7. 中国民众吐槽阅兵 三小时遭公安逮捕 下场曝
  8. 川普警告数位监管国家:将面临重大关税制裁
  9. 普京习近平器官移植言论惹议 美议长抨击
  10. 中共阅兵防敌狠招 大树捆尖利“钢刺”怕阻击手?
  11. 【佳音时刻】阅兵谈器官移植 习普狂笑说长生
  12. 40岁还能演学生的女星,我只服这6个
  13. 川普将下令把国防部更名为“战争部”
  14. 上合峰会安华夫人拒握手 习近平尴尬点头...
  15. 抵制中共跨境镇压与渗透 弗州国会候选人回应社区呼声
  16. 美媒关注习近平普京“长生不老”话题:颤抖吧,凡人
  17. 台北市议员应晓薇自曝 羁押中靠抓蟑螂放生度日
  18. 支付乱象调查:“一键开通”变“一直扣款”
  19. 会谈结束,金正恩离开大会堂
  20. 继学位接连被取消后,金建希教师资格证被注销
  21. 天津市委前组织部长周德睿被双开并移送司法
  22. 普京最后通牒:乌若拒和谈将以军事手段达成所有目标
  23. 金正恩会晤普京后 朝鲜特工被曝清理现场痕迹
  24. 狼真来了?
  25. 中国抗战没有取得完全彻底胜利的原因分析
  26. 金普会晤前夕 朝俄随扈上演“空调争夺战”
  27. 【直播预告】新唐人中国古典舞大赛纽约举行
  28. 美升级芯片禁令 专家:中国厂商面临断供
  29. 习和普京聊“器官移植”意外证实两个惊悚秘密
  30. 广东兴宁数百公交车司机罢运 讨补贴款
  31. 印尼总统还是去了,国内“娘子军”抗议
  32. 丰田汽车上半年净利润是中国16家车企的1.9倍
  33. 地产诞生了“新物种”
  34. “最脏水果”第一名,小心一口就中招
  35. 纽约被遣返移民达去年总和3倍
  36. 王沪宁会见洪秀柱 称抗战纪念活动彰显中华儿女团结
  37. 中共要求芯片去美化 传中企仍抢购英伟达H20
  38. 中共光伏组件与台积电南京厂遭欧美监管
  39. 六百军方律师转任移民法官 专家:对移民影响重大
  40. 习普笑谈移植和长生 美议员:应立即制止活摘
  41. 一周内三震 阿富汗又发生6.2级地震
  42. 对抗川普政府医卫政策 美西岸三州组“疫苗联盟”
  43. 与习近平大聊“长生不老”普京记者会上亲口认了
  44. 英电视名人拍到UFO:金色光球在空中盘旋
  45. 里斯本有轨电车脱轨,致15死18伤
  46. 普、习谈器官移植和永生 网络舆论哗然
  47. 中共阅兵炫耀武力 民众担忧国家未来
  48. 华埠市议员马泰宣布竞逐市议长
  49. 习普聊“活到150岁”引国际热议 美医疗界直呼“毫无根据”
  50. 美众议院议长:警惕习普移植对话 制止活摘器官
  51. 川普辟谣"已去世"传闻:太假了,我就两天没举行记者会
  52. 大阅兵后,一种惊慌感在西方出现
  53. 多伦多又到“黄蜂季”
  54. 黑人留学生:中国政府非常好每月给补贴金 引众怒
  55. 寻找失踪夫妻,却意外捞出近百辆汽车
  56. 美国人何时申请社保福利最划算?一文看懂
  57. 美国务院雇员向中共泄国防信息 被判囚4年
  58. 【新闻大破解】中共阅兵十大暗黑信号
  59. 女孩报警称捡到弃婴 脸苍白支支吾吾:不是我生的…
  60. 批评9.3阅兵 大陆网民遭拘留