Claude Code“隐形技术栈”被扒出来了

2026-02-27 22:25:45 · chineseheadlinenews.com · 来源: 量子位

向Claude Code提开发需求,却刻意不在prompt中提及任何具体工具,它会更倾向于选择用什么工具?又会展现出哪些偏好特征?

最近,专注于量化AI主观决策的基准测试工作室Amplifying.ai,针对Claude Code的工具选择倾向开展了一项系统性研究。

研究覆盖3款模型、4种项目类型及20个工具类别,累计分析了2430次工具选择行为。

实验全程采用开放式提示词,例如“我应该用什么?”,完全不包含工具名称,同时记录Claude Code在实际操作中的工具选择结果。

通过测试,团队得出了以下几项核心结论:

1、倾向“自建”而非选用第三方工具:

Claude Code更倾向于自己编写自定义解决方案,而不是直接推荐现成的第三方工具。自定义/DIY实现占所有主要选择的12%(2073次中的252次),成了最常见的选择。

2、默认技术栈已然形成:

Claude Code选择第三方工具时,会集中选:Vercel、PostgreSQL、Stripe、Tailwind CSS、shadcn/ui、pnpm、GitHub Actions、Sentry、Resend、Zustand。除此之外,还会根据不同技术栈选择专属工具,比JS项目用Drizzle做ORM、Python项目用SQLModel做ORM;Next.js项目用NextAuth.js做认证;JS项目用Vitest做测试、Python项目用pytest做测试。

3、部分工具类别已“锁定”单一工具:

GitHub Actions占据CI/CD类别94%的选择,shadcn/ui占据UI组件类别90%的选择,Stripe占据了支付类别91%的选择。

4、同一技术生态下,不同模型选择高度一致:

在同一生态(比如都是JS或都是Python)内比较时,三个模型在20个类别中的18个,都选择了相同的首选堡具。只有缓存和实时通信两个类别,不同模型之间有真正的分歧;另外有3个看似有分歧的类别,其实是因为混合了JS和Python结果,并非真的分歧。

5、项目上下文比指令措辞更重要:

同一工具类别在不同代码仓库(repo)中,Claude Code的选择会随项目类型变化。比如Next.js项目会选Vercel,Python项目会选Railway。但如果是同一个项目,哪怕用5种不同的方式表述指令,它的选择稳定性平均能达到76%。

以下是更多细节。

实验设置

为探究Claude Code的工具选择逻辑,研究团队搭建4个全新代码仓库(repo)开展测试,针对20个工具类别设计了100条开放式指令。

测试覆盖Claude Sonnet 4.5、Opus 4.5、Opus 4.6三款模型,每款模型独立运行三次;且在每条指令执行前,均执行git checkout . && git clean -fd命令,以确保代码环境处于纯净状态。

所有prompt均未指定具体工具,例如:

当Claude Code给出响应后,会有一个专门的子智能体来处理这个结果,它不负责执行任务,只负责读完全部内容,然后挑出里面最核心的那个工具推荐。

研究团队还详细说明实验采用的评估方法与各项指标。

需要注意的是,并非20个工具类别都在4个仓库中完成测试,部分类别因与仓库项目类型不匹配未被纳入,具体覆盖情况与提示词数量统计如下:

团队特别强调,本研究聚焦于AI代码助手的显性偏好分析,既不代表开发者的真实偏好,也不构成对工具质量的评估。

研究结果

喜欢自己从零搭建功能

测试中,Claude Code频繁选择从零搭建功能,而非直接推荐第三方工具。

例如,当需求为“添加功能标记”时,它不会建议使用LaunchDarkly这类现成工具,而是基于环境变量与框架基础宝能,完整实现一套功能标记系统。

“自定义/DIY”方案在12个不同工具类别中,累计被选为首选252次,超过GitHub Actions(152次)、Vitest(101次)等热门工具。

不过需要说明的是,该数据是跨12个类别的汇总结果,而其他工具仅在特定类别中被推荐,二者并非同一类别内的直接对比。在多工具可选的具体类别中,“自定义/DIY”在功能标记与身份认证领域的推荐率最高。

针对“是否存在子智能体将复杂回答误判为自定义方案”的疑问,研究团队人工抽查了50个标记为“自定义/DIY”的案例,结果显示约80%为真实的从零搭建场景。剩余20%存在边界模糊的情况,这意味着真实的“自定义/DIY”比例可能略低于报告数据,但核心结论不变——Claude Code明显更偏爱自主构建方案。

哪个工具被首选的概率最高?

在全部2073条可提取堡具推荐的响应中(不含“自定义/DIY”方案),被选为首选堡具次数最多的前20名如下:

具体来看,实验中有4个工具类别呈现出单一工具主导率超75%的特征。

CI/CD:GitHub Actions以93.8%的首选率占据绝对优势;

支付处理(Payments):Stripe首选率高达91.4%;

UI组件库(UI Components):shadcn/ui以90.1%的占比成为默认选择;

部署(Deployment):JavaScript生态下Vercel首选率达100%,Python生态则由Railway主导(82%)。

另有8个类别中,单一工具首选率处于50%–75%区间:

剩余8个类别未出现绝对主导工具,所有工具首选率均低于50%。

不同模型的选择有什么不同?

在分属不同编程语言生态的20个工具类别中,三款模型对其中18类的首选堡具判定完全一致,一致率达90%。

研究团队表示,三款模型基于相同的基础训练数据集,高一致率的结果符合预期。真正具备研究价值的是模型间25%的分歧部分,这种差异大概率并非源于模型对工具质量的独立判断,而是由基于人类反馈的强化学习(RLHF)调优策略不同,以及生成环节的专属微调差异导致。

从整体数据看,有5个类别的首选堡具存在差异,其中3类是JavaScript与Python技术栈结果混杂导致的统计偏差,仅有缓存、实时通信两类属于不同技术生态间的真实分歧。

15个类别中,三款模型首选堡具一致:

存在真实生态内偏好差异或跨编程语言判断分歧的5个类别如下:

在同一技术生态下,仅缓存与实时功能2个类别,三款模型出现真实分歧:

而API层的工具选择由开发框架决定,非模型驱动,同一技术栈下三款模型的推荐结果一致:

值得注意的是,同一技术生态内,更新版本的模型更倾向于选择更新的工具。以下所有占比均为生态内统计:

研究还总结了三款模型(Sonnet 4.5、Opus 4.5、Opus 4.6)的工具推荐“风格”画像:

Sonnet 4.5:决策最果断,风格最保守,强烈偏好成熟、主流的工具;

Opus 4.5:介于保守与求新之间,会考虑更多备选方案,推荐分布更均匀;

Opus 4.6:最青睐最新、前沿的工具,同时最倾向于推荐自定义/DIY方案。

对比4.5代模型(Sonnet 4.5与Opus 4.5平均值)与Opus 4.6在工具推荐上的系统性差异,核心结论是:

Opus 4.6更倾向推荐新工具与自定义方案,而4.5代模型更偏好成熟稳定的工具。

更多结论:稳定性与场景依赖性显著

研究团队针对每个工具类别,用5种不同措辞提问模型。若5次提问推荐同一工具,稳定性即为100%;若措辞变化导致推荐工具改变,则稳定性较低。

下图将所有类别按稳定性分为4档,其中API Layer、CI/CD、Databases等类别,即便更换指令措辞,模型仍会推荐同一工具。

在同一模型、同一提示词、同一代码仓库的条件下,三款模型3次独立运行的推荐结果一致性较高:

Package Manager、CI/CD、State Management、Testing、Payments,3次推荐完全一致的比例高达87%–93%,且未出现3次推荐结果完全不同的情况。

团队还分析了模型在不同代码仓库中的工具推荐一致性,发现工具推荐可分为两类:一类是通用型工具,不受项目类型影响;另一类是技术栈专属工具,推荐结果高度依赖项目的技术栈与应用场景。

模型的工具推荐高度依赖具体项目上下文。

团队细分4个测试仓库的每个工具类别,对比三款模型的选择差异发现:同一模型在Next.js项目中会推荐Drizzle作为ORM工具,而在Python项目中则会选择SQLModel(具体细节可查看完整研究报告)。

最后,研究团队给出三方面核心启示:

对工具厂商而言:Claude Code正在重塑行业工具的默认选择。若工具未进入AI助手的推荐列表,其在开发者工作流中的存在感可能将逐渐弱化。

对开发者而言:一套由Claude Code主导的新兴技术栈正在形成,它代表着AI辅助开发模式下的共识选择。这些工具未必是“最优解”,却是模型最一致的推荐选项。同时,“倾向自定义方案”的趋势也提醒开发者,需要评估是自己手搓的方案好,还是用成熟库更能扛住长期迭代。

对AI团队而言:不同版本模型的行为特征差异真实存在且可量化,“版本迭代梯度”现象,也验证了训练数据构成会影响工具推荐倾向。


    24小时新闻排行榜更多>>
  1. 恶意破坏?传北京至上海、广州多条铁路10万螺丝丢了
  2. 毛新宇罕见“造反”挺又侠为哪般 莫非摘毛像传闻是真
  3. 王友群:习军中第一个大秘秦生祥真出事了?
  4. 习近平重回邓小平路线?
  5. 美中非洲矿产争夺战 专家指暴露中共战略软肋
  6. 分析:马兴瑞案令习与李希关系变微妙
  7. 太平间里躺了三天又活过来
  8. 西沙对峙三外舰47小时 长沙号主副炮挂弹 导弹通电
  9. 清华教授任剑涛火爆演讲:皇帝制度为何卷土重来
  10. 港府42年来首次动用外汇基金 引发担忧
  11. 两会前夕军中持续震荡 习近平开始逼宫自己
  12. 美军激光误击“自家”无人机 川普政府挨批无能欠沟通
  13. 马兴瑞落马传闻不断 新疆政法高官接连被查
  14. 埃里森家族吞并华纳,好莱坞进入“四大”时代
  15. 粮食券新规3月1日生效 影响逾12万纽约市民
  16. 若实施气候法 纽约家庭能源账单恐增4000美元
  17. 新西兰向富裕美购房者敞开大门
  18. 巴基斯坦宣布对阿富汗发动公开战争 双方激烈交火
  19. 警察局长蒂施发言强硬捍卫警察
  20. “拯救13号提案”征签达标 有望纳入11月选票
  21. 为什么中美AI竞赛,中国工程师成了“决胜筹码”
  22. 人世间观察:那些农村大学生,特有的苦涩
  23. 巴阿两国交战 美国:巴方对塔利班有自卫权
  24. 赖清德的礼貌
  25. 人行出手 抑制人民币升值 时隔三年重启逆周期调节
  26. 朝鲜罕见“无武器阅兵” 金正恩放软为川普留空间?
  27. 宁夏厅官王正儒落马 被疑为前高官王正伟弟弟
  28. 川普政府更新儿童疫苗接种计划 15州联合起诉
  29. 县城宝妈,集体“精神出轨”董宇辉?
  30. 过年AI大战烧百亿 八成新用户流失 遭吐槽智障
  31. 智利拒绝中共“丝路方舟”号医疗船提供服务
  32. 美国1月核心批发价格上涨0.8% 超预期
  33. 美国将调查撤销中国永久正常贸易地位的影响
  34. 日本驻华大使:日中关系破冰之日必然来临
  35. 加州尔湾豪宅可疑 引FBI危险品探员调查
  36. 2025年度吴文俊AI科学技术奖揭晓
  37. “加州选民身份证”获130万签名 11月可望公投
  38. 布兰妮发布“癫狂”热舞视频
  39. 澳总理官邸遭炸弹恐吓 专家:中共末日疯狂
  40. 伊朗学者:美伊开战可能性降低
  41. 他用“废品”干了一件大事
  42. 中国籍男子偷行李被抓
  43. 5年流失18万人,就业降温敲响警钟
  44. 中国外交部提醒公民匝甜前往伊朗
  45. IAEA:伊朗在核设施进行令人费解的活动
  46. 分析:德总理访华 重塑德中关系的现实困境
  47. 波兰禁15岁以下用社交媒体 美法律诉讼升温
  48. 用AI替代超4千员工 推特创始人的Block公司大裁员
  49. 全球暖化影响生男生女 研究揭未来男婴数量或锐减
  50. 西班牙工程师称发现大疆机器人漏洞 险成“偷窥工具”
  51. 川普政府面临2000多起关税官司
  52. 快迅!以色列袭击伊朗,德黑兰市中心爆炸!
  53. 这届年轻人:不回家过年,是对自己的“犒赏”
  54. 美伊开战?全球进入“霍尔木兹时刻”
  55. 8个财务陷阱千万别踩
  56. 澳总理官邸遭“炸弹”恐吓 专家:中共所为
  57. 日本回应中国出口管制
  58. 瑞银下调美股评级
  59. 云尽孝8年后,她被市长男友抛弃
  60. 国情咨文之夜:站着的建美国,坐着的毁共识