Coders are refusing to work without AI — and that could come back to bite them

标题和作者

本文的标题为"Coders are refusing to work without AI — and that could come back to bite them"（程序员拒绝在没有AI的情况下工作——这可能会反噬他们），文章未明确指名具体作者，而是汇集了METR研究实验室、亚马逊、优步、Cognition公司等多方的研究报告和行业观察。文档的主题聚焦于2026年软件开发领域中AI工具的过度依赖现象，以及这种依赖背后隐藏的潜在风险，即虽然AI提升了编码速度，但可能导致长期的生产力下降、维护成本增加以及企业预算的浪费。

摘要

本文主要探讨了2026年开发者对AI编码工具的高度依赖现状及其带来的潜在负面影响。此前，METR实验室在2025年发布了一项开创性研究，测量了开源开发者手动完成任务与使用AI完成任务的时间差异，结果显示AI虽然加快了代码生成速度，但总体上反而降低了开发者的效率，因为开发者需要花费额外时间进行调试和引导AI。然而，在2026年，当METR试图重复该实验以测量AI的最新进展时，他们遭遇了失败，因为开发者拒绝在没有AI协助的情况下完成任何任务，哪怕是为了科学研究。为了获取数据，METR转而进行了一项调查，结果显示开发者认为AI使他们的价值增加了两倍。然而，随着2026年流行的"tokenmaxxing"（最大化使用AI代币以衡量生产力）趋势的兴起，以及亚马逊内部排行榜和优步AI预算的失控，这种自认为的生产力提升显得站不住脚。本文详细分析了这一现象，指出AI生成的代码可能引入更高的长期维护成本，甚至导致代码质量下降。此外，文中还介绍了开发者如何通过使用AI代理来修复错误，以及SMU研究人员建议开发者应像熟悉编程语言一样了解AI的局限性，并实施严格的质量保证系统来监督AI的工作。

主要主题和概念

AI生产力悖论
- What：这一问题界定为开发者对AI工具的过度依赖，导致他们即使知道AI可能降低效率，也无法在没有AI的情况下完成任何编码任务，且实际生产力并未随AI能力提升而相应增长，反而因为调试和引导AI的时间而下降。
- Why：AI虽然能快速生成代码，但生成的代码往往包含错误，迫使开发者花费大量时间进行修复和引导，这种“生成速度”与“修复时间”之间的不匹配，导致了总体效率的降低。
- How：METR实验室在2026年试图重复2025年的实验以验证AI的进步，但由于开发者拒绝在没有AI的情况下参与实验，这一方法失效，转而依赖开发者自我报告的调查数据，揭示了这种心理依赖和实际效率下降并存的现状。
Tokenmaxxing与预算浪费
- What：这是一种将AI代币使用量作为生产力代理指标的趋势，开发者和企业通过大量使用AI来虚高其生产力数据，但这往往导致成本失控和系统被人为操纵。
- Why：这种趋势源于企业对AI投资回报率的焦虑，以及对“使用量即生产力”的误解，导致员工为了追求个人或部门绩效指标而滥用AI工具。
- How：亚马逊关闭了内部名为Kirorank的代币追踪排行榜，因为员工通过过度使用AI代理来获取排名；优步则在2026年前四个月就耗尽了其AI预算，且这种高投入并未带来可衡量的项目或生产力提升。
维护成本与代码质量风险
- What：AI生成的代码不仅没有减少后续的维护需求，反而可能引入更多的错误和长期维护成本，即所谓的“代码负债”增加。
- Why：AI模型在生成代码时缺乏对上下文和深层逻辑的完美理解，导致其生成的代码往往比人类编写的代码包含更多的缺陷和潜在问题。
- How：James Shore指出，开发者虽然写代码速度快了一倍，但必须将维护成本减半，否则就是“拿临时速度换取永久束缚”。SMU的研究也证实了AI生成的代码会引入长期维护成本，建议开发者必须像审查初级程序员代码一样仔细审查AI的工作，并实施专门针对AI的质量保证系统。

重要引文

论点：AI虽然加快了代码生成的速度，但总体上实际上减缓了开发者的工作效率，因为额外的调试和引导时间抵消了生成速度带来的收益。
论据：METR实验室在2025年发布的研究数据，该研究测量了开源开发者使用AI和手动完成任务的时间，发现虽然开发者报告AI提高了生产力，但实际数据表明其总体时间反而增加了。
论证：研究人员指出，AI能够快速生成代码，但随后开发者需要花费额外的时间来寻找错误、修正错误、引导AI的输出以及等待任务完成，这种“生成快、修正慢”的流程导致了整体效率的降低。

总结

本文的核心亮点在于揭示了2026年软件开发行业一个令人担忧的现状：开发者对AI工具的依赖已达到“vise grip”（钳子般紧握）的程度，他们甚至拒绝在没有AI协助的情况下工作。尽管开发者普遍自认为AI使他们的价值翻倍，但现实情况却揭示了相反的一面：从亚马逊关闭内部代币排行榜到优步预算失控，再到SMU关于维护成本增加的警告，都表明AI的过度使用正在带来财务和质量的反噬。未来的方向很明确，AI不能被简单视为“交钥匙”的解决方案，人类开发者必须重新掌握主导权，不仅要像了解编程语言一样了解AI的能力边界，还需要建立严格的QA系统来审查AI生成的代码。这不再是人机分离，而是人机协作，由人类负责架构和安全设计，由AI辅助处理繁琐的维护任务。

术语解释

METR (Measuring Tool Use and Reasoning)：METR是一个值得信赖的AI研究实验室，专注于评估AI工具在解决编程任务时的表现和推理能力。
Tokenmaxxing：这是一个2026年流行的趋势，指开发者或企业通过最大化使用AI处理的“代币”数量来衡量或展示生产力，这往往导致成本激增和产出质量下降。
Token：代币是大型语言模型处理文本的基本单位，类似于一种数字货币，用于计算AI处理文本的成本和数量。
Devin：由Cognition公司开发的AI编码代理，能够独立工作，但Scott Wu将其目前的技能水平评估为介于初级和中级程序员之间。
Junior and mid-level programmer：初级和中级程序员指的是编程技能熟练度处于不同阶段的开发者，初级程序员通常需要更多指导和监督。

术语解释

Task-level productivity：任务级生产力是指衡量开发者在完成特定编程任务时的时间效率和产出质量，而不是仅仅关注代码生成的速度。
Open source developers：指参与开源软件开发的人员，他们通常没有固定的薪酬，而是通过贡献代码来展示技能或进行协作。
Kirorank：这是亚马逊内部用于追踪和排名员工AI代币使用量的系统，旨在衡量员工的生产力，但最终被员工通过滥用AI代理所破坏。
CodeRabbit：这是一家提供代码审查工具的公司，其分析报告显示AI生成的代码存在问题的频率比人类代码高出1.7倍。
Maintenance costs：维护成本是指在软件发布后，为了修复错误、优化性能和适应新需求而持续投入的资源（包括时间和金钱）。