Amazon workers under pressure to up their AI usage are making up tasks
397 points • 4 days agoArticle Link

Amazon 员工正面临越来越大的压力,被要求把人工智能融入日常工作;但由于缺乏清晰的使用指导,一些员工为了满足使用预期而制造不必要的 AI 任务。据 Financial Times 报道,Amazon 通过内部工具 MeshClaw 追踪员工的 AI 代币消耗,有人仅为抬高数据而生成多余的 AI 代理,并未真正提升生产力。

几位匿名员工描述了这样一种职场文化:AI 使用已成不可忽视的指标。一位员工说"使用这些工具的压力很大",有同事主要通过 MeshClaw 来最大化代币消耗。尽管 Amazon 表示 AI 使用统计不会纳入绩效考核,员工仍心存疑虑。另一位员工指出,经理确实在关注这些数据,追踪机制带来了"扭曲的激励",有人甚至把 AI 使用数据当成竞赛标尺。

据称,公司目标是每周有 80% 的开发者使用 AI,员工的代币消耗还在内部排行榜上显示。但 Amazon 否认这些说法,称公司没有全员统一的 AI 使用指标,也没有用于员工互比的内部排行榜,员工只能在个人仪表板上查看自己的使用情况。

MeshClaw 是争议的核心工具,灵感来自 OpenClaw——一款既有提升效率潜力又存在风险的工具。与云端模型不同,这两款工具都在用户的本地硬件上运行,因而拥有较高的自主性。这种独立性引发担忧:今年早些时候,Meta Superintelligence Labs 的对齐主管在使用 OpenClaw 时差点被删除整个邮箱,此事走红网络,凸显了赋予 AI 过多访问与控制权限的危险。

432 comments • Comments Link

多家大型科技公司正在推行激励或强制性的高 AI 代币消耗政策:有些企业把代币使用量纳入绩效考核,形成类似苏联式配额的扭曲激励,使得满足任意指标比提升实际生产力更重要。

在这种压力下,员工通过创建不必要的 AI 代理、用大模型处理琐碎事务或生成毫无价值的输出,人为抬高代币消耗。有报道说,某位员工通过自动化代理消耗的代币是同事的十倍,却因此获赞而非被质疑。

这与历史上的指标操纵类似:用代码行数(LOC)评估程序员会催生臃肿代码;"眼镜蛇效应"说明激励可能产生与初衷相反的结果——都应验了古德哈特定律:一旦指标成为目标,它就不再是有效衡量标准。

推动这种现象的因素多样:大力投资 AI 的高管需要证明支出合理,缺乏技术背景的管理层偏好易于追踪的指标,持有 AI 公司股权的企业希望推动收入增长,加之全行业的 FOMO——不论实际效用如何都要显得"AI 原生"。

相比之下,更有意义的指标像完成的故事点、引入的 bug 数量或交付功能的质量,显然比代币消耗更能反映产出。但领导层仍然关注投入指标,因为它们更容易在仪表盘上展示给利益相关者,即便这些指标与实际产出相关性很弱。

一些工程师确实开发出真正有用的 AI 应用——如自动化文档、跨平台代码库分析或自动生成测试用例——但这些生产性用途常被为追求代币数字的表演和大量需人工清理的低质量输出所掩盖。

这种现象并不限于单一公司,而是蔓延至多家 FAANG 企业和一些中小公司。有公司内部还建立了代币使用排行榜,尽管官方声称不会影响绩效,但无论是否创造实际价值,这类榜单都会形成隐性的消费竞争压力。

批评者把这类行为与历史及当下的浪费性支出相提并论:9/11 后情报机构的过度差旅、鼓励乘坐昂贵航班的差旅政策、资助无关学术旅行,乃至在发展中国家推广婴儿配方奶粉的营销手段——都是资金流动但未产出相应价值的例子。

环境影响也引发关注:大量"燃烧"代币需要依赖数据中心基础设施,耗费电力和水资源;一些地区通过税收优惠和廉价能源补贴吸引这些设施,而当地居民却承担更高的水电账单。

支持者认为,这种强制使用能促进探索与学习,逼着工程师尝试他们原本不会尝试的有价值用例;反对者则指出,当员工已经清楚工具的局限且真正有用的应用有限时,这种做法无非是在浪费资源。

更深层次上,这反映了现代资本主义的一种倾向:资金无论是否创造实际价值都要在实体间流动以显示增长,AI 代币消耗只是这种循环经济活动的又一载体,主要受益者往往是基础设施提供商,而回报却值得怀疑。

总体讨论揭示了对以指标驱动的 AI 管理文化的广泛不满:易于计量的投入指标(如代币消耗)取代了难以评估却更有意义的产出指标(如生产力或商业价值)。评论者频繁援引古德哈特定律和历史类比,说明激励结构会被操纵,员工倾向于优化被衡量的指标而非真正的组织目标。尽管有人承认 AI 工具存在正当用途,但普遍观点认为,通过绩效指标强制使用 AI 更多产生的是表演而非价值,浪费资源,并可能因把 AI 与官僚合规挂钩而阻碍实际采用。这一现象主要由高管证明 AI 投资合理的焦虑、管理者偏好简单仪表盘而非细致评估,以及全行业无视实际结果的从众压力所驱动。