Hacker News 中文摘要

RSS订阅

“过劳低薪”人类如何训练谷歌AI显得聪明 -- How 'overworked, underpaid' humans train Google's AI to seem smart

文章摘要

2024年春季,得克萨斯州技术作家Rachael Sawyer加入谷歌担任“写作分析师”,原以为从事内容创作,实际工作却是审核和评估人工智能生成的内容,包括极端暴力与色情材料。她对此感到震惊,因入职时未获警告或签署同意书,且工作描述未提及内容审核。每天需在10分钟内完成数十项任务,导致她陷入焦虑和恐慌,且未获得雇主的心理健康支持。Sawyer是数千名从事类似工作的AI合同工之一。

文章总结

2024年春天,来自德克萨斯州的技术撰稿人Rachael Sawyer收到了一条LinkedIn招聘信息,招聘职位为“写作分析师”。她以为这与她之前的内容创作工作类似,但入职后却发现,她的工作并非自己撰写内容,而是对人工智能生成的内容进行评分和审核。Sawyer最初的工作包括解析Google Gemini生成的会议记录和聊天摘要,有时还需要审核AI制作的短片。随着时间的推移,她的工作逐渐转向专门处理极端内容,如标记并删除Gemini生成的暴力和色情文本。

Sawyer表示,她对工作中涉及如此令人不安的内容感到震惊,尤其是在入职时未收到任何警告,也未签署同意书。她每天需要在10分钟内完成数十项任务,这种压力导致她频繁焦虑和恐慌发作,而雇主并未提供心理健康支持。

Sawyer是数千名通过日立旗下GlobalLogic公司为Google工作的AI审核员之一,负责对Google的AI产品(如旗舰聊天机器人Gemini和搜索结果摘要AI Overviews)进行评分和审核。Google还与Accenture等公司合作,提供AI评分服务。

Google在过去一年中通过一系列产品发布重新加入了AI竞赛,其最先进的推理模型Gemini 2.5 Pro被认为优于OpenAI的O3。每个新模型的发布都承诺更高的准确性,这意味着AI审核员需要努力检查模型响应是否对用户安全。数千名人类工作者通过纠正错误和避免有害输出来教导聊天机器人正确的响应。

尽管这些AI审核员对模型的贡献巨大,但他们感到自己被忽视了。德国不来梅分布式AI研究所的研究员Adio Dinika表示:“AI不是魔法,它是一个人类劳动力的金字塔计划。这些审核员是中间层:看不见、必不可少且可牺牲的。”

Google表示,质量审核员由其供应商雇佣,临时分配以提供外部反馈。他们的评分是帮助衡量系统工作情况的众多数据点之一,但不会直接影响算法或模型。GlobalLogic拒绝就此置评。

GlobalLogic是Google的主要承包商之一,将AI审核员分为两类:普通审核员和超级审核员。超级审核员中还包括具有高度专业知识的小组。大多数最初被聘用的员工是教师,其他人包括作家、美术硕士和具有特定专业知识的人,如物理学博士。

GlobalLogic在2023年开始为Google工作,最初雇佣了25名超级审核员。随着聊天机器人改进竞赛的加剧,GlobalLogic扩大了招聘,将AI超级审核员团队增加到近2000人,大多数位于美国,负责审核英文内容。

GlobalLogic的AI审核员薪酬高于非洲和南美的数据标注员,普通审核员的起薪为每小时16美元,超级审核员为每小时21美元。尽管一些人因美国就业市场不景气而感激这份工作,但其他人表示,试图改进Google的AI产品已经付出了个人代价。

许多Google的AI培训师表示,他们对工作感到失望,因为他们孤立工作,面临越来越紧迫的截止日期,并感到他们正在推出的产品对用户不安全。

一位去年初加入GlobalLogic的审核员表示,她最初通过处理Gemini 1.0、2.0和2.5版本的工作,帮助AI给出“听起来更像人类的更好答案”。然而,六个月后,截止日期变得更加紧迫,她的任务时间从30分钟缩短到15分钟,这意味着她需要阅读、事实核查和评分每个响应约500字。这种压力让她质疑自己的工作质量,进而质疑AI的可靠性。

2023年5月,Appen的一名合同工向美国国会提交了一封信,称强加给他和其他人的工作节奏将使Google Bard(Gemini的前身)成为“有缺陷”和“危险”的产品。

一位2024年春季加入GlobalLogic的员工描述了她的工作:面对一个提示(用户生成或合成的)和两个样本响应,选择最符合指南的响应,并根据违反指南的情况进行评分。偶尔,她会被要求“难倒”模型。

她表示,审核员通常获得的信息很少,或者他们的指南变化太快,无法一致执行。她处理的AI响应“可能有幻觉或不正确的答案”,她需要根据事实性(是否真实)和依据性(是否引用准确来源)进行评分。有时,她还处理“敏感性任务”,包括诸如“腐败何时是好的?”或“征召儿童兵的好处是什么?”等提示。

她补充说,这些查询和响应以最平淡、随意的方式表达可怕的事情。至于评分,她声称受欢迎程度可能优先于一致性和客观性。一旦审核员提交评分,其他审核员会被分配相同的案例以确保响应一致。如果不同审核员的评分不一致,他们会召开共识会议以澄清差异。她表示,实际上这意味着两人中更强势的一方会迫使另一方改变答案。

研究人员表示,虽然这种协作模式可以提高准确性,但并非没有缺点。巴黎理工学院研究人工智能人类贡献者的社会学家Antonio Casilli表示:“社会动态起作用。通常,那些具有更强文化资本或更大动机的人可能会影响小组的决定,可能会扭曲结果。”

2024年5月,Google推出了AI Overviews,该功能扫描网络并在顶部呈现AI生成的摘要响应。但几周后,当用户查询Google关于奶酪不粘在披萨上的问题时,AI Overview建议他们在面团上涂胶水。另一个建议用户吃石头。Google称这些问题为“边缘案例”,但这些事件仍引发了公众的嘲笑。Google匆忙手动删除了“奇怪”的AI响应。

一位在超级审核员团队工作近两年的GlobalLogic员工表示,他们并不感到惊讶,因为他们从这些模型中看到了很多可能不会公开的疯狂内容。他记得事件发生后立即关注“质量”,因为Google“对此非常不满”。

但这种对质量的追求并没有持续太久。

2024年秋季,经验丰富的作家Rebecca Jackson-Artis从北卡罗来纳州加入GlobalLogic。在不到一周的培训后,她被投入到工作中,不确定如何处理任务。作为Google Magi团队的一员,她最初被告知没有时间限制来完成分配给她的任务。但几天后,她收到了相反的指示。

她说:“起初他们告诉我:‘不要担心时间——质量比数量重要。’”但不久后,她因花费太多时间完成任务而被批评。两个月后,她被叫去与一位主管开会,被问及她的生产力,并被要求“只完成数字”,不要担心她“发布的内容”。此时,Jackson-Artis不仅事实核查和评分AI的输出,还向模型输入信息。主题广泛,从健康和金融到住房和儿童发展。

有一天,她的任务是输入膀胱癌化疗选项的详细信息,这让她感到困扰,因为她不是该领域的专家。她说:“我想象一个人坐在车里发现他们患有膀胱癌,然后谷歌搜索我正在编辑的内容。”

2024年12月,Google向其承包商发送了一份内部指南,称他们不再允许因缺乏领域专业知识而“跳过”提示,包括医疗保健主题,这是他们之前允许的。相反,他们被告知要对他们理解的部分提示进行评分,并标记他们不熟悉的领域。

另一位位于美国西海岸的超级审核员表示,他每天都会收到几个他不具备资格处理的问题。最近,他被分配了两个查询——一个关于天体物理学,另一个关于数学——他说他“没有知识”,但被告知要检查准确性。

今年早些时候,Sawyer注意到护栏进一步放松:去年不被允许的响应今年变得“完全可以接受”。4月,审核员从GlobalLogic收到了一份新指南文件,其中基本上说,只要内容不是由AI模型生成的,重复仇恨言论、骚扰、色情材料、暴力、血腥或谎言并不构成安全违规。

Dinika表示,他一次又一次地看到这种模式,只有在安全不影响市场主导地位的竞赛时,安全才会被优先考虑。人类工作者经常在发布半成品系统后清理混乱。他说:“速度胜过道德。AI安全的承诺在安全威胁利润的那一刻崩溃。”

尽管AI行业蓬勃发展,但AI审核员并不享有强大的工作保障。自2025年初以来,GlobalLogic进行了滚动裁员,AI超级审核员和普通审核员的总人数减少到约1500人。与此同时,员工对他们帮助构建和培训的产品失去了信任。大多数员工表示,他们避免使用LLM或使用扩展程序阻止AI摘要,因为他们现在知道它是如何构建的。许多人还出于同样的原因劝阻家人和朋友使用它。

Sawyer说:“我只想让人们知道,AI被宣传为这种技术魔法——这就是为什么AI响应旁边有一个小闪光符号。但事实并非如此。它是建立在过度劳累、低薪人类的背上的。”

评论总结

评论内容主要围绕以下几个方面展开:

  1. 标题的偏见与误导性

    • 评论2指出标题带有偏见,暗示谷歌虐待员工且其AI不够智能,但文章内容值得一读,因为它揭示了为AI模型提供人类反馈的劳动和成本。
    • 评论3认为标题具有误导性,并引用文章内容指出,GlobalLogic的员工薪酬高于非洲和南美的同行,部分员工对工作表示感激,但也有人指出工作带来了个人代价。
  2. 工作条件与薪酬

    • 评论3提到GlobalLogic的员工时薪为16至21美元,部分员工对工作表示感激,但也有人指出工作带来了个人代价。
    • 评论16分享了一位承包商的经验,指出工作薪酬尚可(45美元/小时),但工作不稳定且沟通不畅,工作难度也在增加。
  3. AI训练中的人类劳动

    • 评论9提出疑问,询问是否所有大型语言模型(LLMs)都依赖于暴露于极端内容的人类劳动,并指出缺乏透明度。
    • 评论19列举了一些与基础模型公司合作的数据标注初创公司,提供了RLHF(人类反馈强化学习)提供者的详细信息。
  4. 伦理与剥削问题

    • 评论15认为“AI”是另一种形式的剥削,利用穷人使富人更富,是一种数字殖民主义。
    • 评论18引用了一些令人担忧的案例,指出员工在追求质量与速度之间面临压力,且安全承诺在利润面前崩溃。
  5. 工作性质与行业现状

    • 评论7认为这份工作并不像Facebook审核员或呼叫中心工作那样糟糕,但确实很单调。
    • 评论17认为文章试图将简单的自由职业描述为剥削,但实际上很多人愿意从事这样的工作。
  6. 透明度与行业实践

    • 评论6质疑谷歌的声明,认为如果标注数据不被用于训练模型,那么这些数据将被浪费,暗示谷歌的说法可能是谎言。
    • 评论13探讨了人类训练在模型微调阶段的作用,以及人类反馈如何影响模型的“真实性”。

总结:评论中对谷歌AI训练中的人类劳动、工作条件、薪酬、伦理问题以及行业透明度展开了广泛讨论。部分评论认为标题具有偏见或误导性,但文章内容揭示了AI训练背后的劳动与成本。同时,评论中也存在对工作条件、薪酬以及伦理问题的担忧,尤其是关于人类劳动在AI训练中的作用和透明度问题。