来源:36Kr。

人类会一直需要这样勤奋的对齐吗?

文|油醋
来源|品玩(ID: pinwancool)
封面来源| icphoto
“有多少智力,就有多少人”。
玩笑的话藏在人工智能的背面,至今依然成立。刚从大学出来的丁洋,临时踩了这句话的后半句。
毕业后,系里大部分同学都去了一家造纸厂,三班倒。他不想去工厂。今年6月毕业后,丁洋回到海口,并于8月初举行了电子培训题库。两天后,他成了文新的“新手”数据注释员。
海口秀英区文新招商局大楼的资料注释者习惯称之为“基地”。这个基地有200多人进出,位于这栋办公楼的三层。进办公室前要签保密协议,进门要刷脸。每人一台电脑,很多电脑都是老板从山西租来运去的,因为在本地租这些设备的熟人不多。
“你不用花500元买这台电脑。我曾经带着主机在闲鱼上搜过——值60块钱。500块钱我可以包一个好得多的。”
丁洋高考报考的计算机后来转到了轻化工程,但那不是他感兴趣的。而是在大学里看到了很多关于计算机和软件工程的东西,让他很快听说了去年年底ChatGPT的出现。
去年12月,他注册了一个ChatGPT账户,然后“他的能力超出了我的预期”,他说。

来源:品玩我在基地的驻地遇到丁洋的时候,他面前电脑屏幕上的问题是:“成功人士的标准是什么?”
这可能是某个用户说了一句话的真题,也可能是凭空产生的测试题,只是放在屏幕前需要标注。
贴标签并不容易。
这样的问题会有五种不同的答案。数据标注者要看完,然后找出每个答案的所有破绽。
比如答案中错别字或者误用了“因为”“所以”等逻辑词,但更多的答案是不着边际的,或者一段话中存在所谓的“假象”,完全没有事实依据。
他会根据答案的质量给这五个答案打分,满分5分,一共五个等级,最低1分。对于3分以下的答案,丁洋需要将每个错误分为标注系统给出的不同错误类型。
这个复杂的纠错过程就是训练并生成一个合适的RM(奖励模型RM(也叫偏好模型),评分和排名的动作会进一步让模型与人的偏好对齐。
这也是ChatGPT成功的关键。OpenAI的论文已经描述了在指令调整过程中,将人工智能与人类想法对齐的过程。
在数据标注者的工作之前,需要一些更专业的人把发散的语料变成具体的问答对,然后像一个例子一样馈给大模型。大量问答对的数据经过训练和优化后,后者开始自己回答问题。
在这个阶段,数据标注者从安全性、准确性和相关性等角度对大模型生成的答案质量进行评估,这些评估数据进一步训练出一个奖励模型。最终,这种奖励模式将取代人工阅卷工作。
OpenAI估值超过300亿美元的背后,是大量时薪低于2美元的肯尼亚数据标签劳工,否则也不会在去年12月到达丁洋。
杨丹不知道RM和SFT的定义。他说,在他入门之前,培训里没有这些理论内容。这里有些人甚至不知道为他工作的文新是什么人。不过没关系。重要的是把事情做好。
这份朝九晚六的工作,六休一休,底薪1800元。一个月后,如果你平均每天能批改足够多的题,就能拿到底薪。底薪是根据完成率计算的,提成也要把正确率考虑进去。来一段时间的“老手”稳定的工作量是一天7、80个,遇到的问题也比较棘手。平均一个月能拿4000。再努力一点,比如每天批改100道左右的题,一个月就能拿到7000块。
对于丁洋这样的应届毕业生来说,4000元并不是一个低起点。海口人平均月薪只有3000出头,甚至10个人中有6个人一个月拿不到3000。当地著名的后安粉要卖11块钱,ChatGPT的注释者一个小时就能买一碗。相比之下,粉贵。据他说,海口人挣的钱不多,但愿意开始吃饭。
“股票最难,还是汽车,”丁洋说。一起遇到这个问题可能要20分钟。
“比如有人会问买宝马3系还是奔驰c系。”这时候大模型会把关于这两款车的80多个参数全部列出来给用户对比,他要一个一个检查每个参数的真实性。
工作了半个月,他也批改了上百道题,但他说印象中3分就不错了,4分的很少。
他想起了一道得了4分的题。问题是“林黛玉为什么打白顾靖?”
文心没说一句话就爬下了电线杆。反应到白的不是林黛玉,然后又介绍了林黛玉和白的背景。从答案质量的各个维度来看,这几乎无可挑剔。
我把这个问题提给克劳德2,克劳德2说:“白顾靖成了王熙凤,多次羞辱林黛玉。林黛玉气白害人。”-幻觉真的很麻烦。

来源:品玩2020年初,“人工智能培训师”正式成为一个职业,被列入国家职业分类目录。两年后,大型号的浪潮突然在这个目录上打开了一个更大的洞。
看着人工智能抢走人类的旧工作,然后又希望它创造新的。就像马车被汽车取代一样,新的行业会给马车司机一个通过劳动致富的新世界的总比喻。很多带着钱找标的的投资人买,也有人不买。比如曾经奠定深度学习基础的英国人杰弗里·辛顿(Jeffrey Hinton),现在就很担心。
但目前,最直接的创造是像丁洋这样的大模型数据注释者。
在2022年之前,人工智能的前沿还无法控制自己的自动驾驶所定义的时期,对于数据注释者有一个冷冰冰的比喻:
“如果把AI看成一种动物,数据标注员的工作大致相当于准备饲料。”
这份工作既廉价又重复——甚至不够养活自己。
一个传统的数据注释者的日常工作只是仔细观察每一张接收到的图像,圈出一辆车或者一只狗的轮廓,贴上标签,拖到不同的文件夹里;或者用点阵工具在一段行车视频的每一帧中标出障碍物,留下完整的“行车区域”。
一个数据注释者可能一天要做2000次。
人工智能只能学习有标签的数据。一家自动驾驶数据供应商曾表示,数据标注的自动化程度仍然只有5%,95%的标注工作仍然由人工完成。
大模特来了之后,工作本身也开始改变。大型模型数据注释器的主要工作不再是简单地在屏幕上画方框、点或线,而是对生成的内容进行评估、排序和评分。如果涉及多轮对话或多模态内容生成,难度急剧增加。
如果说CV和NLP时代的传统模型标注更倾向于按客观规律办事,那么大型模型的标注规律就主观得多,这也考验着标注者的素质。正因为如此,百度在海口和山西的大型模型标注团队都是本科以上学历。
海口基地的普通标注员有机会晋升为质检员,然后可以是培训师,主管,最后是项目经理。这是几个月建立起来的一段话。海口一家用数据标注文心话的中介说,试用期过后,里面有职位就可以升职,没有时间线。
这是一个正在迅速形成的新兴产业。“每个环节都有新人,”丁洋说。
第一次审核后,质检员会将题库移交给第二次审核。第二次审核是在百度内部进行的,这些训练数据不在丁洋的标注团队手中。
文新伊彦公司的丁洋和整个基地的200多人都不是百度的员工。
海口基地的阅卷人员分属四个不同的代理商。他们的劳动合同都是和这些第三方数据标注公司签订的。这是这个职位的做法。百度从搜索到自动驾驶再到大模型的漫长人工智能历程,背后是全国600多家代理商和300多个城市的20万数据标注员。
百度预设其大模特专职团队规模接近万人,未来将在全国十余个城市作为新“基地”实现这一计划。
百度AI云数据标注基地业务产品负责人胡痴认为,大模型数据标注员将是一个长期的职业。随着各种场景下大规模模型能力的深入,新的问题会出现,这意味着新的标注需求会出现,人类永远需要这样一种勤奋的对齐方法。
丁洋说他将离开这里。
和他同时进来的有20多个数据注释新手,很快他们中的大部分都离开了——大部分是主动离开的。不难想象,这将是一个流动性很强的岗位,因为工作内容枯燥,计件赚钱的方式,人的消耗。而且不管人们怎么叫好,人被机器取代的不安全感是存在的,这是大家都喜欢的。
丁洋认为这是一个和这个行业一起成长的机会。“尝试做一个主管”,他说,然后找一个更接近这波人工智能的职位。
(文中丁洋为化名)
来“分享,喜欢,观看”
以月薪4000元标注文心的话。
微信扫码
QQ扫码
您的IP:10.1.228.218,2026-01-02 23:57:27,Processed in 0.26286 second(s).