南方财经全媒体记者吴立阳上海报道。
网络爬虫长期存在于互联网行业的灰色地带。爬虫软件作为一种网络信息收集工具,在帮助用户便捷、广泛获取web数据的同时,也因涉嫌侵犯平台的数据资产和用户的个人隐私而受到质疑。
近日,OpenAI发布的全新网络爬虫工具GPTBot将这一数据获取渠道再次推上风口浪尖。根据其发布的信息,GPTBot将用于捕获web数据来训练GPT-4或GPT-5,并提高其能力和准确性。
OpenAI的举动再次引发了人们对人工智能训练“数据荒”的猜测。此前,许多行业人士和学术机构警告称,高质量的人工智能训练文本将在几年内耗尽——如果需求迫切,已经处于聚光灯下的OpenAI似乎没有必要披露这一有争议的数据工具。
业界也高度关注OpenAI的进一步动作。如果此举没有引起平台和监管的激烈反弹,是否意味着其他AI公司也可以应用爬虫获取训练数据?Reddit已经率先宣布第三方API接口收费后,AI行业和内容平台会走向更广泛的对立还是合作?
“数据荒”会到来吗?
作为人工智能发展的三大基础要素(算法、算力和数据)之一,训练数据的重要性随着AI产业的快速发展而进一步凸显,高质量、大规模、丰富度的训练数据正在被快速消耗。
2022年10月,Epoch AI研究团队发表的论文指出,目前语言数据集的数量正以50%的速度增长,而原始数据的增长率为7%。如果数据使用效率不能大幅提升或出现新的数据源,用于语言模型训练的数据可能在2030年至2050年间耗尽,高质量的语言数据预计在2023年至2027年间耗尽。
目前,开发和丰富数据库的努力没有取得重大进展。此前业界曾希望用一个大模特作为另一个大模特的生日训练的数据。但伊利亚·舒迈洛夫(Ilia Shumailov)等学者的研究发现,在训练中使用模型生成的内容,会导致新训练的模型出现不可逆的缺陷,即“递归诅咒”,而人类生成的文本内容,尤其是人类与人工智能的交互数据,在大模型的训练中仍然是必须的。
“书籍和期刊论文是人类的官方出版物,其数据信息已经得到了很好的控制,但这部分数据基本上已经被大模型消费掉了,所以从网页等公开渠道获取数据就成为了主要的数据来源。”港科大(广州)副校长熊辉教授在接受南方财经全媒体记者采访时指出,相比谷歌、微软等拥有自有网络平台和长期数据积累的互联网巨头,随着图书等公共文本数据存量触底,各互联网平台对抓取自有平台数据或深度数据设置了壁垒 而以AI研发为主的OpenAI等训练数据可能会比上述Epoch AI研究预测更早耗尽。
“以目前大型模型企业的数据训练和数据消化能力来看,在穷尽了所能获得的人工生成数据后,这些企业到2025年可能会面临无人工生成数据可用的问题。”熊辉说。
而这也可能是OpenAI急于将网络爬虫公之于众的原因。根据其官方论文,在GPT-3.0培训早在21GB的书籍和101GB的期刊中使用的753GB数据中,11.4GB的维基百科数据、50GB的Reddit(海外社交平台)连接数据和570GB的Common Crawl(免费网络数据库,主要来自网络爬虫)都与网页有关,而书籍和期刊的数据存量和增长有限。
但是,web数据的问题也非常明显。作为一个相对开放的数据源,虽然在可用性和数量上比较理想,但是网页本身的内容质量良莠不齐,而且随着人工智能在C端的大规模应用,AI产生的越来越多的文字、图片、视频更容易导致“递归诅咒”。
熊辉指出,大型模型使用AI生成的数据时可能出现的崩溃或偏见,本质上来自其训练中的自我增强循环,即模型训练中出现样本偏差或训练分布偏差,陷入错误或有限的思维定势,产生局部信息茧现象。在人工智能训练数据的来源上,数据隐私和数据层面缺陷导致的偏见和伦理问题也是目前行业面临的主要问题。
他进一步表示,为了避免数据问题导致的模型崩溃或偏差,引入多个训练数据通常是最常见的做法。即使是同一类型的数据,不同的数据源也会在一定程度上避免数据使用陷入自我强化的循环,同时通过对抗生成等技术辅助判断数据质量。
爬行动物争议
然而,作为一种大规模的网络信息抓取工具,爬虫在互联网行业的使用往往伴随着巨大的争议。网站所有者认为它抢了自己的平台价值,而在网站上发布内容的用户则面临着侵犯著作权和个人隐私权的风险。
美国最著名的爬虫软件案例之一发生在微软旗下的职业社交平台LinkedIn和数据分散公司HiQ之间。后者抓取前者的数据并进行处理,然后将分析结果卖给相关公司获利。双方就第三方是否有权抓取网站信息展开了长达5年的诉讼。最终,该案以法院判决HiQ违反LinkedIn用户协议,赔偿50万美元并禁止其未经同意自动访问复制的数据而告终。
今年4月,作为OpenAI ChatGPT、Google Bard等公司大语言模型的重要数据源,美国社交媒体平台Reddit宣布,将向接入其应用编程接口的公司收费,不再免费为科技巨头提供免费数据内容。随后,Twitter(现X)CEO马斯克也公开指责微软非法使用Twitter数据训练AI模型,并声称将为此起诉微软。
为了应对可能出现的合规纠纷,OpenAI还为网站所有者提供了在发布GPTBot时屏蔽爬虫的方法——只需在网站的robots.txt(爬虫协议)中添加相应的代码,就可以禁止或允许GPTBot访问和抓取部分网站内容。
但这种把皮球踢给网站所有者的做法,并不能完全规避合规风险。一个最突出的问题是,网站只是网络信息的展示平台,网站所有者并不天然拥有其他网民在网站上发布的信息内容的所有权。即使爬虫取得了网站所有者的同意,其爬行行为仍可能侵犯内容发布者的著作权。
王芯蕊表示,相关信息的安全级别将取决于OpenAI是否会对相关信息采取有效的安全技术保障措施,如加密等,但这并不能完全排除过滤后的数据抓取仍可能获取某些个人身份信息的可能性。
近年来,各国都在不断加强和细化人工智能训练数据的合规性要求。例如,我国最新发布的《生成式人工智能服务管理暂行办法》也明确提出,“生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动,包括使用具有合法来源的数据和基础模型;涉及知识产权的,不得侵犯他人依法享有的知识产权。
除了版权问题,个人隐私也是网络爬虫在获取数据时无法回避的敏感问题。尽管OpenAI承诺,GPTBot抓取的网页将被过滤,以“删除已知包含个人信息的来源”,试图控制从网站类型和来源收集个人身份信息,但该技术的有效性仍有待于在具体实践中检验。
王芯蕊表示,相关信息的安全级别将取决于OpenAI是否会对相关信息采取有效的安全措施,如加密,但这不能完全排除爬虫在过滤后仍可能获取某些个人身份信息的可能性。
处理数据困境
如前所述,作为近年来AI热潮中崛起的新兴公司,数据积累将成为OpenAI在未来产业竞争中的重要短板,而在进一步获取数据的过程中,来源和流程的合规性以及更严格的监管也将成为其不得不面对的困境。
在此背景下,效仿其他互联网平台的合规措施,在法规和行业框架的模糊地带尽可能扩大数据来源,成为包括OpenAI在内的大多数人工智能开发者的选择。
比如为网站所有者提供爬虫屏蔽的措施,也是继承了其他互联网公司的现有做法。在谷歌官网中,还公开说明了谷歌使用的一系列爬虫程序和用户代理字符串,明确网站所有者可以通过在网站robots.txt中添加Google Bot、Google Bot Image、Google Bot News等爬虫程序来禁止其访问网站。
然而,正如OpenAI已经陷入艺术家和作家就版权问题发起的诉讼一样,同样的做法在美国或其他国家也面临着不容忽视的合规问题。
王芯蕊说,相对而言,中国的法律法规对数据抓取显然采取了更严格的监管路径。在中国,数据抓取受到许多法律法规的监管。一旦超过合法收集利用的限度,数据抓取就会存在侵犯个人信息权、侵犯知识产权、不正当竞争、危害计算机信息系统等违法甚至刑事风险,并承担相应的民事、行政甚至刑事责任。
随着数据资源枯竭的危机一步步逼近,新兴的人工智能产业在加大马力的同时,应该如何应对模型“养分”供给不足的现实问题?
熊辉指出,在产业发展的初期,各大公司一定会穷尽一切可能的方法获取所有能接触到的数据,早期的数据获取方式在市场驱动下必然是粗糙的;随着数据资源的逐渐枯竭,企业数据利用的下一步将是管理驱动的更加精细化的数据质量控制,比如更加细致的数据标注和清洗;之后要想进一步挖掘数据的价值,就要靠进一步的创新,包括数据来源和数据利用方式的创新,比如拆解流程,划分步骤,丰富数据内容的维度。
“举个例子,对于高一没有接触过复杂的乘除法和计算的孩子来说,51÷3的数学问题比较复杂,但是把它拆成(30+21÷3)后,就可以分成30÷3和21÷3乘法表可以解决的两个简单问题。与AI生成的数据不同,这是基于人类生成的数据。熊辉表示,人工或人工智能辅助下的数据资源的进一步开发和挖掘将是缓解数据枯竭问题的主要途径。
最近,继日本画家、好莱坞从业者等团体之后,多家海外媒体机构也加入呼吁保护生成式人工智能训练数据的版权。在一封由法新社、欧洲新闻图片社等媒体签署的公开信中,敦促全球立法者考虑制定法律法规,以增强人工智能训练数据来源的透明度,并在获取数据前征得权利人的同意。
随着AI产业的进一步发展,以及各行业、各群体对数据价值和权利意识的觉醒,如何构建数据生产者、持有者和数据使用者之间的权利义务关系,成为每个互联网参与者从监管开始需要面对的现实问题。
(作者:吴立阳实习生蒋编辑:郭)
南方财经全媒体集团及其客户发布内容的知识产权归其媒体所有。未经书面授权,任何人不得以任何方式使用。请点击此处获取详细信息或授权信息。
微信扫码
QQ扫码
您的IP:10.1.228.218,2025-12-23 06:41:03,Processed in 0.2455 second(s).