王海峰在WAVE峰会深度学习开发者大会上。
■本报记者赵广利
“过去,以大语言模型为代表的人工智能技术取得了令人震惊的成果,而这些已经让我们看到了通用人工智能的曙光。”
近日,在深度学习技术与应用国家工程研究中心主办的WAVE SUMMIT深度学习开发者大会上,百度首席技术官、深度学习技术与应用国家工程研究中心主任王海峰首次表达了对通用人工智能的理解。他还表示,希望和所有开发者一起建立一个开放开放的社区,一起走向通用人工智能的星空。
体现人工智能核心竞争力的四个关键词
在与人工智能相关的词汇中,王海峰选择了四个词——理解、生成、逻辑和记忆。在他看来,这四个字所代表的意义,既是人工智能的核心能力,也是一般人工智能系统应该具备的最基本能力。
“比如一个大语言模型要创作一篇文章,需要‘理解’创作的主题,理清创作的逻辑,在‘记忆’中寻找素材,整合对素材的理解,最终‘生成’一篇合格的稿件。”例如,王海峰说编程、解决问题和计划是一样的。“如果一个人工智能系统具有很强的理解、生成、逻辑和记忆能力,它可以完成许多不同的任务。”。
显然,这四个关键词所代表的意义,也是贯穿人类思维过程的能力。王海峰认为,如今,大语言模型已经初步具备了这些能力,随着这些能力越来越强,“我们将更快地走向通用人工智能”。
大模型的代码能力可能会让人们更真实地看到它在通用人工智能道路上的进步。
王海峰说,语言不仅是人类交流的工具,也是思维的载体。但是,计算机编程语言不同于自然语言,它具有丰富的含义。它们有严格的语法和书写格式,每一行代码只能被唯一地解释和执行。所以人类程序员写代码的过程,其实就是把人的思维表达成编程语言,然后执行和交互的过程。
当大语言模型能够又快又好地“编写”代码时,事情就开始变得困难了。
“我上学的时候,曾经有一个外语老师跟我说,如果你能用外语思考,就说明你已经学会了这门外语。”因此,王海峰说,当大语言模型能够“写”出代码时,也意味着它能够用代码写出人类自然语言所表达的需求。
王海峰表达了自己的看法:“这不仅有助于软件开发,也弥合了机器的‘思考’和‘执行’之间的鸿沟——这对通用人工智能的发展具有重要意义。”
“知识就是力量”同样适用于AI。
当人们看到一些大的语言模型产品“时而神时而鬼”的玩法,就可以知道人工智能并没有培养出这些“理解、生成、逻辑、记忆”的能力。
人工智能如何不断获取和增强这些领域的能力?王海峰的答案是“知识增强型语言模型”。
今年3月,百度发布了知识增强语言模型“文易欣言”。这五个月来,文心说一句话的能力有了很大的进步。今年6月,在公开测试集上对基础模型的小样本评测显示,最新版本的文心大模型3.5在多个测试集上的得分都超过了ChatGPT。
文心的进步超出预期。这背后有很多值得一提的元素,比如庞大的优质数据、各种策略的优化、基础模型的“长文本建模”、多任务适配的监督微调、多层次多粒度奖励模型的强化学习、文心和飞桨的联合优化...但在王海峰看来,重要的是文心不仅要从海量数据中学习,还要从庞大的知识图谱中汲取养分。
顾名思义,作为“知识强化”的大语言模型,文心的一个字离不开对“知识”的学习和强化。“知识就是力量”这句话也适用于人工智能。
王海峰说,百度有一个超过5500亿条知识的知识地图,花了10多年时间来构建。
如何在文心大模的训练过程中利用好这个知识图谱?王海峰回答说,有两种方式——知识内化和知识外化。知识内化,即在训练过程中,通过基于语义单元的学习,用知识图谱构建训练数据,将这些知识内化到大语言模型中;知识的外部使用是指在知识推理、提示构建等环节直接使用知识图谱。
经过庞大的知识图谱和海量数据的“洗礼”,大模型在推理部署阶段只需少量的微调和少量的场景适配,就可以连接成千上万个行业,这将帮助其大大降低应用门槛。
“文心加飞桨,飞向银河。”
在深度学习开发者的盛会WAVE SUMMIT上,王海峰的通用人工智能愿景也是从数万名开发者中寻求的一种共鸣。
王海峰表示,在百度开发的paddle行业深度学习开源开放平台上,已经聚集了800万开发者,22万家企业使用paddle平台搭建了80万个模型。
早期开发者青睐TensorFlow、Pytorch等国际知名深度学习框架。但随着国内平台的逐步完善,开发工具包、工具组件、基础模型库也逐渐完备,尤其是过去几年,基于飞桨,百度下大力气打造文新的庞大模型家族,越来越多的开发者转向拥抱飞桨。2019年,propeller平台上的开发者只有190万,而在4年的时间里,这个数字已经连续翻倍。
“800万开发者,22万家企业,80万车型,这些数字不仅见证了成长,也为未来打下了坚实的基础。”王海峰表示,百度希望继续与所有开发者和商业伙伴一起建设和创造,共同推动人工智能赋能万千行业,惠及千家万户。
“飞桨”一词取自宋代文学家朱的《双翼飞桨》,寓意在“飞桨”的帮助下,中国的人工智能事业走得更快更远。
推进器开发者聚集的人工智能学习培训社区,最初命名为AI Studio,现在百度给它起了一个中文名字“星河社区”。百万开发者在星河社区学习实践,提升人工智能能力,努力使其落地。
在WAVE SUMMIT深度学习开发者大会上,王海峰把“听说了飞桨,我去了广津”这句诗改成了“文心加飞桨,去了银河”,并表示:“希望我们能和所有开发者一起,在飞桨和文心的加持下,共建银河社区,去通用人工智能的星空。”