最近人工智能大模式异军突起,很多科技公司加速拓宽应用生态。主流大机型的实际使用感受如何?各大科技公司的优缺点是什么?8月12日,新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告2.0》(以下简称报告)显示,讯飞星火、百度文心伊彦、商汤咨询、智普AI-ChatGLM均表现出色,AI大模型的发展对提升人类工作和生活的质量和效率产生了积极影响。
今年以来,国内科技公司纷纷布局人工智能大模型。据不完全统计,在新一轮的生成式AI热潮中,国内已经出现了上百个大型模型。天眼查数据显示,截至2023年上半年,与“大模式”直接相关的融资事件超过20起。
为了进一步直观感受中国主流科技企业推出的大型模型产品的现状、优势和特点,新华社研究院中国企业发展研究中心于今年7月推出了这份报告。与2023年6月首次发布的《人工智能大模型体验报告》相比,本次测评在题目设计、基准(人)、评分权重、专家测评团队四个维度进行了全面升级。
其中,在题目设计方面,评价题目数量由300个扩大到500个,题目分类进一步完善;在Benchmark中,这个测评会对比接受过高等教育的人类来评价大模型的真实能力;在评分标准上,根据对行业和生活的实际价值,本次评价设计了基础能力、智商能力、情商能力、工具效率提升四个评价维度的权重。至于评估小组,邀请了北京大学文化与传播学院等来自产业界和学术界的专家参与本次评估。
本研究设置了用户体验项目,抓取了7月31日至8月4日的数据。通过人机互动提问等形式,对国内主流大机型的使用体验进行了测评,旨在为科技型企业调整努力方向提供参考。
报告显示,与2023年6月相比,中国大型号产品取得了显著进步。但与接受过高等教育的人类相比,大模的智商和情商还是有一定差距的。具体来说,讯飞星火在提高工作效率方面优势明显。百度文心说一个字的基础能力还处于领先水平,商汤咨询情商表现优异,智普AI-ChatGLM整体表现优异。
对于每个维度的评价,报告也给出了相应的案例和分析。
在基础能力上,人类和AI的差距并不显著。课题组分别对语言能力(35%)、面向AI(10%)、跨模态(20%)和多轮对话(35%)进行了评估。测评显示,在科创企业大模式中,百度文心表现最为抢眼,商汤咨询、智普AI-ChatGLM、360智脑表现较好。
在智商测评中,人类在智商上还是有明显优势的。课题组从常识知识(20%)、逻辑能力(50%)和专业知识(30%)三个方面考虑了科技企业的大模型。结果显示,讯飞Spark和智普AI-ChatGLM表现较好,百度文心伊彦和昆仑万伟天宫表现较好。
在情商方面,AI和人类的差距是最明显的。人类在情感理解和处理上通常具有更强的优势和更灵活的处理能力。通过对日常事务处理(35%)、双关意向(30%)、人际关系(35%)等问题的分析发现,在科技企业的大模式中,商汤在咨询方面表现亮眼,而百度文信伊彦、蓝洲科技Mchat、智普AI-ChatGLM、360智脑等都表现不俗。
在提高工作效率方面,研究组侧重于提高工具效率(50%)和产生创新(50%)。结果显示,讯飞Spark最抢眼,百度文心说一句话,商汤讨论一下,智普AI-ChatGLM表现不错。然而,尽管具有高速高效的优势,但人类的智能和想象力在一些复杂的创新任务中仍然发挥着不可替代的作用。
报告认为,虽然AI和人类在不同领域表现出不同的优势和劣势,但整体而言,AI大模型的发展为提高人类工作和生活的质量和效率带来了重要的积极影响,大模型正在加速走进生活和行业。在本次经验评估的基础上,研究团队将继续深化和加强在大型模型安全可解释性、工作效率提升能力、实际落地情况、优秀工业案例等维度的探索和研究。
扫描二维码查看人工智能大模型体验报告2.0全文。
微信扫码
QQ扫码
您的IP:10.1.228.218,2025-12-22 15:08:12,Processed in 0.27349 second(s).