500个题目,以高等教育对标人类水平,强调对行业和生活的实际价值,严格按照基础能力指数、智商指数、情商指数、工具效率指数四个评价维度设计权重...8月12日,新华社研究院中国企业发展研究中心发布《人工智能大模型体验报告2.0》(以下简称《报告》)。讯飞Spark以总分1013位列国内主流大机型测评第一,并获得四个测评维度智商指数和工具效率指数第一名。报告认为,讯飞星火“在提高工作效率方面优势明显”。

报告指出,拥有七大核心能力(即文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力和多模态能力)的讯飞Spark认知模型具有跨领域知识和语言理解能力,能够理解并执行基于自然对话的任务。从海量数据和大规模知识中不断进化,实现从提出、规划到解决问题的全流程闭环。
面对国内大型模型的“涌现”,讯飞星火认知模型从立项到发布再到迭代升级,每个节点都在紧锣密鼓地进行着:5月6日,讯飞星火认知模型发布,在教育、办公、汽车、人机交互、医疗等领域的应用落地;6月9日突破开放问答,迭代升级数学能力。即将到来的8月15日将实现代码能力的重大突破,多模态交互能力的升级;10月24日,ChatGPT进行了基准测试,达到了中文超越、英文对等的水平。
在智商评价方面,报告认为,人类在智商方面仍有明显优势。课题组从常识知识(20%)、逻辑能力(50%)和专业知识(30%)三个方面对大模型进行考量,结果显示讯飞Spark排名第一。
代码能力无疑是讯飞星火“高智商”的底层能力。8月15日,讯飞Spark的代码能力也将大幅升级,相关代码产品也将推出,值得期待。
在提高工作效率方面,报告认为AI为人类提供了强有力的支持,AI的处理速度远超人类。然而,尽管具有高速高效的优势,但人类的智能和想象力在一些复杂的创新任务中仍然发挥着不可替代的作用。该研究小组专注于提高工具效率(50%)和产生创新(50%)。结果显示,讯飞星火以350分排名第一,遥遥领先。
报告称,与2023年6月相比,中国大型号产品取得了显著进步。但与接受过高等教育的人类相比,大模的智商和情商还是有一定差距的。虽然AI和人类在不同领域表现出不同的优势和劣势,但总体来看,AI大模型的发展为提高人类工作和生活的质量和效率带来了重要的积极影响,大模型正在加速走进生活和行业。
微信扫码
QQ扫码
您的IP:10.1.228.218,2025-12-20 20:48:14,Processed in 0.06538 second(s).