大模型测评指标，大模型在测试领域的应用

版块：科技头条类型：普通作者：科技资讯查看：51 回复：0 获赞：0 时间：2023-08-29 04:38:49

大型模型信息:

WizardCoder 34B在HumanEval基准测试中击败了GPT-4。

WizardLM最近宣布，其代码生成模型WizardCoder 34B最近在HumanEval的基准测试中击败了GPT-4。

WizardCoder 34B是基于Code Llama改进的代码模型。WizardCoder 34B在基准测试中取得了73.2%的通过率，而GPT-4在今年3月取得了67%的成绩。编程模型WizardCoder于6月由微软和香港浸会大学推出，不久将推出微调版13B/7B。

此外，WizardCoder 34B的性能优于GPT-3.5和克劳德2的最新迭代。

OpenAI官方宣布与规模合作支持企业微调模式

OpenAI今天宣布将与Scale合作，帮助更多公司从模型微调中受益。

OpenAI在官方声明中表示，鉴于Scale在帮助企业安全有效地使用人工智能数据方面的丰富经验，OpenAI将其作为首选合作伙伴，以扩大OpenAI模型微调功能的优势。Scale的客户现在可以像通过OpenAI一样微调OpenAI模型，还可以受益于Scale的企业人工智能专业知识和数据引擎。

OpenAI表示，他们最近为GPT-3.5 Turbo推出了微调功能，今年秋天还将为GPT-4带来微调功能。

全国首个大规模模型数据标注基地落地海口

据百度官方消息，位于海口市秀英区的百度AI云(海口)人工智能基础数据产业基地已正式投入运营，这是百度AI云与海口市政府合作建设的全国首个大型模型数据标注中心。

百度AI云表示，目前已与全国各地政府合作，建设了10多个数据标注基地，已为当地提供超过11000个稳定就业岗位，间接促进就业5万个。

浪潮信息发布大模型智能计算软件栈OGAI

据浪潮服务器官方消息，浪潮信息近日正式发布大模型智能计算软件stack OGAI。

OGAI为大型模型业务提供AI计算系统环境部署、计算能力调度保障和模型开发管理能力。OGAI是浪潮信息基于大模型的实践和服务客户的专业经验开发的，旨在为R&D创造高效的生产力和大模型的应用创新，加快生成式AI产业的创新步伐。

OGAI是浪潮信息从当前大规模模型算力建设、模型开发、应用落地的实际需求出发，秉承全栈全流程、算力充分释放、实战验证提炼的设计原则而打造的。

代码生成模型代码Llama-34B在HumanEval测试中击败了GPT-4。

根据phind官方信息，研究团队在Phind内部数据集上对CodeLlama-34B和CodeLlama-34B-Python进行微调后，发现这两款机型在微调后的HumanEval测试中的通过率已经超过了今年3月的GPT-4。

Code Llama是Meta发布的大型代码生成模型，有7B、13B、34B三种大小，包含基本模型、Python特别版等多个模型。HumanEval测试显示，未经微调的CodeLlama-34B和CodeLlama-34B-Python的通过率分别为48.8%和53.7%。

经过测试发现，CodeLlama-34B和CodeLlama-34B-Python经过训练后的通过率分别达到67.6%和69.5%。GPT-4今年3月的得分为67%。

已推出民航大模型，现已面向Plus会员开放公测。

据航旅纵横官方消息，近日，航旅纵横正式发布了民航领域的垂直大机型和千年大机型。

根据航程的纵向和横向表示，千年模型是图形计算的多主体，它结合了视觉模型、语言模型、多模态模型和计算模型。千禧通支持多模态交互、实时信息获取、准确理解民航知识、复杂推理能力、高精度计算优化等功能，可为消费者服务和行业服务领域的不同场景提供解决方案。

1.0AI旅行助手已在航信App中推出，但目前仅面向航信Plus会员。

软银计划下个月安排一个印度团队去硅谷学习AI技术。

据Tech In Asia报道，软银集团(Softbank Group)计划于下月带领一个由印度初创企业创始人组成的团队，参观硅谷采用人工智能技术的餐厅。

据软银愿景基金(Vision Fund)高管Sumer Juneja介绍，愿景基金正在帮助被投资企业采用人工智能技术，并一直在为其支持的创始人安排与该领域领先企业面对面交流的机会。据悉，本次访问学习团共有20人，但具体名单尚未透露。

关键论文:

清华大学携手多所高校推出FlexKBQA框架。

据Arxiv页面报道，来自清华大学、俄亥俄州立大学、中国科学院大学和山东大学的研究人员最近发表论文，并推出了一个框架FlexKBQA，可用于解决知识库中的问题和答案。

该论文表明，FlexKBQA可以通过使用大型语言模型作为程序翻译器来解决小样本知识库的问答任务中的固有挑战。FlexKBQA利用自动算法从知识库中提取各种程序，然后通过大型语言模型转化为自然语言问题。这个合成数据集有助于训练一个专门的轻量级知识库问答模型。

研究表明，FlexKBQA在少量注释的情况下取得了令人印象深刻的结果，与全监督模型相比，其性能达到了93%。

论文地址:点击此处前往。

回复列表

默认热门正序倒序

暂无用户组

退出

等级：0级

金币：

游客：

微信扫码

QQ扫码