收藏本站更换配色

品牌,推广,网站

收藏文章楼主

高校测控（高校测试中心招聘）

版块：科技头条类型：普通作者：科技资讯查看：34 回复：0 获赞：0 时间：2023-08-10 17:28:11

8月9日，Arxiv页面显示，来自清华大学、俄亥俄州立大学和加州大学伯克利分校的研究人员团队最近发布了一款测试工具AgentBench，可用于测试大型语言模型的能力。

AgentBench目前包含8个不同的任务，可以测试多轮开放生成环境下大语言模型的推理和决策能力。实验结果显示，目前GPT-4最好，Claude和GPT3.5分别排名第二和第三。

AgentBench的数据集、环境和集成评估软件包已在https://github.com/THUDM/AgentBench.发布

回复列表

默认热门正序倒序

首 1 尾

or

暂无用户组

退出

等级：0级

金币：

游客：

后台控制面板

微信扫码

微信扫码

QQ扫码

QQ扫码

推荐文章

Powered by 7.12.10

©2015 - 2025 90Link

90link品牌推广网站地图

您的IP:10.1.228.218,2025-12-20 00:17:09,Processed in 0.27712 second(s).

豫ICP备2023005541号

用户名：

粉丝数：

签名：

资料关注好友消息

两高环境污染司法最新案例分析（两高环境污染事件）

2020年新米价格（今年新米价格是多少）

免责声明

1、本网站所刊载的文章，不代表本网站赞同其观点和对其真实性负责，仅供参考和借鉴。
2、文章中的图片和文字版权归原作者所有，如有侵权请及时联系我们，我们将尽快处理。
3、文章中提到的任何产品或服务，本网站不对其性能、质量、适用性、可靠性、安全性、法律合规性等方面做出任何保证或承诺，仅供读者参考，使用者自行承担风险。
4、本网站不承担任何因使用本站提供的信息、服务或产品而产生的直接、间接、附带或衍生的损失或责任，使用者应自行承担一切风险。

侵权删除请致信 E-Mail：3454251265@qq.com