收藏文章 楼主

插件列表获取失败是什么原因,插件类调用失败

版块:科技头条   类型:普通   作者:科技资讯   查看:36   回复:0   获赞:0   时间:2023-08-13 03:54:29

GPT-4调用的第三方插件效果如何?一些研究人员在Wolfram Alpha和代码解释器上进行了测试。今年早些时候,OpenAI使ChatGPT能够集成第三方插件,打破了ChatGPT无法连接互联网的封印。

很多人赞叹,ChatGPT的出现可以算是“iPhone时刻”,第三方插件的整合是“iOS应用商店”时刻。

据不完全统计,在公告发布后的几天内,ChatGPT就推出了70多个插件。几个月后,ChatGPT的这些插件是如何工作的?这篇论文来自纽约大学的欧内斯特·戴维斯和奥斯汀德克萨斯大学的斯科特·阿伦森。他们对ChatGPT背后的大模型GPT-4调用的插件进行了彻底的测试。

地址:https://arxiv.org/pdf/2308.05713.pdf.

具体来说,报告描述了大规模语言模型GPT-4在2023年6月至8月期间,使用Wolfram Alpha(以下简称GPT4+WA)和Code Interpreter(以下简称GPT4+CI)对高中和大学水平的105个科学和数学问题进行了测试。

他们得出了以下结论:

在测试的各种问题中,有任何外挂的GPT-4明显强于GPT-4本身。此外,该研究还得出结论,几乎可以肯定,GPT-4比一年前存在的AI更强。但是,它的可靠性远远不够;它经常输出错误的答案或者不能输出任何答案。

从总分来看,本文认为这些系统的性能相当于二级本科生的水平。这些系统解决了一些即使是有能力的学生也会觉得有挑战性的问题,但是它们不能解决一些即使是中学生也会觉得容易的问题。

此外,研究还发现,GPT-4和插件,尤其是Wolfram Alpha之间还有很大的改进空间。GPT-4经常以Wolfram Alpha不可接受或产生有用输出的方式表达问题。

例如,在问题B.35(见论文附录)中,GPT-4调用Wolfram Alpha 40次,试图获取某个事件的日期,但都失败了,然后放弃了。然而,没有插件的GPT 4知道日期。在问题A.14中,GPT-4被要求以天文长度单位给出答案,Wolfram Alpha返回了以米为单位的正确答案,但随后系统无法将其转换为天文单位,尽管Wolfram Alpha被调用了8次。

GPT-4有时会创建对插件的无用调用。例如,在问题C.11中,GPT与西澳大利亚的互动如下:

这些结果表明,GPT-4未能充分利用插件的功能,尤其是Wolfram Alpha。

一般来说,这些系统在可以通过调用单个公式解决的问题上是最强大的。在人类倾向于使用空间可视化来解决的问题上,他们通常是弱势的。此外,这些系统通常不擅长解决涉及组合许多不同类型计算的问题,并且难以处理非常大或非常小的数字。GPT-4有能力检测插件返回的答案是有意义的还是物理的,但它不是很可靠,它几乎没有能力诊断错误的原因或从错误中恢复。

实验结果

本研究创建了三个测试集:“任意数值”测试集、“无计算”测试集和“激励数值”测试集。

表1显示了三个测试集问题的成功和失败示例:三个成功案例和三个失败案例。在成功的案例中,GPT4+WA和GPT4+CI都得到了正确的答案,而在失败的案例中,情况正好相反。

作者说,他们的测试集太小,结构太随机,无法支持统计学上有效的结论,但这项研究也暗示了一些结论。两个插件功能都很强大,都能解决对方解决不了的问题。我们来看一些实验结果。

下表显示了科学和数学(前16个问题)的结果。

下表显示了科学和数学问题的结果,包括库仑定律、三维几何、概率等等。GPT4+WA得分8.25(总分32);GPT4+CI成绩10分(总分32分)。

下表显示了“免计算”测试集上问题1-32的结果。题型可以归纳为日食、距离组合、河中两点距离等等。

下表显示了在“无计算”测试集上的结果,GPT4+WA: 30.7/53,GPT 4+CI: 34.2/53,随机猜测的得分为22.6/53。

下表中的实验是在动机数值测试集上的结果,涉及黑洞、几何、引力等类别,GPT 4+WA:14.3/20;GPT 4+置信区间:13.8/20 .

更多信息请参考原论文。

剧终

授权请联系本微信官方账号。

投稿或寻求报道:content@jiqizhixin.com。

 
回复列表
默认   热门   正序   倒序

回复:插件列表获取失败是什么原因,插件类调用失败

Powered by 7.12.10

©2015 - 2025 90Link

90link品牌推广 网站地图

您的IP:10.1.228.218,2025-12-22 17:16:10,Processed in 0.34692 second(s).

豫ICP备2023005541号

头像

用户名:

粉丝数:

签名:

资料 关注 好友 消息
免责声明
  • 1、本网站所刊载的文章,不代表本网站赞同其观点和对其真实性负责,仅供参考和借鉴。
  • 2、文章中的图片和文字版权归原作者所有,如有侵权请及时联系我们,我们将尽快处理。
  • 3、文章中提到的任何产品或服务,本网站不对其性能、质量、适用性、可靠性、安全性、法律合规性等方面做出任何保证或承诺,仅供读者参考,使用者自行承担风险。
  • 4、本网站不承担任何因使用本站提供的信息、服务或产品而产生的直接、间接、附带或衍生的损失或责任,使用者应自行承担一切风险。

侵权删除请致信 E-Mail:3454251265@qq.com