GPT-4调用的第三方插件效果如何?一些研究人员在Wolfram Alpha和代码解释器上进行了测试。今年早些时候,OpenAI使ChatGPT能够集成第三方插件,打破了ChatGPT无法连接互联网的封印。
很多人赞叹,ChatGPT的出现可以算是“iPhone时刻”,第三方插件的整合是“iOS应用商店”时刻。
据不完全统计,在公告发布后的几天内,ChatGPT就推出了70多个插件。几个月后,ChatGPT的这些插件是如何工作的?这篇论文来自纽约大学的欧内斯特·戴维斯和奥斯汀德克萨斯大学的斯科特·阿伦森。他们对ChatGPT背后的大模型GPT-4调用的插件进行了彻底的测试。

地址:https://arxiv.org/pdf/2308.05713.pdf.
具体来说,报告描述了大规模语言模型GPT-4在2023年6月至8月期间,使用Wolfram Alpha(以下简称GPT4+WA)和Code Interpreter(以下简称GPT4+CI)对高中和大学水平的105个科学和数学问题进行了测试。
他们得出了以下结论:
在测试的各种问题中,有任何外挂的GPT-4明显强于GPT-4本身。此外,该研究还得出结论,几乎可以肯定,GPT-4比一年前存在的AI更强。但是,它的可靠性远远不够;它经常输出错误的答案或者不能输出任何答案。
从总分来看,本文认为这些系统的性能相当于二级本科生的水平。这些系统解决了一些即使是有能力的学生也会觉得有挑战性的问题,但是它们不能解决一些即使是中学生也会觉得容易的问题。
此外,研究还发现,GPT-4和插件,尤其是Wolfram Alpha之间还有很大的改进空间。GPT-4经常以Wolfram Alpha不可接受或产生有用输出的方式表达问题。
例如,在问题B.35(见论文附录)中,GPT-4调用Wolfram Alpha 40次,试图获取某个事件的日期,但都失败了,然后放弃了。然而,没有插件的GPT 4知道日期。在问题A.14中,GPT-4被要求以天文长度单位给出答案,Wolfram Alpha返回了以米为单位的正确答案,但随后系统无法将其转换为天文单位,尽管Wolfram Alpha被调用了8次。
GPT-4有时会创建对插件的无用调用。例如,在问题C.11中,GPT与西澳大利亚的互动如下:


这些结果表明,GPT-4未能充分利用插件的功能,尤其是Wolfram Alpha。
一般来说,这些系统在可以通过调用单个公式解决的问题上是最强大的。在人类倾向于使用空间可视化来解决的问题上,他们通常是弱势的。此外,这些系统通常不擅长解决涉及组合许多不同类型计算的问题,并且难以处理非常大或非常小的数字。GPT-4有能力检测插件返回的答案是有意义的还是物理的,但它不是很可靠,它几乎没有能力诊断错误的原因或从错误中恢复。
实验结果
本研究创建了三个测试集:“任意数值”测试集、“无计算”测试集和“激励数值”测试集。
表1显示了三个测试集问题的成功和失败示例:三个成功案例和三个失败案例。在成功的案例中,GPT4+WA和GPT4+CI都得到了正确的答案,而在失败的案例中,情况正好相反。

作者说,他们的测试集太小,结构太随机,无法支持统计学上有效的结论,但这项研究也暗示了一些结论。两个插件功能都很强大,都能解决对方解决不了的问题。我们来看一些实验结果。
下表显示了科学和数学(前16个问题)的结果。

下表显示了科学和数学问题的结果,包括库仑定律、三维几何、概率等等。GPT4+WA得分8.25(总分32);GPT4+CI成绩10分(总分32分)。

下表显示了“免计算”测试集上问题1-32的结果。题型可以归纳为日食、距离组合、河中两点距离等等。

下表显示了在“无计算”测试集上的结果,GPT4+WA: 30.7/53,GPT 4+CI: 34.2/53,随机猜测的得分为22.6/53。

下表中的实验是在动机数值测试集上的结果,涉及黑洞、几何、引力等类别,GPT 4+WA:14.3/20;GPT 4+置信区间:13.8/20 .

更多信息请参考原论文。
剧终
授权请联系本微信官方账号。
投稿或寻求报道:content@jiqizhixin.com。
微信扫码
QQ扫码
您的IP:10.1.228.218,2025-12-22 17:16:10,Processed in 0.34692 second(s).