插件列表获取失败是什么原因，插件类调用失败

版块：科技头条类型：普通作者：科技资讯查看：55 回复：0 获赞：0 时间：2023-08-13 03:54:29

GPT-4调用的第三方插件效果如何？一些研究人员在Wolfram Alpha和代码解释器上进行了测试。今年早些时候，OpenAI使ChatGPT能够集成第三方插件，打破了ChatGPT无法连接互联网的封印。

很多人赞叹，ChatGPT的出现可以算是“iPhone时刻”，第三方插件的整合是“iOS应用商店”时刻。

据不完全统计，在公告发布后的几天内，ChatGPT就推出了70多个插件。几个月后，ChatGPT的这些插件是如何工作的？这篇论文来自纽约大学的欧内斯特·戴维斯和奥斯汀德克萨斯大学的斯科特·阿伦森。他们对ChatGPT背后的大模型GPT-4调用的插件进行了彻底的测试。

地址:https://arxiv.org/pdf/2308.05713.pdf.

具体来说，报告描述了大规模语言模型GPT-4在2023年6月至8月期间，使用Wolfram Alpha(以下简称GPT4+WA)和Code Interpreter(以下简称GPT4+CI)对高中和大学水平的105个科学和数学问题进行了测试。

他们得出了以下结论:

在测试的各种问题中，有任何外挂的GPT-4明显强于GPT-4本身。此外，该研究还得出结论，几乎可以肯定，GPT-4比一年前存在的AI更强。但是，它的可靠性远远不够；它经常输出错误的答案或者不能输出任何答案。

从总分来看，本文认为这些系统的性能相当于二级本科生的水平。这些系统解决了一些即使是有能力的学生也会觉得有挑战性的问题，但是它们不能解决一些即使是中学生也会觉得容易的问题。

此外，研究还发现，GPT-4和插件，尤其是Wolfram Alpha之间还有很大的改进空间。GPT-4经常以Wolfram Alpha不可接受或产生有用输出的方式表达问题。

例如，在问题B.35(见论文附录)中，GPT-4调用Wolfram Alpha 40次，试图获取某个事件的日期，但都失败了，然后放弃了。然而，没有插件的GPT 4知道日期。在问题A.14中，GPT-4被要求以天文长度单位给出答案，Wolfram Alpha返回了以米为单位的正确答案，但随后系统无法将其转换为天文单位，尽管Wolfram Alpha被调用了8次。

GPT-4有时会创建对插件的无用调用。例如，在问题C.11中，GPT与西澳大利亚的互动如下:

这些结果表明，GPT-4未能充分利用插件的功能，尤其是Wolfram Alpha。

一般来说，这些系统在可以通过调用单个公式解决的问题上是最强大的。在人类倾向于使用空间可视化来解决的问题上，他们通常是弱势的。此外，这些系统通常不擅长解决涉及组合许多不同类型计算的问题，并且难以处理非常大或非常小的数字。GPT-4有能力检测插件返回的答案是有意义的还是物理的，但它不是很可靠，它几乎没有能力诊断错误的原因或从错误中恢复。

实验结果

本研究创建了三个测试集:“任意数值”测试集、“无计算”测试集和“激励数值”测试集。

表1显示了三个测试集问题的成功和失败示例:三个成功案例和三个失败案例。在成功的案例中，GPT4+WA和GPT4+CI都得到了正确的答案，而在失败的案例中，情况正好相反。