句指令+美元+分钟就能训练出小型专业模型了解一下

版块：科技头条类型：普通作者：科技资讯查看：77 回复：0 获赞：0 时间：2023-09-01 15:50:23

CMU和清华的研究人员共同发布了Prompt2Model框架，它可以根据用户提供的提示快速训练一个小型的专业模型。只需要花费5美元的数据收集和20分钟的训练时间，就可以得到比ChatGPT平均水平性能好20%的小模型，模型参数规模缩小700倍。

大规模语言模型(LLM)使用户能够在提示和上下文学习的帮助下构建强大的自然语言处理系统。但从另一个角度来看，LLM在某些自然语言处理任务上的表现有些落后:这些模型的部署需要大量的计算资源，通过API与模型的交互可能会造成潜在的隐私问题。

为了解决这些问题，来自卡耐基梅隆大学(CMU)和清华大学的研究人员联合推出了Prompt2Model框架。该框架的目标是结合基于LLM的数据生成和检索方法来克服上述挑战。使用Prompt2Model框架，用户可以通过提供与LLM相同的提示，自动收集数据并高效地训练适合特定任务的小型专业模型。

研究人员对三项自然语言处理子任务进行了实验。以少量样本提示作为输入，收集数据和训练20分钟只需要5美元。与功能强大的LLM模型gpt-3.5-turbo相比，Prompt2Model框架生成的模型性能提高了20%。同时，模型的尺寸缩小了700倍。研究人员进一步验证了这些数据在真实场景中对模型效果的影响，以便模型开发者在部署前估计模型的可靠性。该框架以开源形式提供:

GitHub框架仓库地址:https://github.com/neulab/prompt2model.

框架演示视频链接:youtu.be/LYYQ_EhGd-Q

与框架有关的论文链接:https://arxiv.org/abs/2308.12261

背景

从头开始构建一个特定的自然语言处理任务系统通常是相当复杂的。系统的构建者需要明确任务范围，获取具体数据集，选择合适的模型架构，对模型进行训练和评估，然后部署进行实际应用。

大规模语言模型(LLM)如GPT-3为这个过程提供了一个更简单的解决方案。用户只需要提供任务说明和一些例子，LLM就可以生成相应的文本输出。但是通过提示生成文本可能会消耗大量的计算资源，使用提示的方式也没有经过专门训练的模型稳定。此外，LLM的可用性受到成本、速度和隐私的限制。

为了克服这些问题，研究人员开发了Prompt2Model框架。这个框架结合了基于LLM的数据生成和检索技术来解决上述限制。系统首先从prompt中提取关键信息，然后生成并检索训练数据，最后生成专业模型进行部署。

Prompt2Model框架自动执行以下核心步骤:

数据集和模型检索:收集相关数据集和预训练模型。

数据集生成:使用LLM创建伪标签数据集。

模型微调:通过混合检索数据和生成数据来微调模型。

模型测试:在测试数据集和用户提供的真实数据集上测试模型。

通过对几个不同任务的实证评估，Prompt2Model的成本显著降低，模型的规模也大大缩小，但性能超过了gpt-3.5-turbo。Prompt2Model框架不仅可以作为高效构建自然语言处理系统的工具，还可以作为探索模型集成训练技术的平台。

结构

Prompt2Model框架的核心特点是高度自动化。流程包括数据收集、模型训练、评估和部署，如上图所示。其中，自动数据收集系统起着关键作用，它通过数据集检索和基于LLM的数据生成，获取与用户需求密切相关的数据。然后，系统将检索预训练模型，并在获取的数据集上对其进行微调。最后，系统将评估测试集上的训练模型，并创建用于与模型交互的Web用户界面(UI)。

Prompt2Model框架的主要特性包括:

Prompt驱动:Prompt2Model的核心思想是使用Prompt作为驱动，用户可以直接描述所需的任务，而不必知道机器学习的具体实现细节。

自动数据收集:框架通过数据集检索和生成技术获取与用户任务高度匹配的数据，从而建立训练所需的数据集。

预训练模型:框架使用预训练模型并进行精细调整，从而节省了大量的训练成本和时间。

效果评估:Prompt2Model支持在实际数据集上进行模型测试和评估，可以在部署模型之前进行初步的预测和性能评估，从而提高模型的可靠性。

这些特点使得Prompt2Model框架成为一个强有力的工具，可以高效地完成自然语言处理系统的构建过程，并提供高级功能，如自动收集数据、模型评估和创建用户交互界面等。

实验和结果

在实验设计方面，研究人员选择了三个不同的任务来评估Prompt2Model系统的性能:

机器阅读QA:使用SQuAD作为实际评测数据集。

日语NL-to-Code:使用MCoNaLa作为实际评估数据集。

时态表达式规范化:使用时态数据集作为实际的评估数据集。

此外，研究人员还选择了GPT-3.5涡轮增压作为对比的基准车型。实验结果得出以下结论:

在除代码生成以外的所有任务中，Prompt2Model系统生成的模型明显优于基准模型GPT-3.5-turbo，虽然生成的模型参数规模远小于GPT-3.5-turbo。

将检索数据集与生成数据集混合，训练效果可以与直接使用实际数据集相媲美。这验证了Prompt2Model框架可以大大降低人工标注的成本。

数据生成器生成的测试数据集可以有效区分不同模型在实际数据集上的性能。这说明生成的数据质量很高，在模型训练中有足够的效果。

在日码转换任务中，Prompt2Model系统的性能不如GPT-3.5-turbo。

这可能是由于生成的数据集质量低，并且缺乏适当的预训练模型。

综合来看，Prompt2Model系统在多个任务上成功生成了高质量的小模型，大大减少了对人工标注数据的需求。然而，一些任务仍需要进一步改进。

摘要

研究团队推出的Prompt2Model框架实现了仅通过自然语言提示自动构建任务特定模型的功能。这一创新显著降低了构建定制自然语言处理模型的门槛，进一步拓展了自然语言处理技术的应用范围。

实验结果表明，Prompt2Model框架生成的模型明显小于大规模语言模型，并且在许多任务中的表现优于GPT-3.5-turbo等模型。同时，由该框架生成的评估数据集也证明了在真实数据集上评估不同模型性能的有效性。这为指导模型的最终部署提供了重要的价值。

Prompt2Model框架为行业和用户获取满足特定需求的NLP模型提供了一种低成本、易于使用的方式。这对促进自然语言处理技术的广泛应用具有重要意义。未来的工作将继续侧重于进一步优化框架的性能。

按照文章顺序，这篇文章的作者如下:

维杰·维斯瓦纳坦:http://www.cs.cmu.edu/~vijayv/

赵晨阳:https://zhaochenyang20.github.io/Eren_Chenyang_Zhao/

阿曼达·伯茨:https://www.cs.cmu.edu/~abertsch/

吴桐双:https://www.cs.cmu.edu/~sherryw/

格雷厄姆·纽比格:http://www.phontron.com/

剧终

授权请联系本微信官方账号。

投稿或寻求报道:content@jiqizhixin.com。

回复列表

默认热门正序倒序

首 1 尾

暂无用户组

退出

等级：0级

金币：

游客：

后台控制面板

微信扫码

QQ扫码