8月26日,根据phind官方消息,研究团队在Phind内部数据集上对CodeLlama-34B和CodeLlama-34B-Python进行微调后,发现这两款机型在HumanEval测试中的通过率已经超过了今年3月的GPT-4。

Code Llama是Meta发布的大型代码生成模型,有7B、13B、34B三种大小,包含基本模型、Python特别版等多个模型。HumanEval测试显示,未经微调的CodeLlama-34B和CodeLlama-34B-Python的通过率分别为48.8%和53.7%。
phind研究团队在包含约80,000个高质量编程问题和解决方案的专有数据集上对这两个模型进行了微调。这个数据集是phind研究团队推出的数据集,其特点是指令-答案对。两个模型都经过了两次训练,训练量达到了16万个例子左右。这次训练没有使用LoRA(大语言低秩适应,一种微调方案),但R&D团队对这两个模型进行了局部微调,采用了两种训练方法:DeepSpeed ZeRO 3和Flash Attention 2。培训用时3小时,用了32个100-80GB GPU。研究团队表示,他们还采用了OpenAI对数据集给出的净化方案,以确保结果是有效的,不包含受污染的例子。

经过测试发现,CodeLlama-34B和CodeLlama-34B-Python经过训练后的通过率分别达到67.6%和69.5%。今年3月,GPT-4的得分为67%。
微信扫码
QQ扫码
您的IP:10.8.251.137,2025-12-17 18:26:14,Processed in 0.41689 second(s).