在开源这件事上,Meta不愧是业界良心。
这几天,代码大模型领域又热闹了!
首先,致力于元开源代码的大型模型Code Llama可以免费商用。效果也很好。Code Llama在HumanEval和MBPP code数据集上的通过率(pass@1)轻松超过GPT-3.5,“自然”版pass@1接近原版GPT-4(今年3月GPT-4技术报告中OpenAI报告的数据)。

就在Code Llama发布一天后,Phind组织的研究人员在HumanEval的评测中以微调后的Code Llama-34B击败了GPT-4。他们的两款机型Phind-CodeLlama-34B-v1和Phind-CodeLlama-34B-Python-v1在HumanEval中分别取得了67.6%和69.5%的pass@1,明显超过了原版GPT-4的67%。

然而仅仅过了一天,Phind Code Llama的微调版就迎来了一个强劲的对手。这次是WizardCoder,WizardLM团队的特殊编程模型。
该团队推出了基于Code Llama的最新版本模型WizardCoder 34B,该模型通过使用Evol-Instruct进行了微调。
结果显示,其在HumanEval上的pass@1达到了惊人的73.2%,超过了最初的GPT-4、ChatGPT-3.5、克劳德2和巴德。此外,WizardCoder的13b和7B版本也将很快推出。

GitHub地址:https://github.com/nlpxucan/WizardLM/tree/main/WizardCoder
拥抱脸:https://huggingface.co/WizardLM/WizardCoder-Python-34B-V1.0
具体版本为WizardCoder-Python-34B-V1.0,下图对比了HumanEval pass@1的主流闭源和开源模型。除了最新API的GPT-4(团队测试的结果是82.0%),这个模型超越了所有的闭源和开源模型,包括最新API的chat GPT(72.5%)和原GPT-4(67%)。

因此,WizardCoder-Python-34B-V1.0成为了最新的SOTA开源代码模型。

WizardLM团队还表示,WizardCoder-Python-34B-V1.0的性能是100%可重现的。

想体验WizardCoder-Python-34B-V1.0的朋友可以试试下面的演示。

演示地址:http://47.103.63.15:50085/
有人说,试了demo,好像COT(思维链)在提供准确代码之前就在工作了,很棒。

其他人说WizardCoder-Python-34B-V1.0比GPT-4犯的错误少。

但是,运行WizardCoder-Python-34B-V1.0需要32GB以上的mac。

WizardLM团队会带来更多惊喜。
WizardCoder成为代码家族的一员并不是什么新鲜事,但WizardLM团队每次都会给你带来不一样的惊喜。
斯坦福发布的大语言模型排名AlpacaEval是基于LLM的全自动评测基准,速度更快,可靠性更高。许多著名的模型,如GPT-4和ChatGPT,在上面刷名单。其中WizardLM 13B V1.2还在第六位。

WizardLM是许灿等人在2023年4月提出的大规模语言模型,可以根据复杂的指令生成文本。它使用一种叫做Evol-Instruct的算法来生成和重写指令数据,从而提高指令的复杂性和多样性。WizardLM有三个版本:7B、13B和30B。
WizardLM的指令微调代码模型WizardCoder,打破了闭源模型的垄断地位,在HumanEval和HumanEval+上优于Anthropic的Claude和Google的Bard。
更值得一提的是,WizardCoder大幅提升了开源模型的SOTA水平,创造了惊人的进步,性能提升了22.3%,成为开源领域新的“领跑者”。
以下是WizardLM团队在GitHub上发布的众多模型,是团队不断创新改进的足迹。

WizardLM团队在WizardLM和WizardCoder之后,于今年8月中旬宣布了WizardMath。该团队还在推特上表示,他们一直在努力解决各个学科的复杂问题。

那么WizardLM team未来会给我们带来怎样的惊喜,让我们拭目以待。
剧终
授权请联系本微信官方账号。
投稿或寻求报道:content@jiqizhixin.com。
微信扫码
QQ扫码
您的IP:10.1.228.218,2025-12-28 07:32:55,Processed in 0.38182 second(s).