收藏文章 楼主

阿里云通义千问开源第二波!大规模视觉语言模型-上线魔搭社区

版块:科技头条   类型:普通   作者:科技资讯   查看:48   回复:0   获赞:0   时间:2023-08-27 05:36:39

钱问第二波开源!8月25日,阿里云推出大规模视觉语言模型Qwen-VL,一步到位直接开源。Qwen-VL是基于70亿参数模型Qwen-7B开发的,支持图形输入,具有理解多模态信息的能力。在主流的多模态任务评估和多模态聊天能力评估中,Qwen-VL取得了远超同量表一般模型的表现。

Qwen-VL是一个视觉语言(VL)模型,支持多种语言,如中文和英文。与之前的VL模型相比,Qwen-VL不仅具备图形识别、描述、问答、对话等基本能力,还具备视觉定位、图像中文本理解等能力。

多模态是通用人工智能的重要技术演进方向之一。业内普遍认为,从只支持文字输入的单一感官语言模型,到“五官全开”支持文字、图像、音频等信息输入的多模态模型,大模型的智能有很大可能会发生跳跃。多模态可以提高大模型对世界的理解,充分拓展大模型的使用场景。

视觉是人类的第一感官能力,也是研究人员首先要赋予大型模型的多模态能力。继M6和OFA系列多模态模型推出后,阿里云依桐钱文团队基于Qwen-7B开放了大视觉语言模型(LVLM) QWEN-VL。Qwen-VL及其视觉人工智能助手Qwen-VL-Chat已在ModelScope Magic社区推出,该社区是开源、免费和商业可用的。

用户可以直接从魔骑社区下载模型,或者通过阿里云纪灵平台访问和调用Qwen-VL和Qwen-VL-聊天。阿里云为用户提供包括模型训练、推理、部署、微调在内的全方位服务。

Qwen-VL可用于知识问答、图片标题生成、图片问答、文档问答、细粒度视觉定位等场景。

比如一个不懂中文的外国游客去医院看病,不知道怎么去相应科室。他拿着一张楼层地图,问Qwen-VL“哪一层是骨科”和“哪一层是耳鼻喉科”。Qwen-VL会根据图片信息进行文字回复,这是图像问答的能力;再比如,输入一张上海外滩的照片,让Qwen-VL找到东方明珠。Qwen-VL可以用探测盒准确圈出对应的建筑,这就是视觉定位能力。

Qwen-VL是业界第一个支持中文开放域名定位的通用模型。开域的视觉定位能力决定了大模型“视觉”的准确性,也就是你能否在图片中准确找到你要找的东西,这对于VL模型在机器人控制等真实应用场景的落地非常重要。

Qwen-VL以Qwen-7B为基础语言模型,在模型架构中引入视觉编码器,使模型支持视觉信号的输入,并通过设计训练流程,使模型具有对视觉信号的细粒度感知和理解能力。Qwen-VL支持448的图像输入分辨率。以前,开源的LVLM模型通常只支持224的分辨率。在Qwen-VL的基础上,依桐钱文团队使用对齐机制创建了基于LLM的可视化AI助手Qwen-VL-Chat,允许开发者快速构建具有多模态能力的对话应用。

在四种多模态任务(零镜头字幕/vqa/docvqa/grounding)的标准英文评测中,Qwen-VL取得了同规模开源LVLM的最好成绩。为了测试模型的多模态对话能力,依桐钱文团队基于GPT-4评分机制构建了一套测试集“试金石”,并将Qwen-VL-Chat与其他模型进行了对比。Qwen-VL-Chat在中英文对齐评测中取得了最好的成绩。

8月初,阿里云开源依桐拥有70亿参数的通用模型Qwen-7B和对话模型Qwen-7B-Chat,成为国内首家加入大模型开源行列的大型科技企业。依桐·钱文的开源模式一经推出就受到了广泛关注。上周冲到HuggingFace潮流榜的时候,不到一个月就在GitHub收获了3400多颗星,模型累计下载量已经超过40万。

开放源地址:

ModelScope魔法社区:

https://modelscope.cn/models/qwen/Qwen-VL/summary·奎恩-VL

qwen-https://modelscope.cn/models/qwen/Qwen-VL-Chat/summary VL聊天

模特体验:https://model scope . cn/studios/qwen/qwen-VL-聊天-演示/总结。

拥抱脸:

https://huggingface.co/Qwen/Qwen-VL·奎恩-VL

qwen-Chat https://huggingface.co/Qwen/Qwen-VL-Chat VL

GitHub:

https://github.com/QwenLM/Qwen-VL

技术论文地址:

https://arxiv.org/abs/2308.12966

雷锋网(微信官方账号:雷锋网)

雷锋。com版权所有的文章未经授权禁止转载。详见转载说明。

 
回复列表
默认   热门   正序   倒序

回复:阿里云通义千问开源第二波!大规模视觉语言模型-上线魔搭社区

Powered by 7.12.10

©2015 - 2025 90Link

90link品牌推广 网站地图

您的IP:10.1.228.218,2025-12-20 06:39:52,Processed in 0.27658 second(s).

豫ICP备2023005541号

头像

用户名:

粉丝数:

签名:

资料 关注 好友 消息
免责声明
  • 1、本网站所刊载的文章,不代表本网站赞同其观点和对其真实性负责,仅供参考和借鉴。
  • 2、文章中的图片和文字版权归原作者所有,如有侵权请及时联系我们,我们将尽快处理。
  • 3、文章中提到的任何产品或服务,本网站不对其性能、质量、适用性、可靠性、安全性、法律合规性等方面做出任何保证或承诺,仅供读者参考,使用者自行承担风险。
  • 4、本网站不承担任何因使用本站提供的信息、服务或产品而产生的直接、间接、附带或衍生的损失或责任,使用者应自行承担一切风险。

侵权删除请致信 E-Mail:3454251265@qq.com