Home

Awesome

<div align="center"> <h1> XVERSE-V-13B </h1> </div> <p align="center"> <a href="https://huggingface.co/xverse/XVERSE-V-13B">🤗 Hugging Face</a>&nbsp| <a href="https://modelscope.cn/models/xverse/XVERSE-V-13B/summary" rel="nofollow"><img src="resources/modelscope.png" width="20px" style="max-width: 100%;"> ModelScope</a>&nbsp| <a href="resources/wechat.png">💬 微信社区</a> </p> <h4 align="left"> <p> <b>中文</b> | <a href="README_EN.md">English</a> <p> </h4>

更新信息

模型介绍

XVERSE-V-13B 是由深圳元象科技自主研发的支持图文问答的多模态大模型(Large Multimodal Model),其主要特点如下:

图像编码示例

对于 448*448 的图像,我们通过 Sliding Window 将其切分成4个局部图像块以及 Resize 得到一个包含全局信息的图像,如下图所示 avatar

对于更高分辨率的 448*672 的图像,我们通过 Sliding Window 将其切分成6个局部图像块以及 Resize 得到一个包含全局信息的图像,如下图所示 avatar

<sup>1:Concate* 表示列向量按行进行拼接 </sup>

<sup>2:对于其他不同分辨率以及不同宽高比的图像,也是同理进行切块编码 </sup>

评测结果

为了综合评估模型的性能,我们在一系列标准数据集上进行了全面测试,包括 MMBench、MMMU、SEEDBench_IMG、MMStar、LLaVABench、AI2D、ScienceQA、VizWiz、TextVQA、OKVQA 和 GQA 等数据集。这些评估覆盖了模型在多个领域的能力,具体包括 OCR,逻辑推理,关系推理,粗粒度感知和细粒度感知。评估结果如下:

OpenCompass 榜单

OpenCompass 是面向大模型评测的一站式平台。 其主要特点如下: 开源可复现:提供公平、公开、可复现的大模型评测方案。因此,我们报告模型在此榜单上的相关结果。

数据集XVERSE-V-13BGeminiProVision*Qwen-VL-Plus*Claude-3V Sonnet*LLaVA-Next-Vicuna-13BMonkey-ChatOmniLMM-12BDeepSeek-VL-7BCogVLM-17B-ChatTransCore-MYi-VL-34B
MMBench75.673.667.067.870.072.471.773.865.882.372.4
MMBench-CN74.774.370.764.268.567.562.071.455.980.770.7
MMStar47.838.639.744.240.440.739.640.539.935.640.5
MMMU-Val43.348.939.847.437.340.741.838.337.341.045.1
MathVistaMini-Test44.146.537.645.034.135.934.736.935.032.331.5
HallusionBench31.845.240.641.331.839.335.834.535.427.335.3
AI2D-Test70.470.265.769.972.268.563.365.363.364.165.9
OCRBench489680.0726.0646.0537.0534.0420.0435.0590.0405.0290.0
SEEDBench_IMG72.470.765.765.071.468.971.570.168.872.068.1
LLaVABench82.379.973.773.273.960.575.877.873.966.862.3

<sup>1:带 * 号的模型是闭源模型</sup>

对于上述所有比较模型,我们优先汇报其官方公布的结果。在缺少官方结果的情况下,我们采用了 OpenCompass 榜单的报告结果。若 OpenCompass 榜单上仍然缺少相应的数据集评估结果, 则来自于我们自行执行的评估流程所获得的数据。而评测框架则采用了VLMEvalKit 评估框架

传统VQA类任务

传统VQA任务,作为多模态视觉问答领域学术论文常引用的评测任务,具备显著的学术参考价值。因此,我们也将在此类数据集上报告相关的评测结果。

数据集XVERSE-V-13BLLaVA-Next-Vicuna-13BMonkey-ChatOmniLMM-12BDeepSeek-VL-7BCogVLM-17B-ChatTransCore-MYi-VL-34B
ScienceQA86.473.982.880.881.070.374.975.4
OKVQA59.260.054.740.855.154.456.751.4
GQA62.265.565.461.161.860.563.658.3
VizWiz81.954.675.664.050.144.041.470.8
TextVQA74.264.353.762.463.869.663.154.0

同理,对于上述所有比较模型,我们优先汇报其官方公布的结果。在缺少官方结果的情况下,则来自于我们自行执行的评估流程所获得的数据。而评测框架则采用了VLMEvalKit 评估框架

效果示例

这里我们展示全景和细节识别、图表分析、百科解答、教育问答、内容创作和代码生成等能力的样例。

avatar

使用方法

环境安装

  1. 下载本仓库:
git clone git@github.com:xverse-ai/XVERSE-V-13B.git
cd XVERSE-V-13B
  1. 使用 pip 安装依赖:
pip install -r requirements.txt

模型准备与加载

  1. 模型准备: 我们的模型分为三个部分:视觉编码器 clip-vit-large-patch14-224,大语言模型 XVERSE-13B-Chat 和桥接层 Adapters,这三部分分别可以从下面提供的链接中下载
XVERSE-13B-Chatclip-vit-large-patch14-224Adapters
<center>下载<center>下载<center>下载
  1. 模型加载: 完成步骤1之后,只需要将模型权重路径填入到配置文件相应的位置中即可:
    1. 对于 clip-vit-large-patch14-224 和 Adapters,请将路径填分别写到 ./eval_configs/vxverse_*.yaml 文件中的 vit_path 和 ckpt 字段中;
    2. 对于XVERSE-13B-Chat,请将路径填写到 ./vxverse/configs/models/vxverse_13bchat.yaml 文件对应的字段中。

OKVQAGQA 数据集的测评

  1. 数据集准备:

    1. 对于OKVQA测试集可以从<a href="https://okvqa.allenai.org/download.html">从此</a>下载
    2. 对于GQA测试集可以从<a href="https://cs.stanford.edu/people/dorarad/gqa/download.html">从此</a>下载
  2. 运行脚本

python ./eval_vqa.py --cfg-path ./eval_configs/vxverse_hd_benchmark_evaluation.yaml --dataset gqa

网页 Demo

可通过以下代码启动一个web server,在浏览器输入访问地址后,可对 XVERSE-V-13B 模型进行体验:

python demo.py --cfg-path ./eval_configs/vxverse_xverse_hd_eval.yaml --gpu-id 0

特别说明

我们的模型是基于修改并适配后的 Megatron 框架训练的,而 Pytorch 框架下的模型加载,demo 体验和数据集的评估则是基于MiniGPT4代码修改而来的。

局限性与免责申明

XVERSE-V-13B 与其它所有 LMM 一样,在某些情况下可能会产生不准确、有偏见或其他令人反感的内容。因此,请谨慎使用模型生成的内容,请勿将生成的有害内容进行传播,在部署任何 XVERSE-V-13B 的应用之前,开发人员应根据其具体应用对模型进行安全测试和调优。

我们强烈警告不要将 XVERSE-V-13B 模型用于制造或传播有害信息,或进行任何可能损害公众、国家、社会安全或违反法规的活动。如果使用 XVERSE-V-13B 模型产生任何问题,无论是数据安全问题、公共舆论风险,还是模型被误解、滥用、传播或不合规使用所引发的任何风险和问题,我们将不承担任何责任。

模型开源协议

使用本仓库的源码需要遵循 Apache-2.0 开源协议,使用 XVERSE-V-13B 的模型权重则需要遵循模型许可协议

XVERSE-V-13B 模型权重对学术研究完全开放,并且支持免费商用。如需申请商业许可证,请填写【申请表】,如有其他问题或合作,请联系 opensource@xverse.cn