Awesome

SEEChat 2.0 视觉多模态模型

SEEChat 2.0主要变化：

目标定位：新增目标定位能力，能根据用户的描述给出对应目标在图像中的bounding box坐标
深层融合：模型结构从浅层融合切换为深层融合，提升模型对视觉信息的理解能力
严格超集：LLM保持frozen，视觉能力的加入不影响内嵌的语言模型在文本任务上的原有能力

Contents

Introduction
Method
Capability
Deploy
Citation
References

Introduction

SEEChat 是一个侧重视觉能力的多模态对话模型，目标包含三方面：

为文本单模态的语言模型增加对视觉信息的理解和处理能力，为LLM增加“眼睛”
基于多模态融合，实现视觉多任务的统一模型
探索视觉与文本信息的对齐、转写、及信息互补

Method

SEEChat 2.0仍然基于单模态专家缝合路线，而非原生多模态路线。与1.0版本的重大区别在于，2.0版的模型结构从1.0版的浅层融合切换为现在的深层融合方式。

Capability

Deploy

Citation

References