Awesome
LLaSM: Large Language and Speech Model
开源,可商用的中英文双语语音-语言助手 LLaSM 以及中英文语音 SFT 数据集 LLaSM-Audio-Instructions,第一个支持中英文语音-文本多模态对话的开源可商用对话模型。
<p align="center"> <img src=".github/preview.jpg" width="40%"> </p>模型框架
基础演示
在线试玩
Talk is cheap, Show you the Demo.
论文
- arXiv 链接:https://arxiv.org/abs/2308.15930
资源下载
-
Hugging Face模型下载:
-
百度网盘下载:
-
语言模型:
环境安装
# clone the repository
git clone https://github.com/LinkSoul-AI/LLaSM
cd LLaSM
# install package
conda create -n llasm python=3.10 -y
conda activate llasm
pip install --upgrade pip
pip install -e .
快速测试
- 下载 Whisper large v2 模型:https://huggingface.co/openai/whisper-large-v2
export LLASM_DEVICE="cuda:0"
python infer.py \
--input_audio_file PATH/TO/YOUR/AUDIO \
--llasm_model PATH/TO/LLaSM/MODEL \
--llasm_audio_tower PATH/TO/WHISPER/MODEL \
--llm_type "Chinese_llama2" or "baichuan" \
TODO
- 如何训练
- int4 量化
- docker 部署
相关项目
项目协议
Citation
如果您发现我们的工作和此仓库有用,欢迎给一个星星 :star: 鼓励我们一下 :beer::
@misc{shu2023llasm,
title={LLaSM: Large Language and Speech Model},
author={Yu Shu and Siwei Dong and Guangyao Chen and Wenhao Huang and Ruihua Zhang and Daochen Shi and Qiqi Xiang and Yemin Shi},
year={2023},
eprint={2308.15930},
archivePrefix={arXiv},
primaryClass={cs.CL}
}