Awesome
数字人主要技术整理
中文 | English
目前数字人主要包括形象、声音和对话能力几方面。主要交互方式为直接与数字人进行对话。以下从多方面进行了收集和总结,以期提供快速入门帮助。
更新数字人图示,以输入输出流程中涉及到的各种技术和代表解决方案做直观呈现
公开分享链接如下,欢迎修改完善:https://www.processon.com/embed/60051bca7d9c084cf9ec5dad?cid=60051bca7d9c084cf9ec5dae
Demo Project
数字人学术汇报
通过非常少的原始素材,生成高质量的学术汇报、产品汇报数字人视频。需要素材:(1)一张真人照片、(2)一段此人的10秒钟任意语种的音频,及(3)原始PPT,生成一段数字人学术汇报。
https://github.com/user-attachments/assets/ad846bff-18ac-4bc0-b964-b6c668db6968
https://github.com/user-attachments/assets/1aadcc4f-46b4-4097-aeb0-03307b83da6f
1. 文本准备:
使用gpt-4o或其他视觉大模型,定制Prompt(以xx身份帮我生成演讲逐字稿,语气轻松、我会逐页上传,注意每一页前后衔接等),逐页上传PPT,获取演讲稿。(需要不断优化以取得最好效果)
2. 声音克隆:
使用声音机进行克隆,开源方案CosyVoice(80分),闭源方案heygen(目前采用的方案,90分)
3. 照片驱动数字人原始视频
3.1 使用阿里云PAI ArtLab生成类卡通数字人形象
项目介绍:https://mp.weixin.qq.com/s/DaP9rvW6A9jx1GoLyU0zHQ
直达链接:https://x.sm.cn/GEGDfU9
这种方法的优点是生成的数字人在保证真实的情况下,又带一些卡通,可以显著降低恐怖谷效应(所有观看者的反馈)。
3.2 照片驱动
开源方案:50-70分,闭源方案heygen(目前采用的方案,90分)
4. 后期合成
数字人进行抠像后与PPT逐页合成, 优化:如果抠像发现部分不完善,请通过PS等软件将png照片素材部分填充白色背景尝试解决。
5. 多语言支持
将PPT通过翻译狗(fanyigou.com)等软件进行跨语言翻译,经测试可以生成较好的效果。并将逐字稿翻译成对应语言,声音克隆为对应语音并进行合成。
0. 实时感知交互能力
0.1 GPT4o
随着GPT-4o的一系列演示视频的发布,几乎解决了实时性的问题,通过实时对话、打断、主动提问,以及实时分析摄像头内容,结合本地知识库、Agent等能力,让数字人一下子达到了更高级别的可用性。
无需实体形象的可用场景(可穿戴设备:实时采集、云端处理、语音及图像反馈):
- 个人实时助手
- 盲人助手
- 翻译助手
- 学生学习辅导
- 其他(欢迎提交补充)
需要实体形象的可用场景:
- 数字人赋能,但是目前还未有技术能解决数字人的互动能力,比如实时往嘴上涂口红,自由镜头下的多角度运动等
- 实体机器人赋能,如救援机器人的自主决策、和控制人员通过自然语言或特定语法进行交流等。
- 其他
目前OpenAI还暂未提供演示中涉及的声音和视频的API,而只提供了GPT4o的文字对话和图片识别能力,相较于之前的GPT4-Vision-Preview等区别不大。
相应演示视频:
0.2 其他实现
tbd
1. 形象驱动
1.1 真人录制+算法驱动
真人出镜录制素材视频,后期通过对AI驱动口型和姿态等方式实现数字人
- 优点:难辨真假(因为是直接录制的真人素材),口型对得准,可实时直播也可录播。
- 缺点:贵(可能)
本图片中右侧为数字人,左侧为真人
相应演示视频:
相关技术:
- 唇形同步Lip Sync技术(代表:Wav2Lip、HeyGen、rask.ai)
- 实时视频换脸(代表:DeepFakeLive、FaceFusion、fal.ai)
- 图片转视频(代表:MuseTalk、Sadtalker)
1.2 建模+算法驱动
建模有更高的自由度,有高精度建模和低精度建模等各种方式丰俭由人,也可以另辟蹊径建造卡通形象等。
代表技术:
2. 声音模仿
一些非专业的背景知识补充:
数字人声音可使用现有模型的TTS,或使用自训练的声音模型。声学模型是声音合成系统的重要组成部分。
主流声学模型包括VITS、Tacotron、FastSpeech2等。VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)是一种语音合成方法,它使用预先训练好的语音编码器 (vocoder声码器) 将文本转化为语音。
之前流行的AI孙燕姿等,采用技术为so-vits-svc,全称SoftVC VITS Singing Voice Conversion。该技术是一个声音爱好者基于softVC和VITS修改而来。
声音模仿相关热点项目(截止2024.6)
1. GPT-SoVITS 27.0K stars
声音模型训练项目,少量文本即可实现微调模型,提供WebUI。
项目地址: https://github.com/RVC-Boss/GPT-SoVITS
演示视频:
2. so-vits-svc 24.4K stars
声音模型训练项目,代表:AI孙燕姿。
项目地址: https://github.com/svc-develop-team/so-vits-svc
演示视频:
3. ChatTTS 23.3K stars
非声音克隆。但是其文字转声音效果非常好,有停顿,有语气,有情绪。原生中文支持。网络提供了Windows、Linux等各种一键部署包、懒人包等。
项目地址: https://github.com/2noise/ChatTTS
演示视频:
其他:剪映capcut声音克隆、睿声Reecho、Emotional VITS、Bark
3. 互动技术
tbd
如多镜头多角度下的数字人、实时换装、化妆等。
4. 应用场景及综合代表项目
数字人在自媒体(知识科普等相关口播博主)、电商直播带货、教育教学领域有所应用。在数字生命(已故亲人)等领域(和AR、VR等结合)也有探索。此外,数字人技术和实体机器人的融合等也是题中应有之义。
代表项目:
【开源】AI Vtuber是一个由大模型驱动的、融合外观、声音的虚拟AI主播
-
Fay
【开源】Fay是一个完整的开源项目,包含Fay控制器及数字人模型,可灵活组合出不同的应用场景:虚拟主播、现场推销货、商品导购、语音助理、远程语音助理、数字人互动、数字人面试官及心理测评、贾维斯、Her。 -
HeyGen
【海外/华人创办】AI视频制作热门平台,提供数字分身、声音克隆等多种相关功能。
-
特看科技
【国产商用】基于真人视频的高质量数字人 -
腾讯智影
【国产商用】融合多种AIGC能力的综合创作平台。 -
超能科智
【国产商用】AIGC课程内容生产代表,提供内容生产和服务一站式平台 -
飞影数字人
【国产商用】提供数字分身、声音克隆等多种功能
5. 法律法规、代表性新闻
-
《互联网信息服务深度合成管理规定》
深度合成服务提供者和技术支持者提供智能对话、合成人声、人脸生成、沉浸式拟真场景等生成或者显著改变信息内容功能的服务的,应当进行显著标识,避免公众混淆或者误认 -
《北京市促进数字人产业创新发展行动计划》
北京市经济和信息化局发布国内首个数字人产业专项支持政策——《北京市促进数字人产业创新发展行动计划(2022—2025年)》 -
大模型、数字人技术在教育领域中如何得以应用?
“用科技促进教育发展,让更多人受益,是我们的初心。构建更有效果、更有效率、更有体验感的教育,让全球的学习者都能享有优质数字教育资源。” 8月20日,在2023全球智慧教育大会现场,北京师范大学智慧学习研究院副院长、网龙副总裁陈长杰在接受媒体采访时做了上述表示。 -
全球未来教育设计大赛 项目实际体验使用说明文档(AIGC夏令营&GCD4FE 48H) https://yuanzhuo.bnu.edu.cn/downloads/gcd4fe_ai_story.html
6. 数字人的大脑 Large Langurage Model
目前支持图片识别和处理的多模态模型主要有
gpt-4o,gpt-4-vision-preview,gemini-pro-vision,智浦GLM-4V,零一科技yi-vl-plus,通义千问Qwen-VL-Max、LLaVA(开源)等。
各模型API申请地址
-
baidu
https://console.bce.baidu.com/qianfan/ais/console/applicationConsole/application -
moonshot ai
https://platform.moonshot.cn/console/api-keys -
minimax
https://www.minimaxi.com/user-center/basic-information/interface-key
开源大模型集成前端
-
Open-WebUI 提供丰富功能的WebUI,可集成各类大模型,具有用户组功能,管理员可便捷管理多用户,并收集用户详细使用数据。
https://github.com/open-webui/open-webui -
Jan 提供多平台客户端,集成各种开源和API模型,UI美观简单易用
https://github.com/janhq/jan -
Langchain-Chatchat 通过WebUI提供多模型支持和RAG、agent等功能。
https://github.com/chatchat-space/Langchain-Chatchat
大模型API集成管理网关
-
Ollama
https://ollama.com -
LiteLLM
https://litellm.vercel.app
本地知识库和智能体构建
大模型自动化测评工具
- OpenCompass
https://github.com/open-compass/opencompass