Home

Awesome

数字人主要技术整理

中文 | English

目前数字人主要包括形象、声音和对话能力几方面。主要交互方式为直接与数字人进行对话。以下从多方面进行了收集和总结,以期提供快速入门帮助。


更新数字人图示,以输入输出流程中涉及到的各种技术和代表解决方案做直观呈现

未命名文件

公开分享链接如下,欢迎修改完善:https://www.processon.com/embed/60051bca7d9c084cf9ec5dad?cid=60051bca7d9c084cf9ec5dae


Demo Project

数字人学术汇报

通过非常少的原始素材,生成高质量的学术汇报、产品汇报数字人视频。需要素材:(1)一张真人照片、(2)一段此人的10秒钟任意语种的音频,及(3)原始PPT,生成一段数字人学术汇报。

https://github.com/user-attachments/assets/ad846bff-18ac-4bc0-b964-b6c668db6968

https://github.com/user-attachments/assets/1aadcc4f-46b4-4097-aeb0-03307b83da6f

1. 文本准备:

使用gpt-4o或其他视觉大模型,定制Prompt(以xx身份帮我生成演讲逐字稿,语气轻松、我会逐页上传,注意每一页前后衔接等),逐页上传PPT,获取演讲稿。(需要不断优化以取得最好效果)

2. 声音克隆:

使用声音机进行克隆,开源方案CosyVoice(80分),闭源方案heygen(目前采用的方案,90分)

3. 照片驱动数字人原始视频

3.1 使用阿里云PAI ArtLab生成类卡通数字人形象

项目介绍:https://mp.weixin.qq.com/s/DaP9rvW6A9jx1GoLyU0zHQ
直达链接:https://x.sm.cn/GEGDfU9

这种方法的优点是生成的数字人在保证真实的情况下,又带一些卡通,可以显著降低恐怖谷效应(所有观看者的反馈)。 demo2

3.2 照片驱动

开源方案:50-70分,闭源方案heygen(目前采用的方案,90分)

4. 后期合成

数字人进行抠像后与PPT逐页合成, 优化:如果抠像发现部分不完善,请通过PS等软件将png照片素材部分填充白色背景尝试解决。

5. 多语言支持

将PPT通过翻译狗(fanyigou.com)等软件进行跨语言翻译,经测试可以生成较好的效果。并将逐字稿翻译成对应语言,声音克隆为对应语音并进行合成。


0. 实时感知交互能力

0.1 GPT4o

随着GPT-4o的一系列演示视频的发布,几乎解决了实时性的问题,通过实时对话、打断、主动提问,以及实时分析摄像头内容,结合本地知识库、Agent等能力,让数字人一下子达到了更高级别的可用性。

无需实体形象的可用场景(可穿戴设备:实时采集、云端处理、语音及图像反馈):

需要实体形象的可用场景:

目前OpenAI还暂未提供演示中涉及的声音和视频的API,而只提供了GPT4o的文字对话和图片识别能力,相较于之前的GPT4-Vision-Preview等区别不大。

相应演示视频:

https://player.bilibili.com/player.html?isOutside=true&aid=1454557368&bvid=BV1Vi421X7Xf&cid=1544530003&p=1

0.2 其他实现

tbd

1. 形象驱动

1.1 真人录制+算法驱动

真人出镜录制素材视频,后期通过对AI驱动口型和姿态等方式实现数字人

本图片中右侧为数字人,左侧为真人 数字人1 数字人2

相应演示视频:

https://player.bilibili.com/player.html?isOutside=true&aid=701718909&bvid=BV1vm4y1x7nm&cid=1217022011&p=1


相关技术:

1.2 建模+算法驱动

建模有更高的自由度,有高精度建模和低精度建模等各种方式丰俭由人,也可以另辟蹊径建造卡通形象等。

代表技术:

Meta Human alt text

NVIDIA Omniverse Audio2Face alt text

Live2D alt text

Adobe Character Animator alt text

2. 声音模仿

一些非专业的背景知识补充:
数字人声音可使用现有模型的TTS,或使用自训练的声音模型。声学模型是声音合成系统的重要组成部分。 声学模型

主流声学模型包括VITSTacotronFastSpeech2等。VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)是一种语音合成方法,它使用预先训练好的语音编码器 (vocoder声码器) 将文本转化为语音。 vits process

之前流行的AI孙燕姿等,采用技术为so-vits-svc,全称SoftVC VITS Singing Voice Conversion。该技术是一个声音爱好者基于softVCVITS修改而来。

声音模仿相关热点项目(截止2024.6)

1. GPT-SoVITS 27.0K stars
声音模型训练项目,少量文本即可实现微调模型,提供WebUI。

项目地址: https://github.com/RVC-Boss/GPT-SoVITS

演示视频:

https://player.bilibili.com/player.html?isOutside=true&aid=836354039&bvid=BV12g4y1m7Uw&cid=1406840960&p=1

2. so-vits-svc 24.4K stars
声音模型训练项目,代表:AI孙燕姿。

项目地址: https://github.com/svc-develop-team/so-vits-svc

演示视频:

https://player.bilibili.com/player.html?isOutside=true&aid=572772327&bvid=BV1Mz4y1p7hY&cid=1178460068&p=1

3. ChatTTS 23.3K stars
非声音克隆。但是其文字转声音效果非常好,有停顿,有语气,有情绪。原生中文支持。网络提供了Windows、Linux等各种一键部署包、懒人包等。

项目地址: https://github.com/2noise/ChatTTS

演示视频:

https://player.bilibili.com/player.html?isOutside=true&aid=1055092304&bvid=BV1zn4y1o7iV&cid=1561584918&p=1

其他:剪映capcut声音克隆睿声ReechoEmotional VITSBark

3. 互动技术

tbd
如多镜头多角度下的数字人、实时换装、化妆等。

4. 应用场景及综合代表项目

数字人在自媒体(知识科普等相关口播博主)、电商直播带货、教育教学领域有所应用。在数字生命(已故亲人)等领域(和AR、VR等结合)也有探索。此外,数字人技术和实体机器人的融合等也是题中应有之义。

代表项目:

  1. AI-Vtuber

【开源】AI Vtuber是一个由大模型驱动的、融合外观、声音的虚拟AI主播

  1. Fay
    【开源】Fay是一个完整的开源项目,包含Fay控制器及数字人模型,可灵活组合出不同的应用场景:虚拟主播、现场推销货、商品导购、语音助理、远程语音助理、数字人互动、数字人面试官及心理测评、贾维斯、Her。

  2. HeyGen
    【海外/华人创办】AI视频制作热门平台,提供数字分身、声音克隆等多种相关功能。
    alt text

  3. 特看科技
    【国产商用】基于真人视频的高质量数字人 alt text

  4. 腾讯智影
    【国产商用】融合多种AIGC能力的综合创作平台。 alt text

  5. 超能科智
    【国产商用】AIGC课程内容生产代表,提供内容生产和服务一站式平台 alt text

  6. 飞影数字人
    【国产商用】提供数字分身、声音克隆等多种功能
    alt text

5. 法律法规、代表性新闻

6. 数字人的大脑 Large Langurage Model

目前支持图片识别和处理的多模态模型主要有

gpt-4o,gpt-4-vision-preview,gemini-pro-vision,智浦GLM-4V,零一科技yi-vl-plus,通义千问Qwen-VL-Max、LLaVA(开源)等。

各模型API申请地址

开源大模型集成前端

大模型API集成管理网关

本地知识库和智能体构建

大模型自动化测评工具