我基于当前最新版本制作了免安装一键启动整合包,并制作了一个方便操作的WebUI界面。
首先将网盘内的软件压缩包下载到本地电脑上并解压。
先运行下载模型,模型总共约45.7G
模型下载完成后再运行启动软件.bat,启动成功后会自动打开WebUI界面
操作界面功能比较直观,没什么复杂的。
操作步骤:
先上传一张图片,再上传一段音频素材,音频时长最好不要太长,可能最好不要超过15秒,未测试长音频。
分辨率支持:720 1280,1280 720,480 832,832 480,704 1280,1280 704,1024 704,704 1024
其它参数保持默认即可
如果不想上传音频素材文件的话,可以使用cosyvoice声音克隆功能生成一段新音频
在【语音合成】中,勾选启用使用cosyvoice语音合成,上传音色样本文件,音色样本最好3-10秒干净音频,输入音色样本文本内容,输入待合成语音的文本内容。就可以生成一段新的音频用于视频合成。
也可以使用【姿势驱动】控制人物动作。
如果显卡显存低出现爆显存的话,可以勾选【模型卸载】,【转换模型精度】,【T5模型在CPU上运行】
视频教程及效果演示:https://www.youtube.com/watch?v=2wpUdMu7E98
软件运行时内存使用峰值超55G
英伟达显卡显存16G以上,建议48G,
支持英伟达50系列显卡
只支持windows10或11
使用前请先更新英伟达显卡驱动