深入体验HeyGen最新的数字人科技:一张图,创作出惊艳的虚拟偶像AVATAR IV
本来没想写HeyGen,毕竟在国内用起来有点累。
起因是我们受邀和HeyGen第一次做了联名影片,在内测的过程里,这款名为AVATAR IV的数字人产品实在让我有点惊讶,于是突发奇想:
只用一张图,做一段rap歌手的mv。效果如下:
这是我们和HeyGen的联名MV:“Vibin”。
其实用图片生成数字人说话视频,是很常见的功能。但AVATAR IV的一些优点,我确实并未在其他产品看到过:
- 使用提示词精确控制手势
- 超快速说唱歌曲,口型匹配几乎完美,提供微表情
- 支持一分钟的直出影像,画面无任何质量衰减
这是我认为AVATAR IV最重要的三个优点/特点。而经常使用图片生成数字人的朋友,应该知道这三点是这个领域的老大难问题。
所以在这支说唱MV中,我没有切任何多角度镜头,就是为了聚焦测试它的这些特性。
精确控制手势
最早的图片驱动数字人,是没有肢体动作的,只有嘴动,后来是头动(还有人记得D-id吗),再后来就陆续支持身体和手势。但存在一个很大的不确定性:这些动作手势都是随机的,你没法控制它,导致“多动”和“死板”现象。
AVATAR IV的解决方案是,你可以直接用提示词控制手势。而且完成的相当好。
怎么用一眼就明白吧,至于效果,就是我影片中的样子。
实测下来,基本上提示词都能有正确响应,效果极其出色。首先肢体动作很自然,其次,也是非常关键的:
手指几乎没有崩坏。
以下是我测试中的截图,手势在快速不停的变化,你会发现手指数量和形态几乎稳定高质量输出。
强得离谱,没有任何崩坏。并且已经非常接近“说唱”手势的要求。
如果需要再精确,你可以在提示词里写“向上指”这样的描述,它会听话,缺点是偶尔会出现重复做这个动作的情况。
是的,依然需要开盲盒,目前来说,如果你追求100%成功率的AI视频产品,建议还是再等等。“秒出”、“轻松”、“无脑”这些词基本是科幻小说的领域。
合理性非常好,非常自然,不会在那不停的傻动或者干脆不动:
高速口型匹配
目前的数字人,把口型张对已经是基本功。人物角度也基本都开始支持侧面了(最早只能是正面)。但当你的配音过快时,大部分产品都吃不消,出现崩坏。
为了测试这个性能,我特意写了一首快速RAP,接近人类说话的极限速度了,还能顺便测试唱歌的效果,至于表现,MV大家已经看到了,是完全符合我自己的预期的,甚至有些小惊喜。
为了更好地看清楚高速口型,我特意把视频放大到240%的比例(所以清晰度实际是没有问题的),聚焦看一下女孩的面部。
是的,AVATAR完成的极度准确。
最吓人的是下面这段自己做的摇头动作,配合歌词临场发挥,我根本没给她这个精确的提示词,太到位了。
这就是HeyGen在官方信息里提到的:微表情。确实很厉害。
最长支持单镜头一分钟
数字人让人最郁闷的一点是,一般都支持10几秒这种总比较短的时间长度。这就导致你得把一段长音频剪得很碎,再拼起来。工作量不说,也无法实现长镜头。HeyGen这次想明白了,直接支持到1分钟。
足够你浪的。
X上有个老哥说我看错了,我赶紧回去检查了一下:没错,是60秒。
这点很重要,效率大幅提升。毕竟把一个长音频剪碎,再拼上是个绝对烦人的事儿。
这步子迈得很大,但走得还挺稳的:AVATAR IV的质量并不会因为时间长了出现衰减或者涂抹感。然后画质是...
1080P。
嗯,这些都是我这条MV中的截图,快速运动中这种清晰度,手指还是对的,还要什么自行车。
缺点:贵。。。
写到这儿我才反应过来,可能会被骂。因为它确实不便宜。
此刻是凌晨3:30,所以如果我看错了这张表格,请提醒我。如果没看错,那么差不多是280块钱,5分钟。
如果按视频模型的常用单位,10秒一个镜头长度来计算的话。大概是9块多一个镜头(10秒)。
至于贵不贵,见仁见智吧。
但我觉得确实算不上便宜,尤其是长镜头,一但开卡错误,成本就很夸张。想想你生成了一个60秒的镜头,发现不是你想要的。那么。。。
嗯,没事,反正大部分同学想用它也挺费劲的。
总结
截至2025年6月6号。HeyGen的Avatar IV应该是最好的数字人产品之一。是不是目前No.1,我不敢下结论,但在前文讲到的三个竞争优势,我自己是没有找到表现更好的产品。
再强调一遍:
- 使用提示词精确控制手势
- 超快速说唱歌曲,口型匹配几乎完美,提供微表情
- 支持一分钟的直出影像,画面无任何质量衰减
所以如果这几点对你很重要,HeyGen值得一试。但我不建议任何非刚需爱好者重度氪金,对于这样有明显自己特色的产品,适当体验一下没问题,别一上来就花太多钱,没必要。
这次测试给我的感受不错,有个原因是,当工具开始让我慢慢不用折腾冗长的复杂工作流,我可以把精力更多地放在创意和音乐上。这好像也是第一次,我花在写歌的时间比视频更长。
虽然说更独特的效果一定会需要更复杂的工具,但不能否认这种简单工具能带给创作一种松弛感。就像这首Rap的名字一样:“Vibin”。
我还挺喜欢的。