模型架构上用到了 采用了 Transformer 和 Full Attention 的设计用于视频生成。整体框架也是用到了主流的视频生成框架DIT,并加入了“双流到单流的机制★★★”★。在双流阶段,视频和文本 token 通过并行的 Transformer Block 独立处理,使得每个模态可以学习适合自己的调制机制而不会相互干扰★★。在单流阶段,我们将视频和文本 token 连接起来并将它们输入到后续的 Transformer Block 中进行有效的多模态信息融合。这种设计捕捉了视觉和语义信息之间的复杂交互★★,增强了整体模型性能。
虽然今年我写文章并不多★★,但是还是坚持创作了12个月★★★。微信也因此给我奖励了几千个红包封面。
这一步需要安装运行的一些依赖包。首先打开第二步下载的文件夹ComfyUI,然后打开命令行终端,运行下面的命令即可★★:
此步需要你将 ComfyUI 代码拉到本地。如果你会 Git 请在 Terminal 运行以下代码★★★,即可完成此步骤★★:
腾讯已经开源了其hunyuan video模型,效果在VBench的榜单上★,属于是开源排名第一★★,效果确实不错。(排名比hunyuan video高的基本都是闭源模型)
首先安装comfyui框架:这个框架可以部署到本地上,调整参数★,帮你生成各种各样的图片或者视频
恰巧今年AI视频生成技术这么火爆★,因此想着能不能直接用AI生成一个好看的微信红包封面呢★★?下面就是我制作的一个微信红包,感兴趣的可以领取一下哦~
说干就干!首先本着白嫖的想法,因此初步考虑直接用Comfyui制作一个视频。AI视频生成模型则用了腾讯开源的混元视频生成模型。