最近 AI 绘画和 AI 视频都挺热闹的,AI 绘画有新鲜出炉的 SD3.5,AI 视频有智谱开源的 CogVideoX,快手的 Pyramid-Flow 以及 360 推出的 FancyVideo 以及我们今天要介绍的 Genmo 开源的 Mochi 1。
Mochi 是一种基于 Asymmetric Diffusion Transformer(AsymmDiT)架构的视频生成模型,该模型有 100 亿个参数,应该是目前公开发布的规模最大的开源视频生成模型了。
Genmo 发布了 Mochi 1 预览版,今天我们就来体验一下!
好了,话不多说,我们直接开整!
<hr/>说实话,效果是真的不错,但是生成视频也真的是慢!生成 848 * 480 分辨率的 6s 视频需要 15 分钟。
好了,先来看效果,然后我们再介绍怎么如何使用!提示词:The camera follows the back of a woman with long hair as she runs, capturing the strands as they whip and flow dynamically in the wind.
提示词:A close-up shot of a young woman&#39;s face during sunset, with soft lighting highlighting her features. Her eyes well up with tears, and her lips quiver slightly, revealing suppressed emotions. The camera gradually zooms in, emphasizing the fine details of her face, finally focusing on her tear-filled eyes.
提示词:A vintage teddy bear on a child&#39;s bed blinks to life as golden sunlight filters through lace curtains, with the camera pulling back to reveal the bear becoming animated.
提示词:A wide shot of a unicorn peacefully grazing in a lush, enchanted forest. The camera captures the unicorn’s shimmering coat, the magical glow of the surrounding flora, and the serene atmosphere of the scene.
提示词:A medium shot of a dog sitting vigilantly beside a sleeping child, its head resting on the bed. The camera captures the dog’s protective stance, the peaceful expression of the child, and the warm light filtering into the room.
提示词:A close-up shot of a child bursting into joyous laughter as colorful confetti rains down. The camera captures the pure delight and sparkle in their eyes, creating a heartwarming and shareable moment
怎么样,还是相当不错的吧,不仅运动幅度很大,而且细节也很到位。篇幅的关系,我们就先演示这么多了。
好了,接下来我们来看看具体如何使用,使用的工具主要还是 ComfyUI,需要显存大小,使用 Q4 量化版本模型的话,需要 12G 以上,并且分辨率只能低于 480P。
全量版本生成 480P 则需要 17G 以上的显存。
如果配置不够或者嫌本地安装麻烦的小伙伴,文末也会提供线上体验地址。ComfyUI 插件地址:https://github.com/kijai/ComfyUI-MochiWrapper 插件还没有收录到 ComfyUI 管理器,所以需要我们通过 Git URL 手动下载,如果是秋叶版启动器的小伙伴也可以直接在客户端-版本管理-安装新扩展进行安装。
插件作者提供了两个模型加载节点,一个可以自动下载模型,一个需要我们手动下载模型,两种工作流以及需要的模型听雨都会放在文末的网盘里,需要的小伙伴自取。
以下其中一个工作流,除了模型加载节点不一样以外,其他节点都是一样的。
我们来看下两个主要的节点吧,以下这个节点主要就是调整我们视频的分辨率以及视频时长的地方,「num_frames」越大则生成视频的时长越长。分辨率越大则占用的显存越高。
接下来我们再来看下模型加载节点,其实插件安装好并且下载好模型以后,已经可以使用了,但是加载模型节点中「attention_mode」参数默认使用的是「sdpa」,速度非常慢,出一个 480p 的 6s 视频需要 25 分钟以上。
想要出视频更快,我们就需要把模式切换到「sage_attn」,视频生成速度节省 10 分钟,只需要 15 分钟,虽然还是很慢,但是相比 25 分钟还是快很多了。
直接选择 sage_attn 模式会报错,我们还需要单独安装一些依赖。
首先找到我们的 python 目录,一般就在我们的 ComfyUI 目录下,然后地址栏输入 cmd,敲回车。
然后输入以下命令进行安装,安装之前也可以先查看下是否有安装,把 install 改成 show 就可以了。python.exe -s -m pip install sageattention
秋叶版的话,直接在环境维护中的重装单个 Python 组件中输入 sageattention 安装就可以了。
除此之外,还需要安装 triton,这个稍微复杂一些,首先我们需要在以下链接中找到和我们的 python 版本对应的安装文件。https://github.com/woct0rdho/triton-windows/releases/tag/v3.1.0-windows.post5 比如听雨这里是 python310,那我们就找到 triton 对应的 310 的安装文件,然后把文件复制到我们的 pyhton 文件下,如果对 python 操作了解的小伙伴就随便放就好了。
然后回到我们刚才打开的 cmd 界面,输入以下的命令,敲回车进行安装。python.exe -s -m pip install triton-3.1.0-cp310-cp310-win_amd64.whl
然后重启我们的 ComfyUI 就可以使用「sage_attn」这个模式了。
如果嫌麻烦的小伙伴也可以直接去 Mochi 的官网进行体验:https://www.genmo.ai/play 听雨总的体验下来还是非常不错的,尤其是提示词遵循方面很不错,运动幅度也很大,包括视频的流畅度以及物理世界模拟上来讲也是相当不错,细节也很真实到位,就是出视频太慢了。
好了,今天的分享就到这里了,感兴趣的小伙伴快去试试吧!网盘链接:https://pan.quark.cn/s/fa37812ce665 <hr/>我是听雨,专注于 AI 绘画以及 AI 工具分享,更多内容可以进我的个人主页查看,欢迎来一起交流。
如果觉得文章有帮助,请帮忙点赞收藏关注一下呦~ |
|