乐得潇洒 LV
发表于 2025-4-8 13:04:12
这个技术路线还可以继续走一段时间. 从OpenAI放出的视频和examples来看, 应该是可以支持interleave image, audio, text. 这大概率是通过将image, audio和text都转成token, 然后autogressive输出实现的.
我个人最感兴趣的是那个3D object synthesis的example. Sora放出的时候, 我就在猜测OpenAI什么时候把Text-to-3D的市场也拿下来. 没想到会是通过这个形式. 我们仔细看一下这个例子, OpenAI通过合成一个物体的多个view[1], 然后通过3D重建来构建3D模型. 这个功能在游戏里面应该能很快用上. 从例子里面看, 感觉是可以合成无限多个view的, 只要在下一轮对话加入同样的prompt和"(view xx)".
我的感触是OpenAI的数据团队真心强. 多模态大统一的想法我估计很多研究一线的同学也想过. 但没有算力和数据去做炼丹. |
|