LesaH-3 LV
发表于 2025-4-16 10:57:19
因为目前来看LLM落地的实用性就是比diffusion要大很多。
LLM相关的这些市面上的产品,大到各大厂商公布的闭源模型服务(交互界面、API调用等等),小到各个小公司围绕闭源模型/内部基模搭建的垂类应用,都是大家看得见、摸得着的AI产品,而且是确确实实给我们现在的生活带来影响的。
通过ChatGPT进行交互
举几个简单的例子,以前我们对于某个生活常识有不懂的地方,第一时间应该是“问问百度”,现在则是“看下AI怎么解释”,基本上90%的生活常识LLM产品通过联网都能够很好地满足需求,其他一些你看不到用途,包括但不限于:电子邮件起草、翻译、OCR需求、PDF内容分析、手机/电脑里的智能助手、高校学生的大作业报告、研究生论文撰写参考、高效教职人员基金本子申请书的撰写,等等等等。但凡一个需求拿出来,LLM产品都是实实在在的生产力,这一点相信应该是毋庸置疑的。
今年年初炒得非常热得DeepSeek就是一个很好的例子,大家发现DeepSeek“锐评”的评测效果非常好,也是一度引发了非常多有意思的段子。即使是这样,也比diffusion相关的实际应用场景更加广泛。
DeepSeek R1-Zero
反观diffusion呢,除开对于美工、设计行业的帮助比较大,正常工作的人真正会有很多需求需要根据一句话去生成图像结果吗?个人感觉这一点需求不够硬。抛开这一点不谈,应用本身的效果也处于一个“高不成,低不就”的尴尬位置,如果说需要根据一句话一步生成一张流程图、海报,diffusion相关的产品又没法一步登天,剩下生成的内容能够应用的场景相比于LLM产品就窄了很多了。本质上还是不能够实实在在地提升生产力,市场是客观的,消费者对于diffusion产品的需求更少,大厂自然也就没必要在这上面浪费太多的资源了。
回到DeepSeek的例子上,想要diffusion提供简单的“情绪价值”,恐怕都不是一件容易做到的事情——即使是生成一张想要的图片,往往也要调random seed去“抽卡”——高下立判之下可以看到二者应用面的不同之处了吧。
基于diffusion model的FLUX生成的图片结果 |
|