当前位置:首页 > 每日看点 > 正文内容

如何评价智谱刚刚开源的文生图模型CogView4?

卡卷网11个月前 (03-05)每日看点181

今天,智谱开源了新的文生图模型CogView4,而且开源协议是Apache 2.0,这意味着可以直接商用

如何评价智谱刚刚开源的文生图模型CogView4?  第1张

按照官方的说法,这是「智谱2025开源年」的第一个模型:首个支持生成汉字的开源文生图模型——CogView4

但是我觉得这里的首个支持生成汉字,应该是限定为智谱所开源的首个支持生成汉字的文生图模型,因为之前快手其实已经开源了一个可生成汉字的文生图模型Kolors。

CogView4 在 DPG-Bench 基准测试中的综合评分排名第一,在开源文生图模型中达到 SOTA。DPG-Bench 基准测试是用来评估文生图模型的文本指令跟随能力,CogView4得分是85.13,超过之前DeepSeek开发布的Janus-Pro-7B。

如何评价智谱刚刚开源的文生图模型CogView4?  第2张

但是很遗憾地说,文生图模型竞争也很激烈,目前CogView4所达到的85.13在DPG-Bench并不是最好的,前段时间NVIDIA发布的Sana-1.5达到了85.0,而开源的Lumina-Image 2.0更是达到了87.2。

如何评价智谱刚刚开源的文生图模型CogView4?  第3张

另外除了DPG-Bench,官方还给出了CogView4在GenEval和T2I-CompBench两个基准测试上的性能,其中GenEval上得分是0.73,略低于Janus-Pro-7B,而在T2I-CompBench两个部分取得了最佳。

如何评价智谱刚刚开源的文生图模型CogView4?  第4张

如何评价智谱刚刚开源的文生图模型CogView4?  第5张

虽然在基准测试上CogView4并不是真正的SOTA,但是性能其实已经和SOTA很接近了,而且基准测试上的定量评估只能作为参考。我个人觉得CogView4的文本指令跟随能力应该算是第一梯队了。

CogView4相比之前的版本,将文本编码器从纯英文的 T5 encoder 换为具备双语能力的 GLM-4 encoder(GLM-4-9B),并通过中英双语图文进行训练,使模型具备双语提示词输入能力。这让CogView4能支持生成汉字,同时也能理解和遵循中文提示词。

如何评价智谱刚刚开源的文生图模型CogView4?  第6张




如何评价智谱刚刚开源的文生图模型CogView4?  第7张




如何评价智谱刚刚开源的文生图模型CogView4?  第8张



虽然CogView4不是首个支持生成汉字的开源模型,但是在文字的生成准确性上超过之前的Kolors。

如何评价智谱刚刚开源的文生图模型CogView4?  第9张

这里我们也简单聊一下CogView4的架构,CogView4也是DiT架构,不过并非MMDiT架构,而是延续了上一代的 Share-param DiT 架构,这里Attention和FFN的参数是文本和图像共享的(比MMDiT更节省参数),但为文本和图像模态分别设计独立的自适应 LayerNorm 层,以实现模态间的高效适配。架构上和CogVideoX是一致的,DiT参数量约6.4B。

如何评价智谱刚刚开源的文生图模型CogView4?  第10张

生成方法采用Flow Matching,VAE的channel=16,不过参数量为406M,比SD3和Flux的VAE要大不少。文本编码器前面说了,采用的是9B的GLM-4-9B。

CogView4支持生成512~2048分辨率图像:

如何评价智谱刚刚开源的文生图模型CogView4?  第11张

而且CogView4 突破了传统固定 token 长度的限制,允许更高的 token 上限(最长1024 tokens)。下面是一个超长提示词生成的四宫格图像:


如何评价智谱刚刚开源的文生图模型CogView4?  第12张

如何评价智谱刚刚开源的文生图模型CogView4?  第13张

CogView4的推理成本如下所示,采用4bit的文本编码器的话,只需要13GB显存就能生成1024图像。

如何评价智谱刚刚开源的文生图模型CogView4?  第14张

最后放一些实测的例子,总体评价是画质可以,但文本指令遵循能力弱于Flux。

如何评价智谱刚刚开源的文生图模型CogView4?  第15张

如何评价智谱刚刚开源的文生图模型CogView4?  第16张

如何评价智谱刚刚开源的文生图模型CogView4?  第17张

如何评价智谱刚刚开源的文生图模型CogView4?  第18张

扫描二维码推送至手机访问。

版权声明:本文由卡卷网发布,如需转载请注明出处。

本文链接:https://www.kajuan.net/ttnews/2025/03/11572.html

分享给朋友:

相关文章

什么样的网站能快速捕获你的心?

什么样的网站能快速捕获你的心?

大家好,我是程序员鱼皮。大家如果平时使用网站或产品时出现了问题,一般都会去寻找 “联系客服” 的位置,从而获得人工的帮助。我们团队的面试刷题产品 - 面试鸭最近就遇到了这样一个难题:明明我们网站右下角就有联系客服按钮、而且我们每道面试题目下...

是什么原因让你一定要用 iPhone?

是什么原因让你一定要用 iPhone?

1、不用清理内存,iPhone真的可以开机用上一年,你根本不用关注期间打开过什么软件。2、支持的频段足够多,天天在国内走动倒是无所谓,很多Android手机一旦出去了,就会发现很多运营商接入都是问题,更不用说各种本土化的服务了。3、屏幕素质...

为什么现在 AI 已经没啥热度了?

从改名叫大模型那一刻,懂行的就已经放弃了,剩下资本和无知网友还有点后劲所谓大模型,本质就是一个更大、更快数据库的传声筒。更大更快本身确实很厉害,但依然只是传声筒,和AI根本不沾边数据库之外仍然一无所知,甚至数据库之内的输出逻辑还要依赖大量人...

曾经很火的迅雷,为什么现在不怎么火了?

曾经很火的迅雷,为什么现在不怎么火了?

3年前,迅雷推出了一项服务,只要2899元就可以享受迅雷终身会员。这个终身会员和付费会员没有区别,付费会员的离线加速、云空间等服务,终身会员都具备。除此之外,终身会员可以在使用1年后就可以全额退款,使用2年后也可以全额退款,使用5年后也是如...

我真的需要有人帮我选耳机!!如何挑选第一款头戴式耳机?

我真的需要有人帮我选耳机!!如何挑选第一款头戴式耳机?

挑选第一款头戴式耳机时,应综合考虑多个因素。‌首要考虑的是佩戴舒适度,其次是音质、降噪效果、续航能力和蓝牙版本‌。‌佩戴舒适度‌:选择轻量化设计,单耳重量不超过200克,材质柔软透气,如亲肤仿蛋白皮,以提升佩戴舒适度。‌音质‌:大尺寸的音频...

如何建一个安全的个人nas?

如何建一个安全的个人nas?

群晖被入侵了晚上一进群晖,好家伙,这么多IP想用admin登录我的群晖。我群晖是直接连在互联网上的,虽然我的密码是强密码,大小写字母加数字还有特殊字符,想要攻破有点儿难,但天天看着这些警告也是挺烦人的,而且说不定群晖里面安装的软件一多,可能...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。