当前位置:首页 > 每日看点 > 正文内容

如何评价智谱刚刚开源的文生图模型CogView4?

卡卷网1年前 (2025-03-05)每日看点215

今天,智谱开源了新的文生图模型CogView4,而且开源协议是Apache 2.0,这意味着可以直接商用

如何评价智谱刚刚开源的文生图模型CogView4?  第1张

按照官方的说法,这是「智谱2025开源年」的第一个模型:首个支持生成汉字的开源文生图模型——CogView4

但是我觉得这里的首个支持生成汉字,应该是限定为智谱所开源的首个支持生成汉字的文生图模型,因为之前快手其实已经开源了一个可生成汉字的文生图模型Kolors。

CogView4 在 DPG-Bench 基准测试中的综合评分排名第一,在开源文生图模型中达到 SOTA。DPG-Bench 基准测试是用来评估文生图模型的文本指令跟随能力,CogView4得分是85.13,超过之前DeepSeek开发布的Janus-Pro-7B。

如何评价智谱刚刚开源的文生图模型CogView4?  第2张

但是很遗憾地说,文生图模型竞争也很激烈,目前CogView4所达到的85.13在DPG-Bench并不是最好的,前段时间NVIDIA发布的Sana-1.5达到了85.0,而开源的Lumina-Image 2.0更是达到了87.2。

如何评价智谱刚刚开源的文生图模型CogView4?  第3张

另外除了DPG-Bench,官方还给出了CogView4在GenEval和T2I-CompBench两个基准测试上的性能,其中GenEval上得分是0.73,略低于Janus-Pro-7B,而在T2I-CompBench两个部分取得了最佳。

如何评价智谱刚刚开源的文生图模型CogView4?  第4张

如何评价智谱刚刚开源的文生图模型CogView4?  第5张

虽然在基准测试上CogView4并不是真正的SOTA,但是性能其实已经和SOTA很接近了,而且基准测试上的定量评估只能作为参考。我个人觉得CogView4的文本指令跟随能力应该算是第一梯队了。

CogView4相比之前的版本,将文本编码器从纯英文的 T5 encoder 换为具备双语能力的 GLM-4 encoder(GLM-4-9B),并通过中英双语图文进行训练,使模型具备双语提示词输入能力。这让CogView4能支持生成汉字,同时也能理解和遵循中文提示词。

如何评价智谱刚刚开源的文生图模型CogView4?  第6张




如何评价智谱刚刚开源的文生图模型CogView4?  第7张




如何评价智谱刚刚开源的文生图模型CogView4?  第8张



虽然CogView4不是首个支持生成汉字的开源模型,但是在文字的生成准确性上超过之前的Kolors。

如何评价智谱刚刚开源的文生图模型CogView4?  第9张

这里我们也简单聊一下CogView4的架构,CogView4也是DiT架构,不过并非MMDiT架构,而是延续了上一代的 Share-param DiT 架构,这里Attention和FFN的参数是文本和图像共享的(比MMDiT更节省参数),但为文本和图像模态分别设计独立的自适应 LayerNorm 层,以实现模态间的高效适配。架构上和CogVideoX是一致的,DiT参数量约6.4B。

如何评价智谱刚刚开源的文生图模型CogView4?  第10张

生成方法采用Flow Matching,VAE的channel=16,不过参数量为406M,比SD3和Flux的VAE要大不少。文本编码器前面说了,采用的是9B的GLM-4-9B。

CogView4支持生成512~2048分辨率图像:

如何评价智谱刚刚开源的文生图模型CogView4?  第11张

而且CogView4 突破了传统固定 token 长度的限制,允许更高的 token 上限(最长1024 tokens)。下面是一个超长提示词生成的四宫格图像:


如何评价智谱刚刚开源的文生图模型CogView4?  第12张

如何评价智谱刚刚开源的文生图模型CogView4?  第13张

CogView4的推理成本如下所示,采用4bit的文本编码器的话,只需要13GB显存就能生成1024图像。

如何评价智谱刚刚开源的文生图模型CogView4?  第14张

最后放一些实测的例子,总体评价是画质可以,但文本指令遵循能力弱于Flux。

如何评价智谱刚刚开源的文生图模型CogView4?  第15张

如何评价智谱刚刚开源的文生图模型CogView4?  第16张

如何评价智谱刚刚开源的文生图模型CogView4?  第17张

如何评价智谱刚刚开源的文生图模型CogView4?  第18张

扫描二维码推送至手机访问。

版权声明:本文由卡卷网发布,如需转载请注明出处。

本文链接:https://www.kajuan.net/ttnews/2025/03/11572.html

分享给朋友:

相关文章

有什么音乐软件可以全部免费下载歌曲?

有什么音乐软件可以全部免费下载歌曲?

作为音乐发烧友,我几乎把市面上所有的发烧碟、试音碟,全都给收藏,下载下来了!音质都是无损的,品质特别高,有5.1环绕的、有DTS的、有中文的、有英文的。大家可以看看这个音乐目录,大概有30万张专辑。有需要下载软件的朋友,可以双击屏幕,然后搓...

你有突破100个粉丝了吗?

你有突破100个粉丝了吗?

100粉已经过啦!说说怎么过的吧,最开始疯狂的写回答,写想法,关注人数在50几以下持续有两周多,每天都关注变化,都是个位数增长,后来干脆不看了。到第三周时突然一周增长了100多人,一天十几人,想想应该归功于多互动,给他人点赞评论,让自己曝光...

B 站上有哪些很好的学习资源?

B 站上有哪些很好的学习资源?

前!方!高!能!精选了多位学习Up主,不乏百万粉丝的大V,还有超多珍贵的学习资源推荐。进了小破站,完全不用担心学完了该怎么办?因为根本学不完啊!!!B站的学习干货实在太多了!语言学习葉子先生酱https://space.bilibili.c...

如何在自己家里建立一套私有云系统?需要哪些设备?

如何在自己家里建立一套私有云系统?需要哪些设备?

我敢保证,这绝对是目前为止最简单的搭建家用私有云的方法:“一台主机+至少一块硬盘”足矣!不需要任何专业知识,也没有复杂繁琐的步骤,十分钟不到就能搭建好,帮你成功打开文件云储存新世界的大门!还在单纯依靠网盘进行文件存储的朋友,不是我吐槽哈,它...

腾讯文档回收站彻底删除文件真的找不回来了吗?

趁早打电话联系腾讯文档的人可能还有救,一般这种都是数据库里标记为删除,文件还没有实际删除,然后经过一段时间后程序统一进行真删除。这个“一段时间”可长可短,可能是一小时也可能是几天几个月甚至几年,要看腾讯服务器的程序是怎么写的。不过你联系腾讯...

NAS那么好,为什么还是没能成为大多数家庭必备的存储设备?

NAS那么好,为什么还是没能成为大多数家庭必备的存储设备?

最主要原因是因为——贵!看看我家里搭建的这一套吧。目前我家中有5台常用的NAS,分别为群晖DS1522+、威联通TS-464C2、绿联DX4600 Pro 、极空间Z4S、威联通TS-AI642。个人认为,这其中的每台NAS都是时代的翘楚,...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。