当前位置:首页 > 每日看点

如何评价智谱刚刚开源的文生图模型CogView4?

卡卷网1年前 (2025-03-05)每日看点253

今天,智谱开源了新的文生图模型CogView4,而且开源协议是Apache 2.0,这意味着可以直接商用

如何评价智谱刚刚开源的文生图模型CogView4?  第1张

按照官方的说法,这是「智谱2025开源年」的第一个模型:首个支持生成汉字的开源文生图模型——CogView4

但是我觉得这里的首个支持生成汉字,应该是限定为智谱所开源的首个支持生成汉字的文生图模型,因为之前快手其实已经开源了一个可生成汉字的文生图模型Kolors。

CogView4 在 DPG-Bench 基准测试中的综合评分排名第一,在开源文生图模型中达到 SOTA。DPG-Bench 基准测试是用来评估文生图模型的文本指令跟随能力,CogView4得分是85.13,超过之前DeepSeek开发布的Janus-Pro-7B。

如何评价智谱刚刚开源的文生图模型CogView4?  第2张

但是很遗憾地说,文生图模型竞争也很激烈,目前CogView4所达到的85.13在DPG-Bench并不是最好的,前段时间NVIDIA发布的Sana-1.5达到了85.0,而开源的Lumina-Image 2.0更是达到了87.2。

如何评价智谱刚刚开源的文生图模型CogView4?  第3张

另外除了DPG-Bench,官方还给出了CogView4在GenEval和T2I-CompBench两个基准测试上的性能,其中GenEval上得分是0.73,略低于Janus-Pro-7B,而在T2I-CompBench两个部分取得了最佳。

如何评价智谱刚刚开源的文生图模型CogView4?  第4张

如何评价智谱刚刚开源的文生图模型CogView4?  第5张

虽然在基准测试上CogView4并不是真正的SOTA,但是性能其实已经和SOTA很接近了,而且基准测试上的定量评估只能作为参考。我个人觉得CogView4的文本指令跟随能力应该算是第一梯队了。

CogView4相比之前的版本,将文本编码器从纯英文的 T5 encoder 换为具备双语能力的 GLM-4 encoder(GLM-4-9B),并通过中英双语图文进行训练,使模型具备双语提示词输入能力。这让CogView4能支持生成汉字,同时也能理解和遵循中文提示词。

如何评价智谱刚刚开源的文生图模型CogView4?  第6张




如何评价智谱刚刚开源的文生图模型CogView4?  第7张




如何评价智谱刚刚开源的文生图模型CogView4?  第8张



虽然CogView4不是首个支持生成汉字的开源模型,但是在文字的生成准确性上超过之前的Kolors。

如何评价智谱刚刚开源的文生图模型CogView4?  第9张

这里我们也简单聊一下CogView4的架构,CogView4也是DiT架构,不过并非MMDiT架构,而是延续了上一代的 Share-param DiT 架构,这里Attention和FFN的参数是文本和图像共享的(比MMDiT更节省参数),但为文本和图像模态分别设计独立的自适应 LayerNorm 层,以实现模态间的高效适配。架构上和CogVideoX是一致的,DiT参数量约6.4B。

如何评价智谱刚刚开源的文生图模型CogView4?  第10张

生成方法采用Flow Matching,VAE的channel=16,不过参数量为406M,比SD3和Flux的VAE要大不少。文本编码器前面说了,采用的是9B的GLM-4-9B。

CogView4支持生成512~2048分辨率图像:

如何评价智谱刚刚开源的文生图模型CogView4?  第11张

而且CogView4 突破了传统固定 token 长度的限制,允许更高的 token 上限(最长1024 tokens)。下面是一个超长提示词生成的四宫格图像:


如何评价智谱刚刚开源的文生图模型CogView4?  第12张

如何评价智谱刚刚开源的文生图模型CogView4?  第13张

CogView4的推理成本如下所示,采用4bit的文本编码器的话,只需要13GB显存就能生成1024图像。

如何评价智谱刚刚开源的文生图模型CogView4?  第14张

最后放一些实测的例子,总体评价是画质可以,但文本指令遵循能力弱于Flux。

如何评价智谱刚刚开源的文生图模型CogView4?  第15张

如何评价智谱刚刚开源的文生图模型CogView4?  第16张

如何评价智谱刚刚开源的文生图模型CogView4?  第17张

如何评价智谱刚刚开源的文生图模型CogView4?  第18张

扫描二维码推送至手机访问。

版权声明:本文由卡卷网发布,如需转载请注明出处。

本文链接:https://www.kajuan.net/ttnews/2025/03/11572.html

分享给朋友:

相关文章

怎么免费看电视地方台和央视台?

怎么免费看电视地方台和央视台?

免费看央视和地方台,办法当然有,而且太多了,我怕你挑花了眼用不过来…… 首先题主需要明确一点,你家的电视需要是基于安卓系统的智能电视,能安装第三方安卓电视软件。比如小米电视、雷鸟电视等等;如果不是,你至少需要购置一个电视盒子,比如小米电视盒…

马云也搞不明白:为什么现在用户偏爱微信支付,而不是支付宝?

这题我会,我教马云一招。 你直接把你那破比支付宝的代码全删了,重新写一个。 打开支付宝直接就是一个大大的支付码,然后右上角按一下就是扫一扫。你要是还想保留你的其他那些乱七八糟的功能,麻烦将他们全部做到下拉菜单里。你这么设计我不说你能干死微信…

有哪些网站,一旦知道,你就离不开了?

有哪些网站,一旦知道,你就离不开了?

这六个网站,一旦用过,基本上是离不开了。都是我超爱的一些网站,基本上每天都用。 1 地图生成器 第一个,我要给大家推荐的是地图生成器。可以下载到各省,各市,各县的svg格式的地图素材。 这些素材导入PPT中都是可以编辑的。 可以单独更改颜色…

用wordpress做这个网站的话,需要用到哪些插件?

一个完整成型的B2C电商独立站,如果用wordpress+woocommerce搭建,最终会用上20来个插件,而且是在经过慎重筛选,剔除不必要的插件的情况下,别问我为什么。 wordpress建站,插件安装多了,速度会变慢,这是常识,但需要…

程序员都有自己的服务器吗?

程序员都有自己的服务器吗?

2024.9. 24,有朋友咨询功耗,我没有单独给服务器弄智能插座,系统做的 esxi 也看不到,所以只能用其他角度判断供大家参考。 我有一个餐边柜改的机柜,里面白裙两盘,黑群晖 4 机械 1 mvme,一个爱快硬路由,一个联通光猫,一个…

作为一名网络工程师,每天日常工作是什么样的?

作为一名网络工程师,每天日常工作是什么样的?

先介绍下我的基本情况,本人女,不知名的网络工程师一枚,入行也有三四年了。虽然我只在代理商和集成商干过,但怎么也算是“业内人士”一枚,没吃过猪肉总见过猪跑嘛。今天,就以我经历过,或者了解过的网络工程师,来给大家介绍一下到底每天的工作日常是什么…

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。