当前位置:首页 > 每日看点 > 正文内容

如何评价智谱刚刚开源的文生图模型CogView4?

卡卷网8个月前 (03-05)每日看点125

今天,智谱开源了新的文生图模型CogView4,而且开源协议是Apache 2.0,这意味着可以直接商用

如何评价智谱刚刚开源的文生图模型CogView4?  第1张

按照官方的说法,这是「智谱2025开源年」的第一个模型:首个支持生成汉字的开源文生图模型——CogView4

但是我觉得这里的首个支持生成汉字,应该是限定为智谱所开源的首个支持生成汉字的文生图模型,因为之前快手其实已经开源了一个可生成汉字的文生图模型Kolors。

CogView4 在 DPG-Bench 基准测试中的综合评分排名第一,在开源文生图模型中达到 SOTA。DPG-Bench 基准测试是用来评估文生图模型的文本指令跟随能力,CogView4得分是85.13,超过之前DeepSeek开发布的Janus-Pro-7B。

如何评价智谱刚刚开源的文生图模型CogView4?  第2张

但是很遗憾地说,文生图模型竞争也很激烈,目前CogView4所达到的85.13在DPG-Bench并不是最好的,前段时间NVIDIA发布的Sana-1.5达到了85.0,而开源的Lumina-Image 2.0更是达到了87.2。

如何评价智谱刚刚开源的文生图模型CogView4?  第3张

另外除了DPG-Bench,官方还给出了CogView4在GenEval和T2I-CompBench两个基准测试上的性能,其中GenEval上得分是0.73,略低于Janus-Pro-7B,而在T2I-CompBench两个部分取得了最佳。

如何评价智谱刚刚开源的文生图模型CogView4?  第4张

如何评价智谱刚刚开源的文生图模型CogView4?  第5张

虽然在基准测试上CogView4并不是真正的SOTA,但是性能其实已经和SOTA很接近了,而且基准测试上的定量评估只能作为参考。我个人觉得CogView4的文本指令跟随能力应该算是第一梯队了。

CogView4相比之前的版本,将文本编码器从纯英文的 T5 encoder 换为具备双语能力的 GLM-4 encoder(GLM-4-9B),并通过中英双语图文进行训练,使模型具备双语提示词输入能力。这让CogView4能支持生成汉字,同时也能理解和遵循中文提示词。

如何评价智谱刚刚开源的文生图模型CogView4?  第6张




如何评价智谱刚刚开源的文生图模型CogView4?  第7张




如何评价智谱刚刚开源的文生图模型CogView4?  第8张



虽然CogView4不是首个支持生成汉字的开源模型,但是在文字的生成准确性上超过之前的Kolors。

如何评价智谱刚刚开源的文生图模型CogView4?  第9张

这里我们也简单聊一下CogView4的架构,CogView4也是DiT架构,不过并非MMDiT架构,而是延续了上一代的 Share-param DiT 架构,这里Attention和FFN的参数是文本和图像共享的(比MMDiT更节省参数),但为文本和图像模态分别设计独立的自适应 LayerNorm 层,以实现模态间的高效适配。架构上和CogVideoX是一致的,DiT参数量约6.4B。

如何评价智谱刚刚开源的文生图模型CogView4?  第10张

生成方法采用Flow Matching,VAE的channel=16,不过参数量为406M,比SD3和Flux的VAE要大不少。文本编码器前面说了,采用的是9B的GLM-4-9B。

CogView4支持生成512~2048分辨率图像:

如何评价智谱刚刚开源的文生图模型CogView4?  第11张

而且CogView4 突破了传统固定 token 长度的限制,允许更高的 token 上限(最长1024 tokens)。下面是一个超长提示词生成的四宫格图像:


如何评价智谱刚刚开源的文生图模型CogView4?  第12张

如何评价智谱刚刚开源的文生图模型CogView4?  第13张

CogView4的推理成本如下所示,采用4bit的文本编码器的话,只需要13GB显存就能生成1024图像。

如何评价智谱刚刚开源的文生图模型CogView4?  第14张

最后放一些实测的例子,总体评价是画质可以,但文本指令遵循能力弱于Flux。

如何评价智谱刚刚开源的文生图模型CogView4?  第15张

如何评价智谱刚刚开源的文生图模型CogView4?  第16张

如何评价智谱刚刚开源的文生图模型CogView4?  第17张

如何评价智谱刚刚开源的文生图模型CogView4?  第18张

扫描二维码推送至手机访问。

版权声明:本文由卡卷网发布,如需转载请注明出处。

本文链接:https://www.kajuan.net/ttnews/2025/03/11572.html

分享给朋友:

相关文章

下班后可以做点什么副业赚钱呢?

下班后可以做点什么副业赚钱呢?

首先说明一下,我分享的任务不需要交钱,也不需要入群,只需要你去平台学习就可以。如果有任何让你交钱,进群的任务,请警惕被割韭菜。今天给大家分享7大赚钱副业,新手小白0粉丝0门槛0技术都可以去做,不说大富大贵,但是赚个零花钱还是可以。如果你已经...

短剧推广怎么做,24年还能赚钱吗?

短剧推广怎么做,24年还能赚钱吗?

首先声明:短剧授权是免费的!短剧授权是免费的!短剧授权是免费的!其次我们再聊聊,短剧推广到底赚不赚钱?多的就不说了,随便上个图片,给大家过过瘾!然后,我们进入主题:0粉丝账号,新手,应该如何申请短剧推广!一、短剧推广变现方式首先,我们先要分...

PHP承载百万/天 访问量需要用到什么技术?

当年做一个百万PV的商城,也不过是两台2c4g的阿里云虚机罢了(其实一台就够,另外一台主要的逼着大家一定开发的时候一定要有负载均衡和横向扩容的意识)。当时框架还是Thinkphp3.2,框架提高运行效率的开关全打开,标准的lnmp模式,单机...

面试官问“你的SQL能力怎么样?”时应该如何回答?

面试官问“你的SQL能力怎么样?”时应该如何回答?

如果面试时被问你SQL能力怎么样?要么是考查一下题目,怎么写SQL语句。要么是问SQL优化相关的,更容易问出一个人的水平。sql优化是一个大家都比较关注的热门话题,无论你在面试,还是工作中,都很有可能会遇到。如果某天你负责的某个线上接口,出...

为什么程序员们愿意在GitHub上开源自己的成果给别人免费使用和学习?

开源可以垄断。人类最高的权力不是什么国家而是意识形态,能够控制别人的思维方式。你把你的东西开源出来了,其他人就会懒于思考,在这一个思考上使用你的方式。比如容器编排,经过了K8s后谁还会去开发那些奇奇怪怪的编排手段,直接用不就行了。形成了生态...

为什么说,运维是IT行业里技术含量最低的?

我是有幸从学校出来后转行进入IT运维这个行业的,有在上海这个行业幸跌爬滚打5年,目前2024年失业中......(老实说,这几年接触的人和事、有些厌烦这个行业了) 以一个过来人的角度讲讲这个岗位的心酸和无奈,也说说为什么...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。