当前位置:首页 > 每日看点

isscc 2025放榜在即,有什么小道消息吗?

卡卷网1年前 (2025-03-10)每日看点440

嗯,新开一个系列吧。上网冲个浪,读读2025年ISSCC论文。挑了自己感兴趣,离业界近点儿的。技术每年都在迭代,如果不刻意看,还挺难追上潮流的。

不妨从最后一章看看,37.7。

37.1 IBM的一个DTCO的工作

这是一款8核、5.5GHz的5nm 工艺处理器。三星的工艺,芯片面积600m2,实际上diesize很大了。工业界的文章,写的都很简略,只能大致理解一下。

所谓DTCO,看下图。

IBM来设计,属于design方,samsung属于工艺方,technology。

isscc 2025放榜在即,有什么小道消息吗?  第1张

先说最容易落地的东西,电路层,0-state pulsed latch。

主要新鲜的东西是一个叫0-state pulsed latch的东西。它的主要作用是在数据保持 0 状态时,减少时钟功耗,同时保持高性能。主要原理是降低时钟上连着的管子数,以降低时钟树功耗。

如下图,相比于传统的latch, clock上连着的逻辑门从6个变成了3个。

isscc 2025放榜在即,有什么小道消息吗?  第2张

然后还有个static latch。在0-state latch的基础上加了一条反馈环路。进一步降低功耗。

isscc 2025放榜在即,有什么小道消息吗?  第3张

isscc 2025放榜在即,有什么小道消息吗?  第4张

结果如上图,能大幅减少0状态下的功耗。论文说减少了时序逻辑功耗20%+,总功耗减少了3%。

然后既然是pulsed-latch, 就得有对应的clock pulse单元。这个点文章说的没有太清楚,我理解是采用了较激进的latch gating策略。让locak clock buffer (LCB)后面接上更多的latch。从而通过减少LCB来减少clock功耗。

isscc 2025放榜在即,有什么小道消息吗?  第5张

个人总结,pulsed-latch在CPU领域好像大家都想用用。毕竟时序功耗有优势。但是pulse生成单元一向是个难点,如何能不长不短的生成需要的pulse, 能抗的住工艺的波动,不出现可靠性问题或者干脆杀良没有大量经验怕是不好把握。

particle-aware latch placement

主要用来提高可靠性的。想法很简单,latch会因为粒子冲击等等原因失效,尽量同属于一个奇偶校验组的latch摆在不同的位置。

isscc 2025放榜在即,有什么小道消息吗?  第6张

前提是你的SRAM/latch banks里有奇偶校验位。加入奇偶校验会额外增加一部分成本,所以需要根据良率来看,是不是要加奇偶校验。

DFM Optimization

主要是识别制造过程中的pattern敏感的规则,来提升良率。大部分都是下面这种boundary keepouts。

isscc 2025放榜在即,有什么小道消息吗?  第7张

Complex cell

前面我实际上有文章讲过,mega cell, 或者complex cell。用工具不断迭代stdcell, 最后达到一个比较好的PPA。

isscc 2025放榜在即,有什么小道消息吗?  第8张

主要是这么一个过程。这个过程迭代起来实际上挺慢的,主要收益在面积,功耗和timing的收益比较难拿到。

最后他们做了250个complex cell。不过这个东西是真的难缠。EDA工具对复杂的cell支持要好。否则复杂的cell pin多,后端placement做出来一堆congestion,消还是不消?Orz...

然后就是硅验证问题。自动化设计的cell如果不对工具觉得信任无法直接上产品,需要硅验证,从而让迭代速度更慢了。不过吹尽黄沙始到金,如果真的下大力气优化实际上是能拿到收益的。

Standard cell/工艺参数优化

下面这个东西就属于真正的DTCO领域。很可能需要在工艺开发前pathfinding阶段就要定稿。否则后期很难改。

7nm时要求M2的signal tracks必须和poly对齐, 输入pin还是垂直的,导致一个pin实际上只能用一个M2 track。5nm的时候允许在两个有源区中间放这种横跨多个poly的pin。提高了M2的使用效率。

isscc 2025放榜在即,有什么小道消息吗?  第9张

同时增加了M2 tracks, 最后有10-15%面积收益。

下面是放了一张图,没有多少文字介绍。应该是允许M2有两种grid。在SRAM区域提升粗线的利用效率。 有看懂的同学可以评论区讨论一下。

isscc 2025放榜在即,有什么小道消息吗?  第10张

isscc 2025放榜在即,有什么小道消息吗?  第11张

最后贴一张效果图。大幅降低了时序逻辑功耗。最终性能变强,功耗没增大太多。

isscc 2025放榜在即,有什么小道消息吗?  第12张

emmm, 这篇DTCO文章大致如此,总结起来就是财大气粗,工艺方也愿意陪着CPU他们这么玩。正常人属于戴着镣铐跳舞,他们认识狱卒,显然是忘带了。

37.4 一篇3D的interposer

复旦的文章。不得不说,现在ISSCC论文中国是真多。我读博的时候整个大陆也没几篇ISSCC。。。

isscc 2025放榜在即,有什么小道消息吗?  第13张

说的还是现在大芯片的一种普遍办法, chiplet。

讲了一下现在芯片的几个主要问题。

可重用性(Reusability)
传统 TSV 互连结构是 固定设计,难以适应不同芯片(chiplets)组合,每次都需重新开发,增加 NRE(非经常性工程)成本

3D 存储管理(3D Underdeck Memory Management)
memory 3D堆叠起来才能有更好的效能和scalability。

isscc 2025放榜在即,有什么小道消息吗?  第14张

可变带宽需求(Reconfigurable Bandwidth)
不同计算任务的数据流量不同,但固定上/下行带宽无法动态适配,导致通信瓶颈或资源浪费。

然后他们提出来了个一个叫SHINSAI Active TSV interposer的东西。

isscc 2025放榜在即,有什么小道消息吗?  第15张

主要有3个feature。先看第一个。

Heterogeneous Dual-Layer NoAI

主要说了数据交换的两种方法,packet switch和circuit switching。简单来讲。

  • 分组交换(Packet Switching):用于 V-Link(3D 垂直互连)
  • 电路交换(Circuit Switching):用于 H-Link(2.5D 横向互连)

isscc 2025放榜在即,有什么小道消息吗?  第16张

第二点是Hlink。

整体思路是类似FPGA一样,通过configuration cross bar 把chiplet连接起来。

isscc 2025放榜在即,有什么小道消息吗?  第17张


第三点是Vlink。

V-Link 采用 Packet Switching(分组交换),数据传输流程如下:

  • 发送端(源芯片)将数据拆分为小数据包(Packets)
  • 每个数据包携带 目的地址 + 控制信息
  • 通过 V-Link 网络路由,动态选择传输路径
  • 目的芯片接收数据包,并重新组装完整数据

channel路径是可以重构的。如下图。

isscc 2025放榜在即,有什么小道消息吗?  第18张

总结起来这篇文章还挺偏工业的。主体思想是再2D方向把chiplet作为一个小单元,用类似于FPGA的方法连接起来,在3D方向堆叠memory。试图搞一个可编程的基板出来。想法还挺不错。

个人看法,和不同公司开发模式有关。一般来讲公司成熟的产品都是一代代迭代,工艺也是一代代换。代际之间如果不是大更新,改动实际上不大,都是增量开发,router大概率是不会有大变化的,一个可编程的interposer会影响PPA, 不太可能搞成可编程的。不过考虑现在AI模型也是一天一个样,这种特性有可能还是有用武之地。

37.7 GPS采集加速器

这文章主要有意思的点是FFT计算。大点数的FFT基拆成小点数多轮计算会损失精度。所以这里面存在一个权衡问题。

isscc 2025放榜在即,有什么小道消息吗?  第19张

如图,16点FFT拆成4级基2和2级基4, 后者计算级数更小,但是精度更高。

文章研究了一下,1024的FFT拆成不同计算精度后情况。

isscc 2025放榜在即,有什么小道消息吗?  第20张

如上图,右上角的配置精度够,计算效率不高。左下角的配置精度够。但计算效率比较高。最后作者发现用基8和基16的单元效率最好。这个应该属于常规做法。

下面来看具体的计算架构。

再看看乘以旋转因子的电路。假设旋转因子是32bit的,对比了一下先量化再乘,和先乘再量化的结果。

isscc 2025放榜在即,有什么小道消息吗?  第21张

显然右面这个精度高。。。不过这个比较的似乎就有点不太公平。右面拿乘法器面积换的精度。显然精度高。

然后文章做了一个特殊优化,由于它这个input只有3bit,还是signed的,除去符号位实际行只有0,1,2,3四个值。所以乘法器干脆直接用ROM代替了。类似于一个查找表。注意的是这种方法在精度稍高的FFT里用不了的。ROM会非常大。

接下来是这个MUX的设计。

isscc 2025放榜在即,有什么小道消息吗?  第22张

较为专用,由于只索引3个值,在bitline上的这几个晶体管可以让bitline电压降低到VDD-Vt, 文章说能降23.7%的功耗。

然后和上面配套的问题,上面算出来的值如果是负值,没必要接下来算addtree的时候取反加一。直接把符号位给倒过来。这样的好处是不处理负数了。直接加个偏置,让正负数都变成正数。少了负数处理的一级取反加一。

isscc 2025放榜在即,有什么小道消息吗?  第23张

这个方法倒是可以尝试利用,目前看来成本并不大。电路中取反加一虽然看着就是一个负号,但是实实在在存在一个进位链。

接着来看整体架构。放了8份PE,每个PE处理一个基8。最大并行处理64个点。

isscc 2025放榜在即,有什么小道消息吗?  第24张

然后看这个结构,存在一个输入BUF,一个输入BUF。双buf的结构。FFT倒序简单了很多。这个地方设计有很多变种。如果性能要求不高,这个IBUF和OBUF能合一。IFFT之间的倒序主要靠OBUF。行写列读。TSRAM。

isscc 2025放榜在即,有什么小道消息吗?  第25张

主要看上面这个transposed memory。左面示意图是原来那种靠多bank倒序的方法。

第二级取的时候这么取。

isscc 2025放榜在即,有什么小道消息吗?  第26张

这么做的好处显而易见。不用分多个bank。不过也仅限于性能低的FFT core。如果性能高的FFT core, 本身数据位宽就很大。如果不分bank, 这个bank必然做出来有点奇怪,属于长条形的bank。

而且做到一起,如果工艺还不稳定,会影响良率。不过anyway, 对于文章这种应用场景来说确实非常适合。

实际上,文章里有部分代价没说。outbuf往inputbuf里搬运成本也不小,功耗,面积都得有。相当于一个shffle。

isscc 2025放榜在即,有什么小道消息吗?  第27张

看这张图右面这个东西。总之,用单bank的结构和多bank的结构各有千秋,目前看起来如果性能要求低可以尝试单bank。否则老老实实多bank也没什么不好。

基本上这篇文章就这些东西。

总结

这个session主要是一片DTCO和一些专有领域的accelerator。挑了几篇看看。下午继续。。

扫描二维码推送至手机访问。

版权声明:本文由卡卷网发布,如需转载请注明出处。

本文链接:https://www.kajuan.net/ttnews/2025/03/11829.html

分享给朋友:

相关文章

你有突破100个粉丝了吗?

你有突破100个粉丝了吗?

100粉已经过啦! 说说怎么过的吧,最开始疯狂的写回答,写想法,关注人数在50几以下持续有两周多,每天都关注变化,都是个位数增长,后来干脆不看了。 到第三周时突然一周增长了100多人,一天十几人,想想应该归功于多互动,给他人点赞评论,让自己…

你手机里有哪些堪称神器的 App?

你手机里有哪些堪称神器的 App?

嗨嗨,我是赢酱~ 首先我认为对于我们有用的提升自我的都是手机里的神器 App。 一个人应该什么样子呢?在我从女孩子的角度看来,自律,上进,会打扮,情商高,会挣钱,独立,落落大方,这才是应该有的样子,我们可以借助手机不断学习改变 今天给大家准…

计算机专业不干互联网不热爱技术,还能转行干什么?

转行的思路,无非也就是那几个。 我们顺着每个思路,一路捋一遍,基本上,大致可行的方向,也就有了。 一、跟对口职业和岗位业务链条相邻的职业和岗位计算机专业如果找到了对口的技术岗位,跟技术工作联系最紧密的岗位是什么? 产品经理。当然,大多数产品…

为什么这次 Mac mini 的 M4 版本价格这么低?

为什么这次 Mac mini 的 M4 版本价格这么低?

扫了一眼这里的回答,目测没几个人真买过 Macbook、Mac mini且真正当主力工作机用过。 这个初始(丐版)版本的机器实际谈不上多便宜,备受热捧有几个原因。 它这代产品整体做了重新设计,大幅缩减了尺寸,真正称得上 Mini 了。…

为什么雷军身上没有酒色财气?

武大建校130周年时,雷军向母校个人捐款13亿。 在2023年8月14日晚上七点,雷总在国家会议中心举行的进行第四次年度演讲「成长」: 全篇都在谈成长、梦想,这么多年了,始终做到了知行合一,我相信酒色财气可能真不是他所追求的,一直追求的就像…

有没有能够兼顾便携并且流畅运行各种AI应用的笔记本?求推荐?

有没有能够兼顾便携并且流畅运行各种AI应用的笔记本?求推荐?

看了下题主的描述,可以考虑「联想YOGA Air 15 Aura AI元启版」,今年9月底出的一款轻薄本,也通过了英特尔Evo严苛认证。 处理器用了英特尔最新的「酷睿 Ultra 7 258V」,主要亮点就是AI性能、图形处理能力和能效,很…

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。