isscc 2025放榜在即,有什么小道消息吗?
作者:卡卷网发布时间:2025-03-10 21:19浏览数量:190次评论数量:0次
嗯,新开一个系列吧。上网冲个浪,读读2025年ISSCC论文。挑了自己感兴趣,离业界近点儿的。技术每年都在迭代,如果不刻意看,还挺难追上潮流的。
不妨从最后一章看看,37.7。
37.1 IBM的一个DTCO的工作
这是一款8核、5.5GHz的5nm 工艺处理器。三星的工艺,芯片面积600m2,实际上diesize很大了。工业界的文章,写的都很简略,只能大致理解一下。
所谓DTCO,看下图。
IBM来设计,属于design方,samsung属于工艺方,technology。
先说最容易落地的东西,电路层,0-state pulsed latch。
主要新鲜的东西是一个叫0-state pulsed latch的东西。它的主要作用是在数据保持 0 状态时,减少时钟功耗,同时保持高性能。主要原理是降低时钟上连着的管子数,以降低时钟树功耗。
如下图,相比于传统的latch, clock上连着的逻辑门从6个变成了3个。
然后还有个static latch。在0-state latch的基础上加了一条反馈环路。进一步降低功耗。
结果如上图,能大幅减少0状态下的功耗。论文说减少了时序逻辑功耗20%+,总功耗减少了3%。
然后既然是pulsed-latch, 就得有对应的clock pulse单元。这个点文章说的没有太清楚,我理解是采用了较激进的latch gating策略。让locak clock buffer (LCB)后面接上更多的latch。从而通过减少LCB来减少clock功耗。
个人总结,pulsed-latch在CPU领域好像大家都想用用。毕竟时序功耗有优势。但是pulse生成单元一向是个难点,如何能不长不短的生成需要的pulse, 能抗的住工艺的波动,不出现可靠性问题或者干脆杀良没有大量经验怕是不好把握。
particle-aware latch placement
主要用来提高可靠性的。想法很简单,latch会因为粒子冲击等等原因失效,尽量同属于一个奇偶校验组的latch摆在不同的位置。
前提是你的SRAM/latch banks里有奇偶校验位。加入奇偶校验会额外增加一部分成本,所以需要根据良率来看,是不是要加奇偶校验。
DFM Optimization
主要是识别制造过程中的pattern敏感的规则,来提升良率。大部分都是下面这种boundary keepouts。
Complex cell
前面我实际上有文章讲过,mega cell, 或者complex cell。用工具不断迭代stdcell, 最后达到一个比较好的PPA。
主要是这么一个过程。这个过程迭代起来实际上挺慢的,主要收益在面积,功耗和timing的收益比较难拿到。
最后他们做了250个complex cell。不过这个东西是真的难缠。EDA工具对复杂的cell支持要好。否则复杂的cell pin多,后端placement做出来一堆congestion,消还是不消?Orz...
然后就是硅验证问题。自动化设计的cell如果不对工具觉得信任无法直接上产品,需要硅验证,从而让迭代速度更慢了。不过吹尽黄沙始到金,如果真的下大力气优化实际上是能拿到收益的。
Standard cell/工艺参数优化
下面这个东西就属于真正的DTCO领域。很可能需要在工艺开发前pathfinding阶段就要定稿。否则后期很难改。
7nm时要求M2的signal tracks必须和poly对齐, 输入pin还是垂直的,导致一个pin实际上只能用一个M2 track。5nm的时候允许在两个有源区中间放这种横跨多个poly的pin。提高了M2的使用效率。
同时增加了M2 tracks, 最后有10-15%面积收益。
下面是放了一张图,没有多少文字介绍。应该是允许M2有两种grid。在SRAM区域提升粗线的利用效率。 有看懂的同学可以评论区讨论一下。
最后贴一张效果图。大幅降低了时序逻辑功耗。最终性能变强,功耗没增大太多。
emmm, 这篇DTCO文章大致如此,总结起来就是财大气粗,工艺方也愿意陪着CPU他们这么玩。正常人属于戴着镣铐跳舞,他们认识狱卒,显然是忘带了。
37.4 一篇3D的interposer
复旦的文章。不得不说,现在ISSCC论文中国是真多。我读博的时候整个大陆也没几篇ISSCC。。。
说的还是现在大芯片的一种普遍办法, chiplet。
讲了一下现在芯片的几个主要问题。
可重用性(Reusability):
传统 TSV 互连结构是 固定设计,难以适应不同芯片(chiplets)组合,每次都需重新开发,增加 NRE(非经常性工程)成本。
3D 存储管理(3D Underdeck Memory Management):
memory 3D堆叠起来才能有更好的效能和scalability。
可变带宽需求(Reconfigurable Bandwidth):
不同计算任务的数据流量不同,但固定上/下行带宽无法动态适配,导致通信瓶颈或资源浪费。
然后他们提出来了个一个叫SHINSAI Active TSV interposer的东西。
主要有3个feature。先看第一个。
Heterogeneous Dual-Layer NoAI
主要说了数据交换的两种方法,packet switch和circuit switching。简单来讲。
- 分组交换(Packet Switching):用于 V-Link(3D 垂直互连)
- 电路交换(Circuit Switching):用于 H-Link(2.5D 横向互连)
第二点是Hlink。
整体思路是类似FPGA一样,通过configuration cross bar 把chiplet连接起来。
第三点是Vlink。
V-Link 采用 Packet Switching(分组交换),数据传输流程如下:
- 发送端(源芯片)将数据拆分为小数据包(Packets)
- 每个数据包携带 目的地址 + 控制信息
- 通过 V-Link 网络路由,动态选择传输路径
- 目的芯片接收数据包,并重新组装完整数据
channel路径是可以重构的。如下图。
总结起来这篇文章还挺偏工业的。主体思想是再2D方向把chiplet作为一个小单元,用类似于FPGA的方法连接起来,在3D方向堆叠memory。试图搞一个可编程的基板出来。想法还挺不错。
个人看法,和不同公司开发模式有关。一般来讲公司成熟的产品都是一代代迭代,工艺也是一代代换。代际之间如果不是大更新,改动实际上不大,都是增量开发,router大概率是不会有大变化的,一个可编程的interposer会影响PPA, 不太可能搞成可编程的。不过考虑现在AI模型也是一天一个样,这种特性有可能还是有用武之地。
37.7 GPS采集加速器
这文章主要有意思的点是FFT计算。大点数的FFT基拆成小点数多轮计算会损失精度。所以这里面存在一个权衡问题。
如图,16点FFT拆成4级基2和2级基4, 后者计算级数更小,但是精度更高。
文章研究了一下,1024的FFT拆成不同计算精度后情况。
如上图,右上角的配置精度够,计算效率不高。左下角的配置精度够。但计算效率比较高。最后作者发现用基8和基16的单元效率最好。这个应该属于常规做法。
下面来看具体的计算架构。
再看看乘以旋转因子的电路。假设旋转因子是32bit的,对比了一下先量化再乘,和先乘再量化的结果。
显然右面这个精度高。。。不过这个比较的似乎就有点不太公平。右面拿乘法器面积换的精度。显然精度高。
然后文章做了一个特殊优化,由于它这个input只有3bit,还是signed的,除去符号位实际行只有0,1,2,3四个值。所以乘法器干脆直接用ROM代替了。类似于一个查找表。注意的是这种方法在精度稍高的FFT里用不了的。ROM会非常大。
接下来是这个MUX的设计。
较为专用,由于只索引3个值,在bitline上的这几个晶体管可以让bitline电压降低到VDD-Vt, 文章说能降23.7%的功耗。
然后和上面配套的问题,上面算出来的值如果是负值,没必要接下来算addtree的时候取反加一。直接把符号位给倒过来。这样的好处是不处理负数了。直接加个偏置,让正负数都变成正数。少了负数处理的一级取反加一。
这个方法倒是可以尝试利用,目前看来成本并不大。电路中取反加一虽然看着就是一个负号,但是实实在在存在一个进位链。
接着来看整体架构。放了8份PE,每个PE处理一个基8。最大并行处理64个点。
然后看这个结构,存在一个输入BUF,一个输入BUF。双buf的结构。FFT倒序简单了很多。这个地方设计有很多变种。如果性能要求不高,这个IBUF和OBUF能合一。IFFT之间的倒序主要靠OBUF。行写列读。TSRAM。
主要看上面这个transposed memory。左面示意图是原来那种靠多bank倒序的方法。
第二级取的时候这么取。
这么做的好处显而易见。不用分多个bank。不过也仅限于性能低的FFT core。如果性能高的FFT core, 本身数据位宽就很大。如果不分bank, 这个bank必然做出来有点奇怪,属于长条形的bank。
而且做到一起,如果工艺还不稳定,会影响良率。不过anyway, 对于文章这种应用场景来说确实非常适合。
实际上,文章里有部分代价没说。outbuf往inputbuf里搬运成本也不小,功耗,面积都得有。相当于一个shffle。
看这张图右面这个东西。总之,用单bank的结构和多bank的结构各有千秋,目前看起来如果性能要求低可以尝试单bank。否则老老实实多bank也没什么不好。
基本上这篇文章就这些东西。
总结
这个session主要是一片DTCO和一些专有领域的accelerator。挑了几篇看看。下午继续。。
免责声明:本文由卡卷网编辑并发布,但不代表本站的观点和立场,只提供分享给大家。
相关推荐

你 发表评论:
欢迎