当前位置：首页 > 每日看点

isscc 2025放榜在即，有什么小道消息吗?

卡卷网1年前 (2025-03-10)每日看点476

嗯，新开一个系列吧。上网冲个浪，读读2025年ISSCC论文。挑了自己感兴趣，离业界近点儿的。技术每年都在迭代，如果不刻意看，还挺难追上潮流的。

不妨从最后一章看看,37.7。

37.1 IBM的一个DTCO的工作

这是一款8核、5.5GHz的5nm 工艺处理器。三星的工艺，芯片面积600m2，实际上diesize很大了。工业界的文章，写的都很简略，只能大致理解一下。

所谓DTCO，看下图。

IBM来设计，属于design方，samsung属于工艺方，technology。

先说最容易落地的东西，电路层，0-state pulsed latch。

主要新鲜的东西是一个叫0-state pulsed latch的东西。它的主要作用是在数据保持 0 状态时，减少时钟功耗，同时保持高性能。主要原理是降低时钟上连着的管子数，以降低时钟树功耗。

如下图，相比于传统的latch, clock上连着的逻辑门从6个变成了3个。

然后还有个static latch。在0-state latch的基础上加了一条反馈环路。进一步降低功耗。

结果如上图，能大幅减少0状态下的功耗。论文说减少了时序逻辑功耗20%+，总功耗减少了3%。

然后既然是pulsed-latch, 就得有对应的clock pulse单元。这个点文章说的没有太清楚，我理解是采用了较激进的latch gating策略。让locak clock buffer (LCB）后面接上更多的latch。从而通过减少LCB来减少clock功耗。

个人总结，pulsed-latch在CPU领域好像大家都想用用。毕竟时序功耗有优势。但是pulse生成单元一向是个难点，如何能不长不短的生成需要的pulse, 能抗的住工艺的波动，不出现可靠性问题或者干脆杀良没有大量经验怕是不好把握。

particle-aware latch placement

主要用来提高可靠性的。想法很简单，latch会因为粒子冲击等等原因失效，尽量同属于一个奇偶校验组的latch摆在不同的位置。

前提是你的SRAM/latch banks里有奇偶校验位。加入奇偶校验会额外增加一部分成本，所以需要根据良率来看，是不是要加奇偶校验。

DFM Optimization

主要是识别制造过程中的pattern敏感的规则，来提升良率。大部分都是下面这种boundary keepouts。

Complex cell

前面我实际上有文章讲过，mega cell, 或者complex cell。用工具不断迭代stdcell, 最后达到一个比较好的PPA。

主要是这么一个过程。这个过程迭代起来实际上挺慢的，主要收益在面积，功耗和timing的收益比较难拿到。

最后他们做了250个complex cell。不过这个东西是真的难缠。EDA工具对复杂的cell支持要好。否则复杂的cell pin多，后端placement做出来一堆congestion，消还是不消？Orz...

然后就是硅验证问题。自动化设计的cell如果不对工具觉得信任无法直接上产品，需要硅验证，从而让迭代速度更慢了。不过吹尽黄沙始到金，如果真的下大力气优化实际上是能拿到收益的。

Standard cell/工艺参数优化

下面这个东西就属于真正的DTCO领域。很可能需要在工艺开发前pathfinding阶段就要定稿。否则后期很难改。

7nm时要求M2的signal tracks必须和poly对齐, 输入pin还是垂直的，导致一个pin实际上只能用一个M2 track。5nm的时候允许在两个有源区中间放这种横跨多个poly的pin。提高了M2的使用效率。

同时增加了M2 tracks, 最后有10-15%面积收益。

下面是放了一张图，没有多少文字介绍。应该是允许M2有两种grid。在SRAM区域提升粗线的利用效率。有看懂的同学可以评论区讨论一下。

最后贴一张效果图。大幅降低了时序逻辑功耗。最终性能变强，功耗没增大太多。

emmm, 这篇DTCO文章大致如此，总结起来就是财大气粗，工艺方也愿意陪着CPU他们这么玩。正常人属于戴着镣铐跳舞，他们认识狱卒，显然是忘带了。

37.4 一篇3D的interposer

复旦的文章。不得不说，现在ISSCC论文中国是真多。我读博的时候整个大陆也没几篇ISSCC。。。

说的还是现在大芯片的一种普遍办法， chiplet。

讲了一下现在芯片的几个主要问题。

可重用性（Reusability）：
传统 TSV 互连结构是 固定设计，难以适应不同芯片（chiplets）组合，每次都需重新开发，增加 NRE（非经常性工程）成本。

3D 存储管理（3D Underdeck Memory Management）：
memory 3D堆叠起来才能有更好的效能和scalability。

可变带宽需求（Reconfigurable Bandwidth）：
不同计算任务的数据流量不同，但固定上/下行带宽无法动态适配，导致通信瓶颈或资源浪费。

然后他们提出来了个一个叫SHINSAI Active TSV interposer的东西。

主要有3个feature。先看第一个。

Heterogeneous Dual-Layer NoAI

主要说了数据交换的两种方法，packet switch和circuit switching。简单来讲。

分组交换（Packet Switching）：用于 V-Link（3D 垂直互连）
电路交换（Circuit Switching）：用于 H-Link（2.5D 横向互连）

第二点是Hlink。

整体思路是类似FPGA一样，通过configuration cross bar 把chiplet连接起来。

第三点是Vlink。

V-Link 采用 Packet Switching（分组交换），数据传输流程如下：

发送端（源芯片）将数据拆分为小数据包（Packets）
每个数据包携带 目的地址 + 控制信息
通过 V-Link 网络路由，动态选择传输路径
目的芯片接收数据包，并重新组装完整数据

channel路径是可以重构的。如下图。

、

总结起来这篇文章还挺偏工业的。主体思想是再2D方向把chiplet作为一个小单元，用类似于FPGA的方法连接起来，在3D方向堆叠memory。试图搞一个可编程的基板出来。想法还挺不错。

个人看法，和不同公司开发模式有关。一般来讲公司成熟的产品都是一代代迭代，工艺也是一代代换。代际之间如果不是大更新，改动实际上不大，都是增量开发，router大概率是不会有大变化的，一个可编程的interposer会影响PPA, 不太可能搞成可编程的。不过考虑现在AI模型也是一天一个样，这种特性有可能还是有用武之地。