fermi系列整个产品线布局推测-thewayma-ChinaUnix博客

thewayma

首页　| 　博文目录　| 　关于我

thewayma

博客访问： 732925
博文数量： 183
博客积分： 2650
博客等级：少校
技术积分： 1428
用户组：普通用户
注册时间： 2008-11-22 17:02

文章分类

全部博文（183）

QEMU（9）
Xen（0）
虚拟化（5）
KVM（32）
系统优化（2）
嵌入式（5）
GPU架构（2）
硬件（4）
I2C总线（2）
构建嵌入式文件系（0）
MIPS架构研究（8）
Linux内核线程（2）
Linux 基础编程（2）
PCI总线（5）
Linux性能（3）
nsfocus产品（0）
Linux TCP/IP协议（6）
Linux内核初始化（5）
Linux文件系统（15）
Linux内核攻击（0）
内核同步（4）
Linux IPC（1）
Linux进程管理（2）
网络攻击（5）

IP分片攻击（3）
Linux rootkit（3）
Linux中断（1）
Linux设备驱动（19）

块设备（14）
Linux 内核重要算（7）

I/O调度分析（2）
GUN C（3）
算法设计（2）
Linux内存管理（24）
未分配的博文（5）

文章存档

2017年（1）

2015年（46）

2014年（4）

2013年（8）

2012年（2）

2011年（27）

2010年（35）

2009年（60）

我的朋友

相关博文

fermi系列整个产品线布局推测

分类： LINUX

2012-01-22 17:14:45

感谢这位老大对Fermi GF100的深入分析，做个摘要总结，原文请见：
fermi系列整个产品线布局推测

好久没写类似的文章了
只是昨天看fermi的一些介绍感觉这东西挺有趣的
以下均为无责任预测，如有雷同纯属巧合
GF100大致就是这么回事

トランジスタ	3 billion(30億)
CUDAコア	512 cores
Streaming Multiprocessor(SM)	16 SMs
テッセレータ	16 Units
ラスタライザ	4 Units
L2キャッシュ	768KB
テクスチャユニット	64 Units
ROP(Rendering Output Pipeline)	48 ROPs
メモリインターフェイス	384-bit GDDR5

fermi不仅仅是gt200的double，更多的是需要对现有产品线做出大的变动
现有产品线的问题是，游戏领域，纹理和像素部分已经弱于对手，导致高AA下连连被日，目前已经全产品线落后于对手
专业领域，由于后端的落后，原本巨大的优势正在缩小，而且细分曲面(Tessellation)部分必须要加强了（换句话说，几何性能要大幅增强，好像有说法是nv30到现在，几何部分也就增强了到3倍，这次要在GT200的基础上8X），有些人说nv把dx11的切入点放在细分曲面(Tessellation)有点莫名其妙，这只能说，你只看到了游戏，在更广阔的领域，这部分的需求大得惊人，天知道什么时候就要拍类似阿凡达2的片子
高性能计算领域，由于双精度浮点理论速度明显弱于对手，同时没有ECC，导致天河1号根本不鸟tesla

fermi系列的改进对原有架构动了大手术
几何部分被分到了SM中，光栅引擎+4个SM组成了一个GPC，每个GPC拥有128个SP，4个多边形，16个tex
每个SM对应一个多边形， 4个tex，16*2个SP
单个GPC的几何能力，就已经超过了GT200整体

整个FERMI，就是个超级4核GPU：

对比下GT200，尽管看上去也有点像多核GPU，但几何部分是“共享”的，如果几何部分吃紧，那后面哪怕有480sp，全是白搭
这就是nv不肯简单的加个Tessellation改造下GT200再变胖一下就说自己是DX11卡的原因所在

功能部分做出了巨大的改进，互联部分，crossbar实现了全双工通信，原因也比较有意思，gt200的crossbar口太多，除了后端8个ROP的同时连8片L2外，居然有10个TPC....实现双工的话代价太高，这次除了后端6个L2，也就四个GPC总共是10口；10口全双工，可以看成20口半双工吧，之前是16+10

ROP增强的同时增加数量，这才有8XAA的改进，同时也给nv划分产品线提供了相当大的便利，因为ROP不再直连crossbar了

gt200的死结在于，crossbar过于复杂，包括中端产品，实现起来都比较要命，否则不会到40nm才出基于gt200划分出来的gt2xx产品线（215之类的）
同时，GT200系列的ROP与mc、crossbar复杂性同在，还不是fermi的8x rop，是古老的4x rop，导致了gt240的性能严重低下
这就是nv产品线全面崩溃的原因所在:

运算能力足够，几何性能没有优势，tex劣势，pixel等劣势
对手实现了128bit显存的结构上就实现和自己必须上4个显存控制器（4个ROP*4）才能实现的像素处理能力
最后的可怕怪圈就是，ati采用128bit gddr5就可以轻松在带宽和像素处理能力上双双赶上G94甚至G92
GT240付出了G92级别的晶体管，最后由于采用了128bit 内存，ROP太弱，导致性能连G94都打不过，更别提RV740了

目前NV需要增强的就是像素+纹理，带宽并不是首要问题，运算能力也不是瓶颈
gt200越指望越倒霉，所以干脆在FERMI的基础上实现良好的产品布局反而更好办

产品线嘛，就是阉割
就目前的规格看，GF100，450mm^2级别的die，3b晶体管，384bit显存，在GTX285级别的PCB上实现DX10接近ATI 5970问题不大，DX11和专业领域，HPC之类的远远甩开对手非常轻松
现在至少需要两个产品
1. 159~259美金争夺战的产品
2. 128bit gddr5的能对抗5770/5750的产品

按照NV的命名规则，两者很可能被命名为GF104和GF106
GF104的对手是5830和5850，结果上估计应该是双核（如果GF100是4核）
两个GPC应该可以实现SHADER性能凌驾于GTX285之上
而几何部分，4倍于GT280的性能足以对5850形成致命威胁
后端有4x8=32 ROP，以新ROP的处理能力，高AA下超过GTX285不是问题
G92的继任者应该就是这玩意儿了
晶体管的预测么，这东西不能用以前的算式去计算了，因为NV这次比较接近CPU的核，可能会在20亿左右或者更少一点
面积由于corssbar变成6口全双工，MC变少，可能会低于300mm^2，低于250mm^2的可能要看nv的功力了，个人预测不会低于250mm^2
（打掉5850的话有个障碍就是运算能力，虽然大部分情况运算能力并不存在瓶颈，但对手毕竟是5d单元都有288个的怪物，所以高频率很可能是必须的，这样的话，晶体管做大的可能也不小，大过rv870也不算很奇怪）

GF106的规格应该是1个GPC+128bit gddr5（单核）
三口全双工crossbar即可
结构比GT240还简单
2X8的ROP也足以应付5770
晶体管规模应该在10亿左右，核心面积由于crossbar比gt240小得多，可能维持在GT240级别（140不到）
对手也属于5D比这边1D还多的情况，所以拉频率的可能性存在

再小，不知道nv会怎么布局，感觉GT212之类的会继续活着

贴两个DIE来比比吧
最中间那条应该就是crossbar
这东西的大小不受工艺影响
所以大小方面，GF100反而比GT200小，最大的贡献还是这东西变小了

在看到fermi拿几张图之前，还真没心情来写这玩意儿，这次最感兴趣的就是NV可以轻松的划分产品线了，三年多以来，NVIDIA过得太轻松了，一个G80横空出世后，整个体系就舒舒服服的要吃三年了（如果某坛子还在的话我就不用独立开帖子了）
正因为自己太舒服了，对手又被逼得太紧，反而打起了短平快，07年以后，ATI的后端部分的设计突然变得灵活起来，一下子把nv的致命伤暴露出来了，这也是很多玩家在2007年开始觉得困惑的地方：nv没有能用的128bit显卡

高端256，砍半后主流128，惯常的玩法，最经典的就是G71和G73，24/24/16 vs 12/12/8 （shader modal / tex / rop）
这些经典的原则，在G80发布以后荡然无存，憋着要等128bit的玩家后来也纷纷选择8800GT与9600GT

nvidia G80时代的划代
128/32/24的G80，落差到128bit，瞬间就羸弱到只有 32/16/8，分别只剩下1/4，1/2，1/3

换到G9X，GT200时代，变本加厉：
注意数据变化，下面的图开始，TMU nv和ati 是有区别的，nv要读括号内的数字，因为一个tmu有两个tex filter，不过比例上不变，影响不大

两张图有两个相反的典型：
GT240和G94
两者的三个数字分别为 96/32/8 和64/32/16
游戏的成绩很明显了，G94完胜GT240，说明一点，当前游戏中，64sp和96sp，谁先爆掉要看后端，没有纹理部分和像素部分是万万不可的！
而前文已经说得非常明白了，nv在128bit下最多也就8个ROP，因此，无论GT240用什么显存，失败早就注定了，面对4670和5670，没有胜算！

列一下GT200系列的比例（没有全图，我自己写了）

GT285 240/80/32
GT216 216/80/28
GT250 128/64/16
G94 64/32/16
GT240 96/32/8

简直就是一团糟！ati进入RV7XX以后，8ROP能有接近NV 16ROP的效能，因此，类似4670的8ROP 128bit显卡就可以威胁G94
何况128bit还有 16ROP的5770和4770，前者的像素处理能力直接就超越了GT250，结果在实际性能中互有胜负！
现在的nv，可以说没有竞争力，除非fermi家族接管全线

刚才说到ATI的短平快，那我们看看这三年ATI到底干了什么
首先ALU数量增长速度惊人，320起跳，现在已经到1600了，入门都能有400
这点明的事情不谈，专讲暗的

首先，ATI的ROP与NV的ROP是不同的
直观点，采样能力有区别，24与16的差别
所以同样是8个ROP的话，像素处理能力铁定是ATI更强的，当然，这是fermi之前
因为fermi这边升级了ROP，变成32了，因此，fermi的8rop，实际已经达到过去16rop的能力，16rop已经达到过去最高级别---GTX285的实力，哪个拥有16rop呢？GF106，简单点说就是，入门卡相当于前代旗舰
当然，这里比的是4AA，8AA的实力

在NV还躺在功劳簿上，128bit显卡永远最多8rop的时代，ATI实现了三级跳！
最废物的2系时代，顶级320/16/16，128 的 120/8/4，简直和NV同步！不败才是怪事
而且当时ati在z compare上不如nv，rop:z是1：2，nv已经到 1:8

3系，不见起色，也就换换工艺，好处貌似是麻痹了对手

4系开始起跳废掉ringbus是个突破，rop添加起来变得容易了，同时ROP做出了改进，rop:z变成了1：4，这是ATI敢说自己4AA与8AA性能的保证，同时，这一代的中端变得多姿多彩：
4870：  800/40/16
4770: 640/32/16
4670: 320/16/8
有了gddr5，自己的中端显存带宽都已经不吃亏，加强像素处理，可以在性能上逼近对手的二当家
4770称为少有的像素处理能力与顶级卡相仿的128bit主流卡
这一布局，已经不是nv能用gt216/g92b/g94b/g96能对付的了

5系列再接再厉，给高端卡再double一下，终于可以吹8AA了：
5870:  1600/80/32
5770: 800/40/16
5670： 400/20/8

fermi不出，此局难破.....

现在说下fermi的布局：
gf100: 512/64/48
GF104:  256/32/32
GF106:  128/16/16

纹理部分感觉NV还是会吃亏的，不过像素部分赢太多了，这边16能比那边24，倒过来了..
至于再阉割，恐怕就要拆GPC了
不知道是否会存在 64/8/8的规格

可以参考下MSAA部分的变化

阅读(1660) | 评论(0) | 转发(0) |

上一篇：GPU的基本原理

下一篇：如何让软件支持扩展功能

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6