Chinaunix首页 | 论坛 | 博客
  • 博客访问: 545360
  • 博文数量: 183
  • 博客积分: 2650
  • 博客等级: 少校
  • 技术积分: 1427
  • 用 户 组: 普通用户
  • 注册时间: 2008-11-22 17:02
文章分类
文章存档

2017年(1)

2015年(46)

2014年(4)

2013年(8)

2012年(2)

2011年(27)

2010年(35)

2009年(60)

分类: LINUX

2012-01-22 17:14:45

感谢这位老大对Fermi GF100的深入分析,做个摘要总结,原文请见:
fermi系列整个产品线布局推测


好久没写类似的文章了
只是昨天看fermi的一些介绍感觉这东西挺有趣的
以下均为无责任预测,如有雷同纯属巧合
GF100大致就是这么回事
トランジスタ3 billion(30億)
CUDAコア512 cores
Streaming Multiprocessor(SM)16 SMs
テッセレータ16 Units
ラスタライザ4 Units
L2キャッシュ768KB
テクスチャユニット64 Units
ROP(Rendering Output Pipeline)48 ROPs
メモリインターフェイス384-bit GDDR5




fermi不仅仅是gt200的double,更多的是需要对现有产品线做出大的变动
现有产品线的问题是,游戏领域,纹理和像素部分已经弱于对手,导致高AA下连连被日,目前已经全产品线落后于对手
专业领域,由于后端的落后,原本巨大的优势正在缩小,而且细分曲面(Tessellation)部分必须要加强了(换句话说,几何性能要大幅增强,好像有说法是nv30到现在,几何部分也就增强了到3倍,这次要在GT200的基础上8X),有些人说nv把dx11的切入点放在细分曲面(Tessellation)有点莫名其妙,这只能说,你只看到了游戏,在更广阔的领域,这部分的需求大得惊人,天知道什么时候就要拍类似阿凡达2的片子
高性能计算领域,由于双精度浮点理论速度明显弱于对手,同时没有ECC,导致天河1号根本不鸟tesla


fermi系列的改进对原有架构动了大手术
几何部分被分到了SM中,光栅引擎+4个SM组成了一个GPC,每个GPC拥有128个SP,4个多边形,16个tex
每个SM对应一个多边形, 4个tex,16*2个SP
单个GPC的几何能力,就已经超过了GT200整体






整个FERMI,就是个超级4核GPU:


对比下GT200,尽管看上去也有点像多核GPU,但几何部分是“共享”的,如果几何部分吃紧,那后面哪怕有480sp,全是白搭
这就是nv不肯简单的加个Tessellation改造下GT200再变胖一下就说自己是DX11卡的原因所在



功能部分做出了巨大的改进,互联部分,crossbar实现了全双工通信,原因也比较有意思,gt200的crossbar口太多,除了后端8个ROP的同时连8片L2外,居然有10个TPC....实现双工的话代价太高,这次除了后端6个L2,也就四个GPC总共是10口;10口全双工,可以看成20口半双工吧,之前是16+10 







ROP增强的同时增加数量,这才有8XAA的改进,同时也给nv划分产品线提供了相当大的便利,因为ROP不再直连crossbar了

gt200的死结在于,crossbar过于复杂,包括中端产品,实现起来都比较要命,否则不会到40nm才出基于gt200划分出来的gt2xx产品线(215之类的)
同时,GT200系列的ROP与mc、crossbar复杂性同在,还不是fermi的8x rop,是古老的4x rop,导致了gt240的性能严重低下
这就是nv产品线全面崩溃的原因所在:


运算能力足够,几何性能没有优势,tex劣势,pixel等劣势
对手实现了128bit显存的结构上就实现和自己必须上4个显存控制器(4个ROP*4)才能实现的像素处理能力
最后的可怕怪圈就是,ati采用128bit gddr5就可以轻松在带宽和像素处理能力上双双赶上G94甚至G92
GT240付出了G92级别的晶体管,最后由于采用了128bit 内存,ROP太弱,导致性能连G94都打不过,更别提RV740了

目前NV需要增强的就是像素+纹理,带宽并不是首要问题,运算能力也不是瓶颈
gt200越指望越倒霉,所以干脆在FERMI的基础上实现良好的产品布局反而更好办


产品线嘛,就是阉割
就目前的规格看,GF100,450mm^2级别的die,3b晶体管,384bit显存,在GTX285级别的PCB上实现DX10接近ATI 5970问题不大,DX11和专业领域,HPC之类的远远甩开对手非常轻松
现在至少需要两个产品
1. 159~259美金争夺战的产品
2.  128bit gddr5的能对抗5770/5750的产品

按照NV的命名规则,两者很可能被命名为GF104和GF106
GF104的对手是5830和5850,结果上估计应该是双核(如果GF100是4核)
两个GPC应该可以实现SHADER性能凌驾于GTX285之上
而几何部分,4倍于GT280的性能足以对5850形成致命威胁
后端有4x8=32 ROP,以新ROP的处理能力,高AA下超过GTX285不是问题
G92的继任者应该就是这玩意儿了
晶体管的预测么,这东西不能用以前的算式去计算了,因为NV这次比较接近CPU的核,可能会在20亿左右或者更少一点
面积由于corssbar变成6口全双工,MC变少,可能会低于300mm^2,低于250mm^2的可能要看nv的功力了,个人预测不会低于250mm^2
(打掉5850的话有个障碍就是运算能力,虽然大部分情况运算能力并不存在瓶颈,但对手毕竟是5d单元都有288个的怪物,所以高频率很可能是必须的,这样的话,晶体管做大的可能也不小,大过rv870也不算很奇怪)

GF106的规格应该是1个GPC+128bit gddr5(单核)
三口全双工crossbar即可
结构比GT240还简单
2X8的ROP也足以应付5770
晶体管规模应该在10亿左右,核心面积由于crossbar比gt240小得多,可能维持在GT240级别(140不到)
对手也属于5D比这边1D还多的情况,所以拉频率的可能性存在

再小,不知道nv会怎么布局,感觉GT212之类的会继续活着



贴两个DIE来比比吧
最中间那条应该就是crossbar
这东西的大小不受工艺影响
所以大小方面,GF100反而比GT200小,最大的贡献还是这东西变小了





在看到fermi拿几张图之前,还真没心情来写这玩意儿,这次最感兴趣的就是NV可以轻松的划分产品线了,三年多以来,NVIDIA过得太轻松了,一个G80横空出世后,整个体系就舒舒服服的要吃三年了(如果某坛子还在的话我就不用独立开帖子了)
正因为自己太舒服了,对手又被逼得太紧,反而打起了短平快,07年以后,ATI的后端部分的设计突然变得灵活起来,一下子把nv的致命伤暴露出来了,这也是很多玩家在2007年开始觉得困惑的地方:nv没有能用的128bit显卡 

高端256,砍半后主流128,惯常的玩法,最经典的就是G71和G73,24/24/16  vs  12/12/8   (shader modal / tex / rop)
这些经典的原则,在G80发布以后荡然无存,憋着要等128bit的玩家后来也纷纷选择8800GT与9600GT

nvidia G80时代的划代
128/32/24的G80,落差到128bit,瞬间就羸弱到只有 32/16/8,分别只剩下1/4,1/2,1/3

换到G9X,GT200时代,变本加厉:
注意数据变化,下面的图开始,TMU nv和ati 是有区别的,nv要读括号内的数字,因为一个tmu有两个tex filter,不过比例上不变,影响不大




两张图有两个相反的典型:
GT240和G94
两者的三个数字分别为  96/32/8   和64/32/16
游戏的成绩很明显了,G94完胜GT240,说明一点,当前游戏中,64sp和96sp,谁先爆掉要看后端,没有纹理部分和像素部分是万万不可的!
而前文已经说得非常明白了,nv在128bit下最多也就8个ROP,因此,无论GT240用什么显存,失败早就注定了,面对4670和5670,没有胜算!

列一下GT200系列的比例(没有全图,我自己写了)

GT285    240/80/32
GT216    216/80/28
GT250    128/64/16
G94        64/32/16
GT240    96/32/8

简直就是一团糟!ati进入RV7XX以后,8ROP能有接近NV 16ROP的效能,因此,类似4670的8ROP 128bit显卡就可以威胁G94
何况128bit还有 16ROP的5770和4770,前者的像素处理能力直接就超越了GT250,结果在实际性能中互有胜负!
现在的nv,可以说没有竞争力,除非fermi家族接管全线



刚才说到ATI的短平快,那我们看看这三年ATI到底干了什么
首先ALU数量增长速度惊人,320起跳,现在已经到1600了,入门都能有400
这点明的事情不谈,专讲暗的

首先,ATI的ROP与NV的ROP是不同的
直观点,采样能力有区别,24与16的差别
所以同样是8个ROP的话,像素处理能力铁定是ATI更强的,当然,这是fermi之前
因为fermi这边升级了ROP,变成32了,因此,fermi的8rop,实际已经达到过去16rop的能力,16rop已经达到过去最高级别---GTX285的实力,哪个拥有16rop呢?GF106,简单点说就是,入门卡相当于前代旗舰
当然,这里比的是4AA,8AA的实力
 

在NV还躺在功劳簿上,128bit显卡永远最多8rop的时代,ATI实现了三级跳!
最废物的2系时代,顶级320/16/16,128 的 120/8/4,简直和NV同步!不败才是怪事
而且当时ati在z compare上不如nv,rop:z是1:2,nv已经到 1:8

3系,不见起色,也就换换工艺,好处貌似是麻痹了对手

4系开始起跳 废掉ringbus是个突破,rop添加起来变得容易了,同时ROP做出了改进,rop:z变成了1:4,这是ATI敢说自己4AA与8AA性能的保证,同时,这一代的中端变得多姿多彩:
4870:  800/40/16
4770:    640/32/16
4670:    320/16/8
有了gddr5,自己的中端显存带宽都已经不吃亏,加强像素处理,可以在性能上逼近对手的二当家
4770称为少有的像素处理能力与顶级卡相仿的128bit主流卡
这一布局,已经不是nv能用gt216/g92b/g94b/g96能对付的了

5系列再接再厉,给高端卡再double一下,终于可以吹8AA了:
5870:  1600/80/32
5770:   800/40/16
5670: 400/20/8

fermi不出,此局难破.....



现在说下fermi的布局:
gf100:   512/64/48
GF104:  256/32/32
GF106:  128/16/16

纹理部分感觉NV还是会吃亏的,不过像素部分赢太多了,这边16能比那边24,倒过来了..
至于再阉割,恐怕就要拆GPC了
不知道是否会存在 64/8/8的规格


可以参考下MSAA部分的变化

Untitled-1.jpg
阅读(947) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~