感谢这位老大对Fermi GF100的深入分析,做个摘要总结,原文请见:
fermi系列整个产品线布局推测
好久没写类似的文章了只是昨天看fermi的一些介绍感觉这东西挺有趣的以下均为无责任预测,如有雷同纯属巧合GF100大致就是这么回事トランジスタ | 3 billion(30億) |
CUDAコア | 512 cores |
Streaming Multiprocessor(SM) | 16 SMs |
テッセレータ | 16 Units |
ラスタライザ | 4 Units |
L2キャッシュ | 768KB |
テクスチャユニット | 64 Units |
ROP(Rendering Output Pipeline) | 48 ROPs |
メモリインターフェイス | 384-bit GDDR5 |
fermi不仅仅是gt200的double,更多的是需要对现有产品线做出大的变动现有产品线的问题是,游戏领域,纹理和像素部分已经弱于对手,导致高AA下连连被日,目前已经全产品线落后于对手专业领域,由于后端的落后,原本巨大的优势正在缩小,而且细分曲面(Tessellation)部分必须要加强了(换句话说,几何性能要大幅增强,好像有说法是nv30到现在,几何部分也就增强了到3倍,这次要在GT200的基础上8X),有些人说nv把dx11的切入点放在细分曲面(Tessellation)有点莫名其妙,这只能说,你只看到了游戏,在更广阔的领域,这部分的需求大得惊人,天知道什么时候就要拍类似阿凡达2的片子高性能计算领域,由于双精度浮点理论速度明显弱于对手,同时没有ECC,导致天河1号根本不鸟teslafermi系列的改进对原有架构动了大手术几何部分被分到了SM中,光栅引擎+4个SM组成了一个GPC,每个GPC拥有128个SP,4个多边形,16个tex每个SM对应一个多边形, 4个tex,16*2个SP单个GPC的几何能力,就已经超过了GT200整体整个FERMI,就是个超级4核GPU:对比下GT200,尽管看上去也有点像多核GPU,但几何部分是“共享”的,如果几何部分吃紧,那后面哪怕有480sp,全是白搭这就是nv不肯简单的加个Tessellation改造下GT200再变胖一下就说自己是DX11卡的原因所在
功能部分做出了巨大的改进,互联部分,crossbar实现了全双工通信,原因也比较有意思,gt200的crossbar口太多,除了后端8个ROP的同时连8片L2外,居然有10个TPC....实现双工的话代价太高,这次除了后端6个L2,也就四个GPC总共是10口;10口全双工,可以看成20口半双工吧,之前是16+10 ROP增强的同时增加数量,这才有8XAA的改进,同时也给nv划分产品线提供了相当大的便利,因为ROP不再直连crossbar了gt200的死结在于,crossbar过于复杂,包括中端产品,实现起来都比较要命,否则不会到40nm才出基于gt200划分出来的gt2xx产品线(215之类的)同时,GT200系列的ROP与mc、crossbar复杂性同在,还不是fermi的8x rop,是古老的4x rop,导致了gt240的性能严重低下这就是nv产品线全面崩溃的原因所在:运算能力足够,几何性能没有优势,tex劣势,pixel等劣势对手实现了128bit显存的结构上就实现和自己必须上4个显存控制器(4个ROP*4)才能实现的像素处理能力最后的可怕怪圈就是,ati采用128bit gddr5就可以轻松在带宽和像素处理能力上双双赶上G94甚至G92GT240付出了G92级别的晶体管,最后由于采用了128bit 内存,ROP太弱,导致性能连G94都打不过,更别提RV740了目前NV需要增强的就是像素+纹理,带宽并不是首要问题,运算能力也不是瓶颈gt200越指望越倒霉,所以干脆在FERMI的基础上实现良好的产品布局反而更好办
产品线嘛,就是阉割
就目前的规格看,GF100,450mm^2级别的die,3b晶体管,384bit显存,在GTX285级别的PCB上实现DX10接近ATI 5970问题不大,DX11和专业领域,HPC之类的远远甩开对手非常轻松
现在至少需要两个产品
1. 159~259美金争夺战的产品
2. 128bit gddr5的能对抗5770/5750的产品
按照NV的命名规则,两者很可能被命名为GF104和GF106
GF104的对手是5830和5850,结果上估计应该是双核(如果GF100是4核)
两个GPC应该可以实现SHADER性能凌驾于GTX285之上
而几何部分,4倍于GT280的性能足以对5850形成致命威胁
后端有4x8=32 ROP,以新ROP的处理能力,高AA下超过GTX285不是问题
G92的继任者应该就是这玩意儿了
晶体管的预测么,这东西不能用以前的算式去计算了,因为NV这次比较接近CPU的核,可能会在20亿左右或者更少一点
面积由于corssbar变成6口全双工,MC变少,可能会低于300mm^2,低于250mm^2的可能要看nv的功力了,个人预测不会低于250mm^2
(打掉5850的话有个障碍就是运算能力,虽然大部分情况运算能力并不存在瓶颈,但对手毕竟是5d单元都有288个的怪物,所以高频率很可能是必须的,这样的话,晶体管做大的可能也不小,大过rv870也不算很奇怪)
GF106的规格应该是1个GPC+128bit gddr5(单核)
三口全双工crossbar即可
结构比GT240还简单
2X8的ROP也足以应付5770
晶体管规模应该在10亿左右,核心面积由于crossbar比gt240小得多,可能维持在GT240级别(140不到)
对手也属于5D比这边1D还多的情况,所以拉频率的可能性存在
再小,不知道nv会怎么布局,感觉GT212之类的会继续活着
贴两个DIE来比比吧 最中间那条应该就是crossbar 这东西的大小不受工艺影响 所以大小方面,GF100反而比GT200小,最大的贡献还是这东西变小了
|
|
|
在看到fermi拿几张图之前,还真没心情来写这玩意儿,这次最感兴趣的就是NV可以轻松的划分产品线了,三年多以来,NVIDIA过得太轻松了,一个G80横空出世后,整个体系就舒舒服服的要吃三年了(如果某坛子还在的话我就不用独立开帖子了)正因为自己太舒服了,对手又被逼得太紧,反而打起了短平快,07年以后,ATI的后端部分的设计突然变得灵活起来,一下子把nv的致命伤暴露出来了,这也是很多玩家在2007年开始觉得困惑的地方:nv没有能用的128bit显卡 高端256,砍半后主流128,惯常的玩法,最经典的就是G71和G73,24/24/16 vs 12/12/8 (shader modal / tex / rop)这些经典的原则,在G80发布以后荡然无存,憋着要等128bit的玩家后来也纷纷选择8800GT与9600GTnvidia G80时代的划代128/32/24的G80,落差到128bit,瞬间就羸弱到只有 32/16/8,分别只剩下1/4,1/2,1/3换到G9X,GT200时代,变本加厉:注意数据变化,下面的图开始,TMU nv和ati 是有区别的,nv要读括号内的数字,因为一个tmu有两个tex filter,不过比例上不变,影响不大两张图有两个相反的典型:GT240和G94两者的三个数字分别为 96/32/8 和64/32/16游戏的成绩很明显了,G94完胜GT240,说明一点,当前游戏中,64sp和96sp,谁先爆掉要看后端,没有纹理部分和像素部分是万万不可的!而前文已经说得非常明白了,nv在128bit下最多也就8个ROP,因此,无论GT240用什么显存,失败早就注定了,面对4670和5670,没有胜算!列一下GT200系列的比例(没有全图,我自己写了)GT285 240/80/32GT216 216/80/28GT250 128/64/16G94 64/32/16GT240 96/32/8简直就是一团糟!ati进入RV7XX以后,8ROP能有接近NV 16ROP的效能,因此,类似4670的8ROP 128bit显卡就可以威胁G94何况128bit还有 16ROP的5770和4770,前者的像素处理能力直接就超越了GT250,结果在实际性能中互有胜负!现在的nv,可以说没有竞争力,除非fermi家族接管全线
刚才说到ATI的短平快,那我们看看这三年ATI到底干了什么 首先ALU数量增长速度惊人,320起跳,现在已经到1600了,入门都能有400 这点明的事情不谈,专讲暗的
首先,ATI的ROP与NV的ROP是不同的 直观点,采样能力有区别,24与16的差别 所以同样是8个ROP的话,像素处理能力铁定是ATI更强的,当然,这是fermi之前 因为fermi这边升级了ROP,变成32了,因此,fermi的8rop,实际已经达到过去16rop的能力,16rop已经达到过去最高级别---GTX285的实力,哪个拥有16rop呢?GF106,简单点说就是,入门卡相当于前代旗舰 当然,这里比的是4AA,8AA的实力
在NV还躺在功劳簿上,128bit显卡永远最多8rop的时代,ATI实现了三级跳! 最废物的2系时代,顶级320/16/16,128 的 120/8/4,简直和NV同步!不败才是怪事 而且当时ati在z compare上不如nv,rop:z是1:2,nv已经到 1:8
3系,不见起色,也就换换工艺,好处貌似是麻痹了对手
4系开始起跳 废掉ringbus是个突破,rop添加起来变得容易了,同时ROP做出了改进,rop:z变成了1:4,这是ATI敢说自己4AA与8AA性能的保证,同时,这一代的中端变得多姿多彩: 4870: 800/40/16 4770: 640/32/16 4670: 320/16/8 有了gddr5,自己的中端显存带宽都已经不吃亏,加强像素处理,可以在性能上逼近对手的二当家 4770称为少有的像素处理能力与顶级卡相仿的128bit主流卡 这一布局,已经不是nv能用gt216/g92b/g94b/g96能对付的了
5系列再接再厉,给高端卡再double一下,终于可以吹8AA了: 5870: 1600/80/32 5770: 800/40/16 5670: 400/20/8
fermi不出,此局难破.....
现在说下fermi的布局: gf100: 512/64/48 GF104: 256/32/32 GF106: 128/16/16
纹理部分感觉NV还是会吃亏的,不过像素部分赢太多了,这边16能比那边24,倒过来了.. 至于再阉割,恐怕就要拆GPC了 不知道是否会存在 64/8/8的规格
可以参考下MSAA部分的变化
|
阅读(1602) | 评论(0) | 转发(0) |