Chinaunix首页 | 论坛 | 博客
  • 博客访问: 348864
  • 博文数量: 105
  • 博客积分: 2730
  • 博客等级: 少校
  • 技术积分: 1110
  • 用 户 组: 普通用户
  • 注册时间: 2007-04-20 12:09
文章分类

全部博文(105)

文章存档

2013年(3)

2012年(2)

2011年(36)

2010年(34)

2009年(6)

2008年(20)

2007年(4)

分类:

2010-10-14 20:59:38

[2008-06-25] ISCA08见闻
这是我写的流水账式的《ISCA见闻》

6月21日 workshop
=========================================================

早上,UC Berkeley的Krste Asanovi? 教授到计算所里访问,我们小组负责接待他。
Krste教授是从MIT转到UC Berkeley,现在和David Patterson教授共事。

Krste教授在所里作了一个报告《The Parallel Computing Laboratory at U.C. Berkeley: A Research Agenda Based on the Berkeley View》,我之前在版上也发过通知。之后又进行了一个座谈。

从这次讨论中,我主要感受是:
1. 品牌效应——做研究也是需要要看品牌的。David Patterson研究生涯中3个成功的研究成果(RISC,RAID,NOW)使他在体系结构领域已无人能望其项背。所以,他的号召力还是蛮强的,能把10几个Berkeley的教授召集起来。06年推出的“Berkeley View”虽然并没有重大的进展,但已经吸引了学术界与工业界的重视与关注。

2.眼界问题——他们的视眼要比国内广而远。比如,国内普通认为Memory Bandwidth将是Multicore的主要瓶颈之一,但是他们已经认为随着光互联技术、3D-Stack的技术发展,Memory Bandwidth在未来3~5年将不是问题,因此,他们的研究就不会受限于眼前。

但是,由于大量的工艺技术较落后,因而大陆做研究时很少考虑新工艺技术,因为这些一般不会在大陆首先提出。所以,我觉得做研究不能仅仅关注paper,跟踪国外业界的新使能技术发展看来也非常重要。

==================================================
中午一起就餐,席间也讨论很多有意思的话题

3. 在Berkeley Par Lab,有50多人,但是所有的教授、学生都只有一个工位,牛到如David Patterson 这样级别的,也没有单独的办公室。而且,他们的实验室大约有45人用的是苹果Mac笔记本。不过现在国内用Mac的也是越来越多了,我们小组就有多台Mac,包括Air这种新潮货,快和国际接轨啦,哈哈。

4. Krste教授在MIT呆了几年,但是他说不喜欢Boston,那里夏天太热、冬天太冷,所以他就转到加州。不过环境真的很影响人的性格和行为:由于Boston气候不好,MIT的学生喜欢呆在屋里聚在一起,大家在一起讨论;但是加州气候宜人,Berkeley人更喜欢去户外,更自由独立一些。  

===================================================
下午去串了两个workshop。

一个是EAMA 2008: The 1st Workshop on Emerging Applications and Many-core Architecture. 这个workshop更注重应用,所以大家主要是show在多核、GPU上介绍各种应用,挺有趣。特别是Stanford的一个报告还用视频来演示效果,我们小组也有一篇文章,Guangming Tan去做了报告,报告中举了911反恐的例子,很也有趣。

另一个是WARP-2008 - The 3rd Workshop on Architectural Research Prototyping。只听了一个报告,不过觉得质量还是挺不错的。我听的那个是Intel与MIT合作的工作,题目是Hybrid CPU/FPGA Performance Models。他们构建了一个框架,利用一种类似软件中RPC的方式来进行通信。

==================================================
因为有事,没有逗留很久,一会儿就出去了,大家再补充吧。
 

6月22日 

==========================
下午 workshop
==========================
我是下午才去参加workshop的,之前版上就说 MoBS 2008: The 4th Annual Workshop on Modeling, Benchmarking, and Simulation不错,于是便参加了这个workshop,不过可惜的是没有听到那个Keynote(How Many Simulators Does it Take to Build a Correct Chip?)。

第一个是一位中国学生Xi E. Chen(University of British Columbia)的工作,介绍了Memory Hierarchy性能分析模型细化,主要是考虑了1)多条指令同属一个Cache Line造成的依赖性,2)MSHR数目对性能的影响。我觉得这个工作介于最抽象的CPI=P(hit) * Latency(Hit) + (1-P(hit))* Latency(Miss)模型以及SimpleScaler模拟之间。

第二位是University of Maryland大学的工作,他们利用pin来收集Memory Reference Trace,然后实现了一个Trace-Driven的CMP$im来模拟Cache。我问了一个问题,由于pin得到的是virtual address,而CMP$im又不能获得页表信息,那么如何模拟Physical Cache?报告人Aamer Jaleel回答他认为Virtual Cache与Physical Cache行为不会有很大差别,结果招来大家的质疑,有人直接就说Huge different,因为OS Memory mapping会产生比较大的影响。然后大家又说也许page coloring可以减少这种影响。

还有一个报告是Stanford的Robert E. Lantz的工作,他主要是将SimOS并行化,工作很trick,效果很不错——在64节点上模拟64节点的目标机器有些应用的加速比可以达到32X以上。后来,我和他又聊了一会,跟他说princeton的并行模拟框架liberty可以做到细粒度模拟进行并行,也许将他的工作核liberty结合起来会有更好的效果,不过他说以前不知道liberty这个模拟器。后来他有介绍他的工作主要对SimOS的Embra模式(Binary Translation)进行并行的,难道非常大。

还有几个报告,就不一一陈述。

==========================
晚上 Reception
==========================
Reception是在一个很大的会场进行的,我想应该有超过200人参加。我想Reception就是提供一个大家相互交流的机会,ISCA好不容易在中国召开一次,不能错过这个与大牛们交流的好机会。从7点左右到8:40,转了很多圈,现在来盘点盘点收成:

(1) Robert E. Lantz(Stanford)。和他聊的比较多一些。我和Guangming等几个人和他一起聊天,向他介绍我们的工作,而他也向我们表述他的一些观点,比如他觉得并行应用的可视化问题非常重要。这家伙会好像还懂一些中文,挺有意思。

(2)Sandhya Dwarkadas(rochester)。Prof. Kai Li介绍我们彼此认识的,我和主要聊了我的工作,也向她请教了一些问题,我和她提到是不是认识Chen Ding,她说“Sure”,非常nice。
(3)Wen-Hann Wang(Intel)。也是Prof. Kai Li介绍的,不过我之前就知道Wen-Hann,我跟他说仔细读过他20年前的Virtual Cache + Real Cache的文章,这篇文章对我的工作很有启发,他高兴的说“long time ago”。后来还聊过一次,不过是用中文,由于周二有个Panel是“Computer Industry in China”(他和李国杰所长都会参加),他好像有些担心的问我“国杰会不会说英文”^_^ 我告诉他“李在美国呆过5年,会说的”,呵呵,小插曲,很有趣。

(4)Sally Mckee。06年时她到计算所做过一个报告,我参加过,所以和她提起这件事,她非常高兴,还忙着想用仅有的几句中文和我们交流。和她聊了很长,天南地北的,什么都聊,她实在是个太健谈了。

(5)Norman Jouppi。他是Sally Mckee拉过来和我们一起聊的,但我觉得他和Sally Mckee正好相反,话不多,不会主动聊话题,当然也许是不屑和我们这样的小辈聊天。

(6)Alex Veidenbaum(UC Irvine)。说道他,也很有趣。一直没有看到David Patterson,我们就到处找,然后看到远处有个光头,我和Guangming就跑过去打招呼,走近一看才发现不是!于是大家草草聊了句就散了。

(7)Guri Sohi.这家伙不得不提,太有型了。他一直到Reception开始时才出现,比Yale Patt晚一些。两个人都是“活宝”类型的。Yale穿得是那条网站有照片的自己修理的牛仔裤,裤裆还有洞;Sohi则是蓝头巾,短裤,拖鞋。我们和Sohi简单聊了一会,他说来过计算所,和李国杰所长认识。他一出现,狂多人找他合影,人很nice。

(8)Christian Bienia(Princeton). Prof. Kai的学生,超级健谈。他到处向人推销Parsec,和我们也聊了很长的时间,他主要分析了Parsec与SPLASH-2的区别,发现它们之间有很大的差别,比如working set等。所以认为SPLASH-2过时了,他还有些小抱怨说,人家Intel都是几十个人在做,而他这边只有1个人,太累了。

(9)Uzi Vishkin(Maryland).他和妻子一起过来的,我们刚开始和他妻子聊了一会儿,后来又和他的一个中国学生聊。一会儿他也过来了,Guangming和他聊了比较多的XMT。

(10)还有其他一些人,都不知道名字了,有来自NC State Univ., 爱丁堡大学……

=========================
第一次参加这样的会议,发现真的大大的拓展了我的交际能力。其实,有些牛人背过身后也许就忘了你了,但是,对我而言,从这些交流中却收获了非常好多。 



6月23日

今天开始,Main Program开始了。我把今天的见闻也分为两部分:学术 + 花絮

=====================================
1. Keynote:Micro-architecture is Dead, Long Live Micro-architecture Justin Rattner, Chief Technology Officer, Intel
他的题目很唬人,听完以后我的理解主要是这样的:在体系结构领域,CPU内的微体系结构已经不再重要了。他从四个方面来阐述这个观点,分别是:

(1)Response Time:他举了一个很有意思的例子,重启系统或者启动Outlook时,磁盘有86~89%的时间在忙碌,但是发现磁盘读取数据带宽却只有1~6MB/s。我想这个例子是想说明影响响应时间的罪魁祸首并不是CPU。

(2)Time to Feature:对于处理器的新功能,从研究到形成产品,需要8~9年的周期,因此新功能从提出到面向市场的周期太长了。因此,如果将CPU+ Reconfigurable logic也许可以大大的减少这个时间。

(3)Energy:他又举了一个例子,在一个系统中,正常情况下CPU的功耗只占了大约5%,我们通过很多功耗技术降低了功耗,能将这个比例讲到3%。但是实际上,系统功耗的大部分都是在北桥、南桥、显示系统等。

(4)Immersive Experience:这应该说是这些新的应用,比如3D Interface,Second Life等,对CPU提出了新的要求。

当然,Rattner也不失时机的介绍了Intel的新的Solid State Disk, Larrabee架构等。

 
2.第一个报告是来自Yale Patt的学生Francis Tseng的工作。这个工作的出发点微处理器内部随着Issue数目增加还有很大的性能提升空间,但是OoO太复杂,因此做到更多issue很难。因此他们的想法就是利用编译来构造braid,一个braid内部的数据自产自销,不需要重命名之类的,但它的输入来自其他braid的输出,这样就可以用很简单的流水来运行braid。从结果来看,性能接近完全OoO处理器。

后来和Tseng也聊过,他已经毕业,现在Austin的Intel研究院工作了。

3.第二个报告是来自UIUC的工作,他们认为其实现在的处理器是 In-Order Fetch,OoO Execute,In-Order Commit,所以他们就提出一种算法可以检测到一些Control Dependency,然后选择产生线程来预执行。当时听得还觉得挺明白的,现在想想其实具体的细节基本没有明白。大家感兴趣的去看论文吧。

4.第三个报告是将发现增大指令窗口可以提高性能,但是也会导致LSQ也会增大。使用传统的CAM来实现大容量的LSQ非常困难,所以他们提出了两级LSQ,对于那些High Locality访存就放在第一级,而Low Locality则放到第二级。但是他们的第二级LSQ还引入了一定的计算能力,可以做一些简单的运算,查询等。

下午的第一个Session是关于Memory,和我现在的工作比较相关。
第一和第三文章都是来自Microsoft Research,研究Memory Controller的优化。第一篇主要是类似于机器学习方法可以反馈式的对Memory Controller进行优化调度。而第三个则是Onur做的报告,介绍现在的Memory controller并没有考虑多核多线程的问题,因此他提出了一种新的调度算法解决了这些问题。Onur的报告很不错,之前我和他也交流过,他报告结束后,我也向他提了一个问题。

听了另一个关于Transactional Memory的Session,本来我对TM就不是很了解,再加上印度人的英语真是难听,基本上没有听明白。

=================================
应该说今天最精彩的是由Yale Patt主持的Panel——“Computer Architecture Research and ISCA: Have We Lost Our Compass?"  

说道这个panel,不得不说有一点遗憾,我大概只听懂了不到50%,好些人的提问都没有听清楚(到现场参加panel的朋友们块补充)。不管怎样,还是介绍一下当时的场景吧。

Host:Yale Patt
Panelist:Arvind,Trevor Mudge,Guri Sohi,James Goodman 

Yale Patt等自称是“Old man”,对近几年的ISCA状况表示担忧,说现在的ISCA缺少Grand-Break的创新,Proceeding中到处充满了Bar-Graph,尽是一些不可重复的实验,对工业界也没有什么影响等
Arvind的观点我印象已经不深了,但也是比较悲观的。

Trevor Mudge认为现在ISCA关注的领域太窄了,导致很多人都离开了ISCA。他认为所有复杂芯片设计都需要Architect,像嵌入式芯片、SoC等;

Guri Sohi总是特立独行,上来就是批判。他认为现在ISCA没有新的idea,受工业界影响太大,PC质量不高,太多的External Reviewers。所以他的观点就是“academy is academy,industry is industry”,完全分开,改革现在ISCA流程。这家伙在报告时说“Micro-architecture needs to die",然后还煞有介事的跑到旁边跪下来祈祷了一下,满场哄笑。

James Goodman的ppt上来第一页就是“ISCA09 is canceled”,他的观点也主要是现在ISCA不及以前了。

但是,下面许多人持有不同的观点,那些牛们都不断的现身说法,像David Patterson,Josep,Kriste,Mark Hill。。。

David Patterson上来就说“他不同意这些old man”,大家又是大笑,实际上他至少要比Sohi要大不少。他认为Adademy对Industry有些直接与间接的影响。Mark Hill也用old man来称呼这些人,Sohi解释说,实际上Mark Hill还要比他大一岁。Mark Hill和Guri Sohi还有些小拌嘴,Sohi在上面越来越张扬,我好像听到他说了一句谁认为现在的文章有影响,请举手,结果没有人举,他得意地说“No Body!” Mark Hill嘟囔着“I'm proud of my paper”就走了。Wen-mei Hwu也上去爆料说他邀请了Trevor(好像是,没有挺清楚)当PC,但被告知太忙不能参加,也邀请了Arvind,也被拒绝。Arvind也表现的一脸无奈。

Sohi的张扬也导致了更多的攻击,越来越多的人向他发难,有一段时间,我看到他用双手捂住了整个脸。

时间很快,一会就快到7点了,Guri Sohi及时提醒Yale Patt超时了,于是Panel就宣布结束。但显然大家都不尽兴。(有一些有趣的细节我可能忘了,也有一些是没有挺清楚,大家知道的快补充)

==================================
再来看一些小花絮吧。

Mark Hill:到快的时候才看到Mark Hill出现,我们跑过去和他聊天。他说不喜欢这种酒店,喜欢看人们的“real life”,所以他就找了一个鼓楼大街的小旅店住了下来,说在那里有农贸市场,有很多人买蔬菜、买鱼之类的,他没见过,比较喜欢。他还给我们show了一张小纸条,上面写道“司机师傅:请把我带到鼓楼大街XXX号XXXX旅馆。。。”Mark Hill对他的那篇“Amdahl's Law in the Multicore Era”的确是非常地自豪,问我们有没有看过,告诉我们发表在IEEE Micro上。

David Patterson:他的登记牌吊带上有“VIP”字样,但一直在注册台,没有人领。但是到下午Panel开始前,我们忽然发现好多人群涌到了注册台,原来大牛终于出现了。于是,大家就像追星族一般,希望能和他合影。David Patterson给人感觉非常的和蔼可亲,对大家的要求来者不拒。有人还拿着Proceeding索要他的签名,他也是一一答应。我们也凑过去和他握手,一起合影,大牛平时估计一直是一副笑脸,脸上其他地方都没有皱纹,但是眼角却有明显的呈扇形状的皱纹。



6月24日

今天的日程安排把ISCA的整个Program不断的推向高潮,让我来慢慢细说吧。

1.Keynote
与昨天Intel的Keynote相比,nVidia的David Kirk的Keynote逊色了不少。他的题目是“10 important problems in Computer Architecture”,但是讲的都是一些大家都耳熟能详的问题,比如功耗之类的,而且平台无味。听完后就忘了,像喝了一杯白开水。

2.Panel
这个Panel是专门为中国而开的,题目是“Computer Industry in China - Where is it going?”
Host:Wen-Mei Hwu
Moderator: Wen-mei Hwu, UIUC
Panelists: Dick Kramlich(风险投资公司), Guojie Li,Songde Ma(前科技部部长),Wen-Hann Wang(Intel), Wei Wei (联想)

这个Panel不及昨天的原因可能是太高层了,和绝大多数人并没有直接关系,而老外也许更是抱着一种看热闹的心态的打发时间。我听完以后也没有得到什么新的体会,主要还是说本土企业自主创新能力不行,附加值(Add Value)太少;以前不重视基础研究,但从05年始大陆也重视计算机领域会议的重要性,因此在ACM的会议上出现越来越多来自大陆的文章……

我自己觉得很多问题提的很好,但是都无解:比如Kai Li问Dick以他在硅谷几十年打拼的经历,一项成功的产品是政府主导因素重要还是市场化运作、风险投资等因素重要一些。Dick的回答比较中庸,认为政府在推动基础研究很重要,而市场化运作面向终端用户更重要。其实我觉得这个问题可以套到龙芯身上,计算所该扮演一个什么样的角色?“产学研”通吃还是集中精力攻“研”,放手“产”?

再如一个老外学生提问“大陆的教授带那么多的学生,但是资源有限、导师精力有限,如何解决?”这个问题在国内都快提烂了。

3.Award Luncheon
相当的精彩,颁了好几个奖:

(1)宣布IEEE Fellow名单

(2)ISCA Influential Paper Award:给了Maurice Herlihy在1993年ISCA上的一篇“Transactional Memory: Architectural Support for Lock-Free Data Structures”;

(3)Distinguished Service Award:不知道给了谁,没有挺清楚,也没有看清楚

(4)The Maurice Wilkes Award:Sarita V. Adve。她特别能说,感谢了一大堆人,还说找导师就要找Mark Hill那样的,她这次把全家都带过来了。

最好还是来看看大奖吧:Eckert-Mauchly Award,得主是David Patterson。

随后David Patterson做了一个获奖报告,题目是:“Grand Challenges and Greate Teams”。他a)首先回顾了体系结构领域在20世纪体系结构领域获得的成就,如:Stored Program Computer,Memory Hierarchies, Instruction Level Parallelism……
b)然后提了几点认为可能是21世纪计算机系统的Grand Challenges,即:
    [1]Parallel computers easy to program, scalable 
    [2]Never fails you (99.9999999%: 1 sec/century)
    [3]Secure and protects privacy
    [4]Reduce absolute energy while increasing MIPS/$
    [5]Leverage IT advances to help all of humanity
c) 然后提了一下机遇
d) 他所经历的各种团队:高中大学时他在摔跤队--> RISC团队 --> RAID团队 --> NOW团队 --> 现在的PAD Lab和Par Lab
e)最后他介绍了他的家庭与自己的婚姻生活,12岁认识他现在妻子,16岁开始约会,19岁结婚,21岁生孩子……大牛的人生步伐比别人走的就是快啊^_^

他的报告在网上可以找到,大家可以自己去看
~pattrsn/talks/keynote.html


下午我听了两个Session——Novel Microarchitecture 和System Architecture and I/O


先看Novel Microarchitecture Session。

第一篇是来自Harford的Xiaoyao Liang的工作。这个工作的出发点就是认为未来的芯片制造是存在Process Variation,因此会导致多核处理器中各个核的性能并不完全一致。他们提出了使用两种电压,首先检测各个核的性能(合适电压),然后通过一个Configuration Logic来选择合适的电压,这样可以起到使各个核的性能一致,而这个工作对功耗研究也有启发。我之前也读过Xiaoyao在Micro07上发表的研究3T1D Cache Cell Process Variation的文章。后来和他聊天,他的老板是David Brooks,给他指导了一个很好的方向,避开了功耗这个热点,选择Process Variation这个突破口,在Top Conference上发表了一系列文章。他现在正在找工作,祝他能找到好工作!

后面两篇我开小差了,基本没有怎么听,其中一篇是Trading Off Cache Capacity for Reliability to Enable Low Voltage Operation。还有一篇就是板上说的那个Austin的美女做到Counting Dependence Predictors,她真的紧张,声音都是在颤抖。说一个小花絮,美女还是嫰了一些,有一个问她一个问题(具体我已经忘了),mm紧张的说“I'm not trying this, so I'm not sure”(原话)。我看了一眼Doug Burger,他显然对这个回答不满意,而旁边的Stephen W. Keckler则看看Doug Burger,笑了笑。

第二个Session关于System Architecture and I/O
第一篇是讲在磁盘内增加磁头,可以提高很大的性能。我进去的时候已经讲到Evaluation了,听起来还是有些意思,又是一种复古主义;

第二篇“Understanding and Designing New Server Architectures for Emerging Warehouse-Computing Environments”。我仔细听了一下,但越听觉得越熟悉。先简单说一下他们的思想吧,目标是提高Data Intensive Center的性价比,他们采用很瘦的主机(使用嵌入式芯片),然后使用Shared Remote Memory,Shared Disk。这种结构性能会稍差一些,但是却获得了2~6X的性价比的提高。

说道这里,我真的很想说一点计算所樊建平和陈明宇研究员在03年提的DSAG思想(),虽然提出的时候是在网格环境下,但是基本的思想和这篇ISCA文章还是很接近的。当时,我们小组自己开发了DSAG模拟器与操作系统,还研究了光互联技术,实现了通过DIMM+光通信的原型系统。但是,我觉得我们的研究思路与方法还是有些问题,一是还没有想好应用场景,二是对国外的未来发展趋势跟踪与调研不够,三是没有想过向国外会议期刊发表。有时候觉得,其实我们并不缺想法,但也许我们还需要设计更好的有说服力的实验,也需要一些时间来熟悉ISCA这类顶级会议的喜好,才能进入这个圈子。

第三篇是有Trevor Mudge亲自主讲,内容我听后也没有眼前一亮的感觉。比较有趣的是Trevor报告时会在每页ppt前告诉大家“这页花3分钟”,“这页花45秒”,说了一会儿后,还会报一下时间,“这页只剩下还有15秒了”。

=====================================
今天的报告结束后,大家开始乘车前往人民大会堂。
组织人员在安排路线上肯定费了心思,选择了一条最能反映现代化北京的路线:亚运村--》雍和宫--》沿东二环--》长安街。可是5点多,正是堵车的时间,足足走了有一个小时,倒是可以让老外好好看看北京的新面貌。

到了人民大会堂,老外一下大巴就开始忙着合影。
VmWare赞助了晚会前的音乐会,Intel赞助了晚会。音乐会是有中国少年乐团演奏的,前面4曲是西方交响乐,现场鸦雀无声。接下来5曲是中国传统乐器演奏,比如琵琶、二胡、古筝、唢呐等。这是现场就开始热闹起来了。老外实在是没有见过这些稀奇古怪的乐器,都跑到前面,开始疯狂的拍摄。Mark Hill本来是在最边上,一直跑到了最前面,离乐团只有几步之遥,看来他比较喜欢这种传统的东西。
说到菜,味道一般,但比较精致,基本满足老外的口味,没有骨头,没有刺:)




6月25日

今天是ISCA的最后一天了,毕竟是在中国召开,所以组织者邀请了Weiwu Hu做了一个Invited Talk——“Research and Development of Godson Processors”。

Weiwu Hu的这个Talk主要包含两部分内容:
1.龙芯的过去几年的发展路线与未来几年的目标;
2.用龙芯研制过程中经历8个经验与教训来批判“Paper to Paper”工作

龙芯的成长在这里我就不展开介绍了,而对于未来,龙芯要集成多核、x86兼容、通用+专用异构的等功能。Hu抛出两个承诺:一是今年第三季度4核的龙芯3要流片回来;二是龙芯多核时钟级模拟器将在今年第四季度公开源码,供学术界研究。

Hu报告言辞最激动的还是在他的第二部分,也是以批判当前体系结构研究作为出发点。他认为:(有些有些遗忘,大家知道的补充吧)
  [1] 现在研究是“P2P”(Paper to Paper),而有价值的应该是“Paper to Silicon”;
  [2] 学术研究只关注“Best Case”,而工程则关注“Worst Case”;
  [3] Simulator cheat you; FPGA cheat you; Textbook cheat you; 他举了若干个例子来说明这些“cheat”,如,用10MHz的FPGA仿真时未考虑到100MHz Memory导致仿真结果比实际芯片好20~30%;一个4-way Cache替换算法使用的计数器频率是Core频率的1/2或者1/4时导致只替换even way;又如David Patterson的Textbook中说indirect branch instructions只占到了所有条件转移的不到10%,所以他们便没有做这些指令的Prediction,导致Branch prediction Miss Rate很高,所以后来还是把Branch Target Buffer实现了一把,获得了11%的性能提高;再如未考虑到SPEC CPU执行时TLB Miss带来的OS开销,导致有些应用OS执行占到了30%,于是对大页面进行了研究……
更多的例子,大家可以去看这篇文章 %5C3942.pdf 。其实,从我掌握的知识来看,Prof. Hu提出的有些例子在以往一些Paper中已经有研究过或者说明过了。当然,从他的这些例子中可以,还是看出龙芯团队在调试与优化方面花了不少的心血,也许这些经验与教训的确只有亲身经历后才有深刻体会。

Hu报告正到语调高昂的时候,忽然投影仪黑了,当时我们都以为龙芯笔记本出问题了。Prof. Hu也换了一个准备好的其他笔记本,可以投影仪还是没有显示,现场不安起来……

David Patterson这位大牛真是特别善解人意,站起来率先提问,安定现场民心。 他问道,龙芯团队现在有多少人,Hu说有100人研发,然后又补充还有200人做产业化,David Patterson笑着说了一句话,“中国还是市场大啊”(大意),现场又笑了起来。此时工作人员把投影仪弄好,还好不是龙芯笔记本的问题。David Patterson回到了座位,Hu继续后面的报告。

报告结束后,国外的研究人员提了2个问题,他们似乎对这些经验与教训并不是很关心,反而对初见雏形的龙芯很赶感兴趣。Stanford的Christos Kozyraki关心的是龙芯的功耗为何那么低,而另一个则问了一个关于流水线级数的问题。

总的来说,这也是第一次龙芯在国际体系结构研究人员的亮相,算是在学术圈里也做了一次宣传。
预告:龙芯还会在今年的HotChip上再次亮相。

====================================
最后,还有2个Track,4个Session。我听了Application Acceleration和Performance Evaluation

Application Acceleration Session
前面两个报告和我方向还是有一些差别,听完以后也没有什么印象。第三个报告就是今年大陆唯一的一篇ISCA,来自Haibo Chen的SHIFT。我听得比较认真,相比与之前听得那么多的报告,我觉得他的工作要做更漂亮扎实,报告内容也很翔实精彩。不禁感叹,大陆的土鳖们要在ISCA这样的Top Conference上发表,没有牛人署名撑腰的话,只有靠比别人更出彩的工作。好在这几年的发展趋势越来越好,相信未来若干年后,这些会议的PC中定会出现越来越多大陆学者的名字。

Performance Evaluation Session
第一篇文章是“Software-Controlled Priority Characterization of POWER5 Processor”,就是用软件利用POWER5自身提供的设置线程priority功能,取得了比原来Linux傻调度策略更好的效果,类似于一篇实验分析技术报告。

今年ISCA最后一篇是“Learning and Leveraging the Relationship between Architecture-Level Measurements and Individual User Satisfaction”,很有创意,研究用户的满意程度。他们首先分析用户对应用程序的满意度随着机器性能变化有不同表现曲线。比如随着性能由低到高,用于满意度有的是平的,有的是线性,有的是突变型,有的是阶梯形。因此他们就设计了一个算法,能尽量满足用户的同时降低功耗,效果较好。

现在的会议好像很鼓励这种有创意的文章,我看过SC05有一篇研究非专业人员学习并行编程的文章,ISCA05有一篇是利用P4处理器的降频功能,在一台4路的SMP上模拟异构多核机器,分析对应用性能的影响,都很有意思。

======================================
至此,ISCA08终于结束了,下午还有安排去长城旅游。
第一次亲历ISCA,这里留下了很多让我细细回味的收获……
阅读(1181) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~