32位寄存器bit1求和的CPU和FPGA实现性能分析-FBI888XH-ChinaUnix博客

FBI888XH的ChinaUnix博客xh.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

FBI888XH

博客访问： 1186561
博文数量： 173
博客积分： 4048
博客等级：
技术积分： 2679
用户组：普通用户
注册时间： 2010-09-12 18:53

文章分类

全部博文（173）

存储（10）
FPGA logic题目（17）
u-boot（2）
android（0）
linux驱动（13）
数据结构（3）
linux应用程序开（1）
51单片机（4）
ffmpeg（13）

ffmpeg tutorial（5）

ffmpeg tutorial （7）
c语言（14）
足球（0）
古代官场斗争（2）

明代官场斗争（2）
ubuntu软件安装使（4）
FPGA（54）
linux内核（18）
linux服务器管理（9）
未分配的博文（9）

文章存档

2018年（1）

2016年（1）

2013年（1）

2012年（118）

2011年（52）

我的朋友

相关博文

32位寄存器bit1求和的CPU和FPGA实现性能分析

分类：嵌入式

2018-01-10 16:57:35

简单算法汇编实现

点击(此处)折叠或打开

mov ebx,0
loop:
and ecx,eax,1
add ebx,ecx
shr eax,1
jnz loop

line3和line4指令存在寄存器相关，但可以通过forward技术使指令pipe起来。line4,5,6
在多发射的cpu可以并行，算作一条指令。假设loop指令可以分支预测成功
，则所有的指令可以pipe起来，每周期执行一条指令。不考虑取指和流水线建立的时间，
总执行时间 = 32x2=64 cycle

使用专门算法：

点击(此处)折叠或打开

x = x & 0x55555555 + (x>>1) & 0x55555555;
x = x & 0x33333333 + (x>>2) & 0x33333333;
x = x & 0x0f0f0f0f + (x>>4) & 0x0f0f0f0f;
x = x & 0x00ff00ff + (x>>8) & 0x00ff00ff;
x = x & 0x0000ffff + (x>>16) & 0x0000ffff;

汇编实现

点击(此处)折叠或打开

and ecx,eax,0x55555555
shr edx,eax,0x1
and edx,0x55555555
add eax,ecx,edx

每步4条指令。line1和line2可并行，line2,3,4寄存器相关，可使用定向技术pipe起来。
执行时间 = 3x5=15 cycle

FPGA实现

点击(此处)折叠或打开

always@(posedge clk or negedge rstn)
begin
if(~rstn)
dat_sum <= 'b0;
else
dat_sum <= datin[0] + datin[1] + ... datin[31];
end

寄存器dat_sum由dat_in经加法器直接得到。
综合得到的电路为：

总执行时间 = 1 cycle

如果FPGA和CPU时钟相同，则可以得到15倍于CPU的性能。虽然FPGA的时钟频率会慢些，但也可以得到数倍于CPU的性能。

阅读(1228) | 评论(0) | 转发(0) |

上一篇：Linux-3.14.12内存管理笔记【X86内存映射小结（2）】

下一篇：没有了

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6