一、产品概述
设备基于3U VPX的导冷结构,集成FPGA接口预处理卡,GPU板卡、飞腾ARM处理卡,实现光纤、差分电口或者Camera link的图像接入,FPGA信号预处理,GPU AI计算,飞腾ARM的采集管理存储。
二、系统组成
系统组成包括:3U VPX机箱电源、3U VPX背板、 1块3U VPX V7采集处理板、1块3U VPX AGX orin GPU计算主板、1块3U VPX飞腾处理器计算板。
2.1基于XC7V690T的3U VPX信号处理板(274)
本板卡系我司自主研发的基于3U VPX导冷架构的信号处理板,适用于高速图像处理等。芯片采用工业级设计。该处理板包含1片Xilinx公司的Virtex7系列FPGA-XC7V690T-2FFG1761I。板载两组64位宽DDR3,每组容量4GB,一个HPC FMC接口。VPX接口连接4组x4 GTH,24组LVDS,一路RS422,一路1000Base-T。板卡的电气与机械设计依据VPX标准(VITA 46.0),支持导冷,能够满足用户在特殊环境下的使用需求。
板卡功能
|
参数内容
|
主处理器
|
Xilinx XC7V690T-2FFG1761I
|
板卡标准
|
VPX VITA 46.0
|
电气规范
|
PCIe 2.0,3.0 X4
|
FMC接口
|
FMC ANSI/VITA 57.1 – 2008 ,ASP-134486-01
HPC中LA,HA,HB全部接口和DP0~DP7 8路高速接口
|
板载缓存
|
两组DDR3,每组512Mx64bit(4GB), MT41K512M8RH-125-IT
|
加载Flash
|
BPI加载模式,BPI Flash 2Gb
|
VPX接口
|
P1: GTX x16, 支持PCIe、SRIO协议
P2: LVDS x24,一路RS422,一路1000Base-T
|
仿真器接口
|
1x 6Pin JTAG接口,间距2.54mm
|
LED
|
两个,电源状态指示灯,FPGA状态指示灯(可编程)
|
复位方式
|
外复位
|
板卡尺寸
|
100mm x 160mm x20mm
|
板卡重量
|
(含散热片)
|
板卡供电
|
+12V@4A
|
板卡功耗
|
48W
|
工作温度
|
Industrial -20℃到+70℃
|
光纤收发子卡、2711子卡、Cameralink子卡
2.2 基于3U VPX的AGX Orin GPU计算主板(735)
Jetson AGX Orin 采用 NVIDIA Ampere 架构 GPU 和 Arm Cortex-A78AE CPU,以及新一代深度学习和视觉加速器。高速 IO、204GB/s 的内存带宽以及 32GB 的 DRAM 能够馈送多个并发 AI 应用程序管道。采用 Jetson AGX Orin,您现在可以部署更大型、更复杂的模型,解决自然语言理解、3D 感知和多传感器融合等问题。Jetson Orin算力高达275 TOPS,是上一代多个并发 AI推理管道性能的8倍,加上支持多个传感器高速接口,可为新时代机器人提供理想的解决方案.
GPU
|
2048-core NVIDIA Ampere architecture GPU with
64 Tensor Cores
|
CPU
|
12-core Arm Cortex-A78AE v8.2 64-bit CPU
3MB L2 + 6MB L3
|
显存
|
64GB 256-bit LPDDR5 204.8GB/s
|
存储
|
64GB eMMC 5.1
|
DLA{BANNED}最佳大频率
|
1.6 GHz
|
AI性能
|
275 TOPS
|
DL加速器
|
2x NVDLA v2
|
视频加速器
|
1x PVA v2
|
视频编码
|
2x 4K60 (H.265), 4x 4K30 (H.265)
8x 1080p60 (H.265), 16x 1080p30 (H.265)
|
视频解码
|
1x 8K30 (H.265), 3x 4K60 (H.265), 7x 4K30 (H.265)
11x 1080p60 (H.265),22x 1080p30 (H.265)
|
PCle
|
x8 PCle Gen4
|
显示接口
|
HDMI
|
网络
|
RJ45 接口 (高达1 GbE)
|
2.3 3U VPX飞腾处理器刀片计算机
2.3.1 产品概述
该产品是一款基于国产飞腾FT2000 4核或腾锐D2000 8核的高性能3U VPX刀片式计算机。产品提供了4个x4 PCIe 3.0总线接口,同时可配置为1个x16或2个x8 PCIe3.0接口,因此具有很强的扩展性,极大地满足多负载多节点的应用需求。产品结构完全符合VITA 46.0规范,有很强的可靠性、可维护性、可管理性,并与军用计算机的抗振动、抗冲击、抗宽温环境急剧变化等恶劣环境特性进行完美融合。
2.3.2 功能指标
● 3U 5HP VPX规格。
● 支持FT-2000/4 四核处理器和腾锐D2000 八核处理器
FT-2000/4标准版,2.6GHz,16W
腾锐D2000/8标准版,2.3GHz,25W
● 板载16GB双通道DDR4内存,频率2400MHz。
● 支持2个VGA接口,{BANNED}最佳大分辨率1920x1080@60Hz;其中1路VGA为后出接口。
● 支持4个x4 PCIe3.0接口,可配置成1个x16 PCIe 3.0或2个x8 PCIe 3.0。
● 前面板支持1路10/100/1000Mbps网络接口,后出2路10/100/1000Mbps网络信号,其中1路后出网口与前面板网口二选一切换。
● 板载1个mSATA接口,支持SATA3.0;后出2路SATA3.0信号,用于扩展存储。
● 前面板支持2个USB3.0接口;后出2路USB3.0接口信号。
● 提供2路RS232后出串口,其中1路可选RS422/RS485模式。
● 提供1路RS232后出CPU管理串口。
● 前面板带复位按键和LED指示灯。
● 单板管理功能(可选功能)。
● 支持银河麒麟、UOS、Centos、ubuntu、VxWorks系统。
(本项目使用ubuntu操作系统)
三、软件开发内容
3.1光纤收发整体流程设计
2路QSFP+光纤接口,一路作为发送端口,一路作为接收端口,每路接口作为4个X1通道互不影响。
接收端:数据流从光纤接收端进来,存到FPGA的DDR中,然后通过PCIE导入到GPU中。
发送端:数据存在飞腾主板中,飞腾通过PCIE写入FPGA的DDR中,FPGA取走数据,通过光纤发送端口发送出去。
GPU接收的数据通过千兆网发送到飞腾主板中。
3.2 TLK2711收发整体流程设计
4路TLK2711接口,2路作为发送端口,2路作为接收端口,每路接口互不影响。
接收端:数据流从TLK2711接收端进来,存到FPGA的DDR中,然后通过PCIE导入到GPU中。
发送端:数据存在飞腾主板中,飞腾通过PCIE写入FPGA的DDR中,FPGA取走数据,通过TLK2711发送端口发送出去。
GPU接收的数据通过千兆网发送到飞腾主板中。
3.3 FPGA流程框架
如图所示,FPGA程序可以大体划分为PCIe端点控制器XDMA、DDR3读写控制以及TLK2711收发控制三部分。FPGA与PC的PCIe通信采用Xilinx的XDMA IP,逻辑模块间采用AXI互联方式。XDMA0数据链路为飞腾主板主控数据链路,XDMA1数据链路为Orin_GPU卡主控数据链路。
Orin_GPU卡主控数据链路:tlk2711子卡的接收端口接收到图像数据缓存到{BANNED}中国第一组ddr3中,大小为4GB,对0-4GB的ddr3空间读写,gpu把图像数据读出并作处理。链路数据流向分为数据发送(FPGA-PC)(这里飞腾主板和Orin_GPU卡都称为PC):
数据接收过程描述(FPGA-PC):图像数据以1.6Gbps线速率通过rxp接口,wr_fifo把16bit数据位宽转化为128bit数据位宽,fdma_ctrl的写ddr3模块把数据写入到0-4GB的地址空间,通过定义的寄存器信号告诉主机软件取出对应地址空间的数据,通过dma的C2H通道直接写入主机内存。
飞腾主板主控数据链路:飞腾主板把图像处理结果写入板卡第二组ddr3中,fpga逻辑读出ddr3中的数据通过tlk2711子卡的发送端口发送出去。(这里飞腾主板和Orin_GPU卡都称为PC)。
数据发送过程描述(PC-FPGA):为了实现数据发送,主机软件从主机内存固定位置读出图像处理数据发送到DMA的H2C通道,写入到板载第二组DDR3的0-4GB的空间,主机软件通过寄存器通知fdma_ctrl的读ddr3模块取出对应地址ddr3的数据,通过rd_fifo把数据128bit位宽变化到16bit后,给到tlk2711子卡的发送模块,{BANNED}最佳后数据以1.6Gbps的线速率通过txp口发送出去。
3.4 软件PCIE读流程
软件启动开始接收,软件通过寄存器使能FPGA开始接收数据(光纤或者TLK2711数据),软件开始轮询FPGA写入完成寄存器,当读到FPGA完成标志,说明FPGA已经写入数据,软件读取DDR中数据,完成一次读取数据交互流程。
之后重复单次流程,直到数据接收完整。
3.5 软件PCIE写流程
软件启动开始发送数据(光纤或者TLK2711数据),软件把数据写入DDR中, 通过寄存器使能FPGA开始发送,软件开始轮询FPGA读取完成寄存器,当读到FPGA完成标志,说明FPGA已经把DDR的数据取走,这样就完成一次写入数据交互流程。之后重复单次流程,直到数据发送完整。
3.6飞腾GPU数据交互
在背板设计中,飞腾主板和GPU千兆网互联和RS232互联。考虑传输速度,使用千兆网进行传输。使用TCP/IP协议,飞腾处理器为TCP服务端,GPU为TCP客户端主动进行链接请求。
3.7 客户端界面
客户端具有状态信息显示,控制四通道光纤数据发送或者双通道TLK2711接口数据发生功能。上位机自动识别FPGA子卡类型,切换操作界面。
四通道光纤子卡界面
双通道TLK2711子卡界面
|