图 6 – KeyStone 多内核架构 TI KeyStone多内核架构拥有高度的灵活性,可同时集成定点与浮点运算、定向协处理与硬件加速,以及优化的内核间/组件间通信。此架构包括多个 C66x DSP 内核,能够支持高达 256 GMAC 的定点运算性能以及 128GFLOP 的浮点运算性能。另外,此架构还包括综合而全面的连接功能层:TeraNet2 能够与各种处理组件无缝互连;多内核共享内存控制器能直接接入片上共享存储器与外部第三代双倍数据速率 () 存储器;多内核导航器可助于管理整个 SoC 架构的通信;以及 HyperLink 50 可与额外的协处理器或其他 TI SoC 等同伴器件实现互通互连。部分此类关键处理组件可在 TI SoC 上实现 LTE L2 与传输处理。
网络协处理器 网络协处理器是一款硬件加速器,能够减轻 DSP 内核处理往返于核心网络的以太网分组的工作量。网络协处理器包含 6 个微精简指令集计算 (µRISC) 内核,可加速自主的分组对分组处理。网络协处理器中的硬件模块 —— 分组加速器与安全加速器可在传输网络层以及深层无线电广播网络层实现快速通道处理。 网络协处理器在 LTE 传输/回程侧的功能特性包括:以太网/IP/包络安全有效负载 (ESP)/用户数据报协议 (UDP) 报头处理;循环冗余校验 (CRC) 验证与生成;IPSec 检测、认证、加密与解密;通用路由包络 (GRE) 隧道;基于 IPv4/6、传输控制协议 (TCP)/UDP、SCTP 端口或 GTP-U 隧道数据包的分类与路由;以及,基于 GTP-U 的服务质量。 在无线电广播端,网络协处理器可支持基于特定配置文件匹配(例如根据【RFC】4995 批注请求的未压缩大型数据包)与 3GPP 空中加密与解密的 RoHC。网络协处理器支持每秒 150 万个数据包(1Gbps 以太网线速)的处理速度,带相关安全上下文高速缓存的 64 条独立 IPSec 隧道,安全上下文在主存储器中的 8,192 条 IPSec 隧道,以及 8,192 个 GTP-U 隧道 ID 查询条目。
多内核导航器 多内核导航器使用一套队列管理器子系统与数据包直接存储器存取 (DMA) 子系统来控制与实施设备内的高速数据包移动,从而能够显著降低设备 DSP 的传统内部通信负载,进而提高整体系统性能。多内核导航器采用零复制方案在所有层进行数据处理优化。多内核导航器还支持分类与排序、多内核访问存储、存储器管理、分段与重组以及跨多个内核或器件进行交付。 队列管理器子系统包含 8,192 个硬件队列,负责加速数据包队列的管理。在队列管理器模块的特定存储器映射位置中写入 32 位描述符地址,即可将数据包添加至数据包队列。可通过读取特定队列相同地址来解除队列。 数据包 DMA 子系统包含 6 个数据包DMA,能够在 Serial® (SRIO)、第二代空中接口 (AIF2) 以及数据包加速器等器件中为管理数据包缓冲器的基础局端提供其它子系统。数据包 DMA是一个其数据目的地由一个目的地与自由描述符队列索引(而非绝对存储器地址)来决定的DMA。
快速通道处理与零复制方案 本部分探讨了如何使用 TI KeyStone 架构的关键处理组件来加速 LTE L2 网络与传输处理。上面介绍过的关键处理组件与 LTE L2 网络及传输处理功能相关。这些组件实现的快速通道处理与零复制方案对于使用 LTE 实现低时延与高吞吐量性能非常重要。
传输层处理 图 7 说明了如何使用网络协处理器来加速 LTE 传输层的处理。
图 7 – 传输层处理的加速 在核心网络端,数据包既可以通过具有内置串行千兆介质独立接口 (SGMII) 的千兆以太网接口也可以通过 SRIO 接口进入网络协处理器。数据包报头首先经过检验和验证(例如以太网 MAC 地址),然后被传输至 IPSec 终端。经过 IPSec 终端后,网络协处理器可检验内部报头是否与 GTP-U/UDP/IP 相匹配。随即执行 32 位 GTP-U ID 值的查找,并使用关联的 QoS 与无线电广播承载队列 (RBQ) 对进入的数据包进行分类。 RoHC 硬件可寻找描述匹配。可将数据包路由至软件RoHC处理(例如支持 RTP/UDP/IP报头压缩的 VoIP 数据包),或在经过 RoHC 硬件模块(例如根据 RFC4995 规定的未压缩大型数据包)执行最基本的“全硬件”处理后直接对 3GPP 进行加密。如果需要进行软件 RoHC 处理,在报头压缩后,RoHC SW 模块将数据包返回至网络协处理器进行 3GPP 空中加密。加密后,数据包被路由至相关的无线广播承载硬件队列,并在其中根据用于相似 QoS 数据包的算法来进行调度。向 RLC/MAC 模块交付调度授权后,其根据需要从 RBQ 弹出的数据包可将这些授权传递至 RLC/MAC 协议栈,并根据所授权的长度创建 MAC PDU。 总之,网络协处理器可创建全加速的自主快速通道处理,在大多数情况下可完全终止 S1-U/X2 用户层处理并为软件运行交付已分类的 RLC SDU。
L2 数据层处理 多内核导航器可为 LTE L2 数据(用户)层处理提供数据包基础局端。数据包基础局端可减轻从 DSP 分类的工作量,从而为零复制操作提供硬件,并为分段与重组提供硬件辅助。二者结合起来即可大幅加速 LTE L2 数据层的处理,以获得低时延、高吞吐量性能。 借助多内核导航器,系统中的所有数据包都能够满足数据包DMA 接口规范要求。数据包通常以图 8 中的主机类型数据包格式表示,其可实现灵活的存储器使用模式。在这种格式下,数据包通过链路缓冲器描述符 (BD) 来表述。我们将第一个 BD被称为数据包描述符 (PD)。BD 具有指向储存数据包有效负载的数据包缓冲器指针。队列管理器可与 PD 协同工作。
图 8 –主机类型的数据包格式 队列管理器可在其内部随机访问存储器 (RAM) 中维护数据包链路信息,从而为实现超高效率的数据包压入与弹出提供简单的软件应用编程接口 (API)。此外,其还可以确保队列所有访问的多核原子性,从而将多核软件从门控与保护逻辑中释放出来。为了实现基于演进数据包系统 (EPS) QoS 的无线电广播承载服务架构目标,相似服务等级的无线电广播承载都要以硬件队列集的形式出现。 零复制 RLC/MAC 概念充分利用数据有效负载无需在 PHY 编码器/解码器的 PDCP 加密(解密)与 CRC 生成(或校验)之间进行处理的这一原理。RLC 与 MAC 子层需要对数据包进行汇聚/解汇聚、分段/解分段、多路复用/解多路复用,并需添加/移除控制信息与报头。想要在无需触及有效负载数据(零复制)的情况下实现这一点可节约多达 90-95% 的处理周期时间。因此,有效负载数据驻留在 DDR 中,而且 L2 DSP 核心软件是不可触及的。
图 9 – 下行数据流示例 例如,在下行方向,网络协处理器数据包 DMA 进程负责对数据包进行接收、分段与分配。RLC/MAC 软件可在数据包描述符上运行且无需访问数据包有效负载。其构建的 MAC PDU 可被 SRIO 数据包 DMA 发出并反向重组成相邻的存储器。 RLC/MAC 软件使用数据包 API 库在数据包内运行。该软件可在数据包链中移除/插入描述符,而且还能执行数据包合并/分离操作。在需要额外报头时才用得上新的描述符。图 9 以在网络协处理器中执行 PDCP (RoHC) 等所有快速通道处理为假定条件,对下行数据流进行了总结。 我们将所有指向预分配固定容量数据缓冲器的 BD 链接在一起,并将其放置在下行 (DL) 自由队列中。有多个自由队列,每一个队列都对应一个固定容量的缓冲器。当来自网络协处理器的数据包到达后,网络协处理器中的数据包 DMA 即从 DL 自由队列中拉取 BD,然后根据 GTP-U ID/RBQ ID 映射对其进行初始化和构建 PD,并将 PD 压入 RBQ。DL 调度程序制定分配决策,并向 RLC/MAC 进程发布分配授权。 RLC 与 MAC 根据需要弹出授权的 RBQ,然后将 PD 路由至 RLC 与MAC 队列。可能对数据包分段,之后统一进行多路复用并为其添加报头。数据包被保留在 RLC AM 重传队列中,同时对这些数据包克隆的复制版本(新的 PD 指向同一缓冲器)会向下流至可创建 MAC PDU 的协议栈。当传输就绪时,数据包(用于已分配 UE 的 MAC PDU)在硬件 DL PHY 队列中排队。SRIO 中的数据包 DMA 从 DL PHY 队列获取数据包,然后将它们传输至 LTE PHY 设备。传输开始后,数据包进入 HARQ 重传队列,并且在成功交付后返回到 DL 自由队列中。
调度层 对于调度层,制定无线电广播资源的分配时需将瞬时通道条件、流量条件以及 QoS 等要求纳入考虑范围。因为通道与流量条件因时间和频率的不同会有很大差异,因此能否实现高效的带宽利用率很大程度上取决于调度程序选择最佳可能用户(单个用户或用户对)的能力。 典型的调度算法可为单个或多个用户模式构建一组调度假定方案。调度程序然后根据链路的自适应性为每种假定计算中标率。最终,调度程序选出最佳假定方案并用以指导通道分配。 调度算法的复杂性是由单个调度假定的计算成本以及需检查的假定数目来决定的。信号处理密度型调度是一种高效率的动态的通道感知型调度。上行端的 FDD/TDD 调度程序需要计算足够大的一套假定方案才能维持单个或多个用户模式的调度增益;同时,带下行链路波束成形 (downlink beam foaming) 的 TDD 调度程序要求的假定方案可假定定向传输与特征值分解 (EVD) 计算。KeyStone 架构中的 C66x DSP 内核可支持专业的定点与浮点指令,可实现高效的 EVD 计算,如矩阵相乘、矩阵求逆以及大量用户(数以百计甚至数以千计)的高效搜索与筛选。图 10 提供了由 TI 仿真工具生成的调度程序可视化示例。此例使用 100 个无线电广播资源模块,每个传输时间间隔(TTI,1 毫秒)可生成 20 个分配授权。频谱的较低位部分可用于半持续性语音流量,而较高位部分则用于特定的数据流量。
图 10 – 调度程序可视化示例
结论 TI KeyStone 多内核 SoC 架构可提供一个低时延、高吞吐量的低成本高效率平台,可支持适用于宏与小型蜂窝 eNodeB 系统的真正多标准 (LTE、WCDMA)解决方案。高吞吐量硬件加速器与数据包基础局端加速可实现灵活且可扩展的 LTE 部署,同时还能最大限度地缩短 LTE 系统所需的时延。在同一 DSP 中集成定点与浮点技术可实现优化的矩阵处理最,以满足 LTE要求的调度效率。 根据对宏 LTE 系统的解决方案分析,由于采用KeyStone 多内核架构实现快速通道与零复制处理,可以将 20 MHz、2x2 多重输入多重输出 (MIMO) 以及 105 Mbps 下行与 52Mbps 上行数据率- L2 数据-以及传输层系统开销降低10 到 15 倍。借助针对 LTE 调度程序运行而优化的 C66x DSP 定点与浮点指令,还可以使用更多高级调度算法,从而将频谱利用率提高 20%。