双流实值FFT架构：基于重叠DFG与硬件复用的高吞吐量设计

张

张建站

2026/5/27 15:37:18

10分钟阅读

1. 项目概述为什么我们需要一个能“一心二用”的FFT处理器在数字信号处理DSP和无线通信的硬件设计领域快速傅里叶变换FFT处理器就像引擎里的涡轮增压器它的性能直接决定了整个系统处理数据流的“马力”。传统的FFT处理器设计无论是处理复值信号还是实值信号大多遵循一个核心思路一个时钟周期处理一个数据样本。这在很多对实时性要求不高的场景下是足够的。然而当我们面对像大规模MIMO多输入多输出通信、相控阵雷达、或者高分辨率医学成像这类应用时数据流是成对甚至成组到来的对吞吐量的要求呈指数级增长。这时候传统架构就显得力不从心了——要么吞吐量跟不上导致数据积压要么为了提升吞吐量而简单粗暴地复制硬件导致芯片面积和功耗急剧上升成本失控。这就引出了我们今天要深入探讨的核心问题如何在不显著增加硬件开销的前提下让一个FFT处理器同时高效地处理两路独立的实值数据流这正是这篇论文《高效双流实值FFT架构基于MDC的高吞吐量设计与硬件优化》所要解决的工程难题。实值FFTRFFT本身是对传统复值FFTCFFT的优化它利用了实值信号频谱的共轭对称性砍掉了近一半冗余的复数运算天生就更“省料”。但以往的RFFT设计要么是单流的串行架构吞吐量低要么虽然支持并行但输入输出需要繁琐的比特反转排序增加了额外的延迟和存储开销。我从事数字电路设计多年尤其在通信基带处理芯片上FFT/IPFFT逆FFT模块是绕不开的“硬骨头”。一个设计不佳的FFT模块往往会成为整个数据通路的瓶颈。因此当我看到这种基于重叠数据流图Overlapped DFG和可重构蝶形单元的双流RFFT架构时第一反应是“巧妙”。它没有选择最直观的“双核”复制方案而是像一位高明的裁缝将两件衣服的布料巧妙地拼接在一起共用裁剪线和缝纫路径最终用近乎一件衣服的料子做出了两件衣服。这种设计哲学对于追求面积、功耗和性能平衡的ASIC或FPGA实现来说价值巨大。接下来我将带你层层拆解这个架构的精妙之处从设计思路到硬件实现再到避坑指南让你不仅能看懂这篇论文更能理解其背后的设计权衡与工程实现细节。2. 核心思路拆解重叠数据流图与硬件复用艺术要理解这个双流RFFT架构为何高效我们必须先回到FFT算法的本源——数据流图DFG。对于一个16点的基2按频率抽取DIFFFT其完整的复数DFG包含许多蝶形运算单元。然而当输入是实值信号时其输出频谱具有埃尔米特对称性即X[k] conj(X[N-k])。这意味着我们只需要计算前半部分的频谱点后半部分可以直接通过共轭获得无需计算。2.1 从冗余空间到复用机遇传统的单流RFFT设计正是利用了这一特性将DFG中用于计算冗余共轭输出的那部分硬件移除形成了一个“稀疏”的DFG。这个稀疏的DFG里出现了许多空闲的“槽位”。以往的设计只利用这些槽位来节省本流内的硬件而本文提出的创新思路在于将第二个独立的实值数据流巧妙地填充到第一个数据流DFG的空闲槽位中。你可以想象一下第一个数据流的计算路径论文中用黑色线条表示像是一条主干道而由于共轭对称性旁边衍生出了许多“辅道”和“停车位”原本是闲置的。第二个数据流红色线条不是去另建一条平行的高速公路而是见缝插针地使用这些闲置的辅道与第一个数据流分时复用主干道上的计算资源如加法器、乘法器。这就是“重叠数据流图”的核心思想两个数据流的DFG在物理硬件层面上是交织、重叠在一起的而非独立并列。2.2 可重构蝶形单元硬件层面的“变形金刚”思路很美好但硬件是死的如何让它动态地服务于两个不同的数据流呢这就是可重构蝶形单元Reconfigurable Butterfly Structure, RBS大显身手的地方。一个标准的复数蝶形单元处理一个复数对a, b输出ab, a-b。在传统的单流模式下它就这么工作。但在我们的双流模式下硬件需要具备两种模式双实流模式此时蝶形单元的上下两个输入通道分别来自两个独立的实数据流。单元需要被“拆分”成两个独立的实值蝶形运算器同时处理(r1_a, r1_b)和(r2_a, r2_b)互不干扰。单复流模式当数据处理进行到某些阶段中间结果变成了复数例如经过旋转因子乘法后此时蝶形单元需要恢复成一个标准的复数蝶形运算器处理一个复数对。RBS通过引入一组精心设计的复用器MUX和路径开关SW来实现这种动态重构。在双实流模式下开关切换路径确保两个实数据流的和与差输出到正确的端口在单复流模式下开关置位使单元作为一个整体进行复数运算。这种设计避免了为两种模式分别部署两套硬件极大地节省了面积。2.3 挑战混乱的输出与优雅的重排序双流交织计算带来一个直接问题输出是混在一起的。两个数据流的频谱点像洗牌一样交错输出无法直接使用。因此一个高效、低开销的输出重排序电路成为该架构能否实用的关键。论文提出的重排序方案非常聪明。它没有采用代价高昂的全通排序网络如Benes网络而是利用了双流RFFT输出序列的固有规律。分析发现混合输出的序列可以按特定规则分组Group同一组的两个流的数据存在规律的交叉和逆序关系。重排序电路的核心任务就是“解交织”和“局部反序”。它采用了一种多级结构每一级由寄存器和复用器构成像一条多级流水线逐步将交织的数据分离并重新排列成每个数据流独立的、但仍是比特反序的序列。最后再套用一个经典的比特反序转自然序电路即可得到最终的正常顺序输出。注意这里有一个关键设计权衡。重排序电路增加了一定的寄存器和逻辑开销。但论文通过分析指出对于大规模FFT如1024点蝶形运算单元的复杂度增长是O(NlogN)而重排序寄存器的开销增长是O(N)。当N很大时前者的增长更快因此重排序电路带来的相对开销是可接受的这是用可控的存储开销换取计算资源的巨大节约和吞吐量的翻倍。3. 架构细节与数据通路深度解析理解了顶层思想我们深入到硬件内部看看数据是如何一步步被处理的。我们以论文中重点阐述的16点双流RFFT架构为例。3.1 整体架构与MDC流水线该架构基于多径延迟交换器MDC流水线。MDC是一种经典的FFT硬件架构其特点是每一级都由蝶形单元、复数乘法器用于旋转因子和一组延迟线移位寄存器构成数据在各级间流水推进吞吐率高。在提出的双流架构中这条MDC流水线被赋予了“双模”能力。输入侧每个时钟周期同时输入4个实数值两个流各两个。这是高吞吐量的基础吞吐量 4 实样本/周期。3.2 各级运算模式动态切换这是整个架构最精妙也最容易出错的部分。我们逐级来看第一级Stage-1输入是完全实数值。此时两个RBS都工作在双实流模式。顶部的RBS处理第一个数据流Stream-1的一对数据底部的RBS处理第二个数据流Stream-2的一对数据。路径开关SW置于“交换”位置确保运算结果和与差被路由到正确的输出端口为后续级的数据交织做好准备。第二级Stage-2根据DFG前4个时钟周期数据处理方式与Stage-1相同。但在后4个时钟周期情况变了。此时来自上一级的数据已经过了第一次的加/减和可能的路径交换形成了特定的模式。关键点来了在这后4个周期蝶形单元被“旁路”Bypass数据直接穿过不进行蝶形运算。同时SW切换到“正常”位置。为什么因为根据重叠DFG这个阶段这些数据位置对应的运算是另一个数据流的复数蝶形运算的一部分或者不需要运算。此时数据已经呈现为复数形式实部和虚部分开需要与旋转因子相乘。这里引入了另一个创新可重构数据调度结构RDSS。它内部包含一个共享的复数乘法器。在第二级的后4周期上路径的数据先使用这个乘法器进行旋转因子乘法同时下路径的数据被暂存到专用的延迟线如4D移位寄存器中。等上路径的数据算完乘法器再切换到下路径处理暂存的数据。这种乘法器时分复用技术进一步减少了硬件消耗。第三级与第四级Stage-3 Stage-4模式切换更加频繁。Stage-3中混合了双实流模式、旁路模式以及标准的单复数流模式。Stage-4则主要使用传统的复数蝶形单元因为此时数据已充分混合需进行标准的复数FFT后续运算。设计者必须严格按照预先计算好的调度表来控制每一级中RBS的模式实流/复流/旁路、SW的状态以及RDSS中乘法器和延迟线的调度。这个控制逻辑虽然复杂但它是规则的可以用一个相对简单的有限状态机FSM来生成。3.3 关键硬件模块设计要点RBS设计核心是四输入四输出的加法器/减法器阵列加上一个2x2的交叉开关SW。在实流模式下它实质上是两个独立的实蝶形单元在复流模式下它作为一个整体。输入输出端需要配置精密的复用器以适配不同模式下的数据宽度实数是单路复数是实部虚部双路。RDSS设计这是乘法器和数据路由的调度中心。除了共享复数乘法器它还需要管理数据缓冲的深度和读写时序。论文中提到的4D移位寄存器就是一个例子其深度必须精确匹配乘法器被另一条路径占用的时钟周期数以确保数据不会丢失或乱序。重排序电路设计这是一个多级流水线结构。每一级由寄存器和多路复用器构成。控制逻辑需要根据当前处理的FFT点数N和当前时钟周期生成正确的选择信号从混合输入中挑选出属于目标流且位置正确的数据并将其存入下一级寄存器或输出。对于N点FFT重排序电路需要约N/2个复数寄存器存储比特反序序列和额外的约N个实数寄存器用于自然序转换。实操心得在RTL实现时强烈建议将控制逻辑FSM与数据通路严格分离。为FSM编写清晰的状态转移图并为每个控制信号如mode_sel,sw_ctrl,mux_sel,multiplexer_switch生成详细的真值表。这不仅能降低验证难度在后期进行规模扩展如从16点扩展到256点时也只需更新FSM的状态和真值表数据通路主体可以保持高度一致。4. 硬件实现、优化与资源评估将算法映射到实际的硅片或FPGA上我们需要关心具体的资源消耗、时序性能和实现细节。4.1 资源复杂度分析论文给出了通用的复杂度公式实数加法器4 log₂N个。这比两个独立的单流RFFT每个需要约2 log₂N个加法器两个就是4 log₂N在加法器数量上持平但通过复用实现了双倍吞吐。实数乘法器4 log₂N - 4个。乘法器主要用在旋转因子乘法。由于共享和优化数量少于两个独立架构之和。实数寄存器2N - 4个。这些寄存器主要用在MDC流水线的延迟线和输出重排序电路中。这是体现面积优势的关键。寄存器消耗与N线性相关而两个独立的N点MDC RFFT所需的寄存器数量远大于此。为了更直观我们对比论文中的表格数据架构特性传统单流串行RFFT传统双流并行RFFT (直观复制)本文提出的双流RFFT吞吐量低 (1样本/周期)高 (4样本/周期)高 (4样本/周期)输入/输出顺序通常需要比特反序可能需反序正常顺序加法器数量~2 log₂N~4 log₂N4 log₂N乘法器数量~log₂N~2 log₂N4 log₂N - 4(略多)寄存器数量~N(用于重排序)~2N2N - 4(显著优化)核心优势面积最小吞吐量高但面积大高吞吐量面积效率最优从上表可以看出提出的架构在保持与“简单复制”方案相同高吞吐量的同时通过精细的重叠设计和复用显著降低了寄存器数量这一在大型FFT中占主导的面积开销因子。4.2 FPGA原型实现与性能验证论文作者在Xilinx Vivado上针对1024点RFFT进行了综合实现。这是一个非常具有实际意义的规模常见于OFDM通信系统如802.11ac/ax, 5G NR。虽然论文未给出具体型号但我们可以推断其性能优势时序与频率由于采用了深度流水线设计关键路径通常局限于一个蝶形运算加法器/减法器树或一个复数乘法器。在现代FPGA上使用DSP Slice高效实现复数乘法该设计很容易达到较高的时钟频率如250-300 MHz以上。资源利用率在FPGA上主要消耗的资源是DSP Slice用于实现复数乘法器。数量与4 log₂N - 4公式相符。查找表LUT和寄存器FF用于实现加法器、控制逻辑、路由和重排序电路。寄存器FF的节省会直接体现出来。块RAMBRAM可能用于存储旋转因子表。由于是流水线架构通常使用分布式ROM或预计算好的常数对BRAM消耗不大。吞吐量计算在F_clk的频率下吞吐量为4 * F_clk实样本/秒。对于1024点FFT完成一次变换所需的时钟周期数约为N 流水线深度。由于是流水线吞吐量是持续的即每周期都在输出4个样本延迟Latency和吞吐量Throughput是解耦的。这是流水线架构的最大优势。4.3 实现中的优化技巧旋转因子乘法优化复数乘法是资源消耗大户。可以采用CORDIC算法适合高精度、无乘法器需求场景但迭代引入延迟。分布式算法DA将乘法转化为查找表和加法适合固定系数乘法。利用FPGA DSP Slice最常用、最高效的方法。需将旋转因子量化并预存复数乘法分解为4个实数乘法和2个加法映射到DSP48单元。精度与字长管理蝶形运中的加法和乘法会导致数据位宽扩展。需要精心设计定点数格式如Q格式并在每一级后实施舍入或截断以防止位宽无限增长。这需要在SNR信噪比性能和硬件成本之间做权衡。控制逻辑简化重排序电路的控制信号起来复杂但其模式是固定的、周期性的。可以预先计算好所有模式下的控制字存储在一个小的ROM或用计数器逻辑生成而不是用一个庞大的状态机。可配置性设计在实际芯片中可能需要支持多种FFT点数如128, 256, 512, 1024。可以通过配置延迟线的深度、旋转因子表的地址生成逻辑以及重排序电路的控制ROM内容来实现。这增加了设计的复杂性但极大提升了IP核的实用性。踩坑记录在最初实现类似的重叠调度架构时我们曾在Stage-2和Stage-3的模式切换时序上栽跟头。问题出在“旁路”模式与“实流/复流”模式切换的瞬间数据路径上的寄存器使能信号没有对齐导致一个周期数据丢失。解决方案是为所有模式切换设计一个统一的、提前一拍生效的控制信号流水线。确保数据在进入下一级之前下一级的硬件配置已经准备就绪。这需要仔细绘制时序图对所有控制信号进行打拍对齐。5. 应用场景、对比分析与选型指南5.1 典型应用场景这种高吞吐量双流RFFT架构天生适合以下对数据并行处理要求极高的场景MIMO-OFDM无线通信系统在4x4或8x8 MIMO中每个天线接收到的基带信号都需要进行FFT操作。本架构可以同时处理两个天线的数据流将多个这样的模块并行使用能高效处理多天线数据。相控阵雷达与电子对抗需要对多个通道的接收信号进行实时频谱分析。双流处理能力使得单个FFT处理器能服务两个通道减半硬件数量。高性能音频/语音处理例如环绕声处理或波束成形麦克风阵列需要同时处理多个声道的信号。医学成像如超声、OCT成像系统通常有多个接收换能器产生并行的实值数据流需要快速进行频域处理。5.2 与替代方案的深度对比除了论文中与早期串行架构的对比在工程选型时我们还需要考虑其他现代方案架构类型代表技术吞吐量硬件效率顺序适用场景单路流水线MDC RFFT经典设计中等 (2实样本/周期)高常需重排序中等吞吐量单流应用并行多路RFFT简单复制多个单路高 (2M样本/周期)低 (线性增长)可配置对面积不敏感的超高吞吐需求基于内存的FFT处理器单端口/双端口RAM迭代计算低至中等面积最小顺序灵活低功耗、小面积、非实时系统本文双流重叠RFFT创新设计高 (4实样本/周期)很高 (面积最优)正常顺序高吞吐、高面积效率的双流实时处理选型决策树你的系统需要处理几个独立的实值数据流如果只有1个选择单路RFFT。如果需要处理2个且对面积和功耗敏感本文架构是首选。如果超过2个可以考虑将多个本文架构并行或者评估其他并行方案。吞吐量要求有多高计算所需的样本率Sample Rate和时钟频率F_clk。本文架构的吞吐量为4 * F_clk。评估你的F_clk在目标工艺下能否达到要求。输入输出顺序是否必须是自然顺序如果是本文架构和某些基于内存的架构有优势。如果可以在系统级处理比特反序那么对架构的选择更宽松。面积和功耗的约束有多严格在ASIC设计中面积直接关联成本。本文架构通过复用大幅降低寄存器数量在面积约束严格的场景下优势明显。在FPGA上则需要综合评估DSP、LUT、FF的总体利用率。5.3 常见问题与调试实录在实际实现和集成该架构时可能会遇到以下典型问题Q1功能仿真正确但上板后输出频谱出现杂散或信噪比下降。可能原因A数据溢出或精度丢失。这是定点实现中最常见的问题。蝶形运算和乘法会扩展位宽。检查每一级运算后的数据是否进行了正确的饱和处理或舍入处理。建议使用MATLAB或Python建立定点模型与RTL仿真结果进行逐级比对。可能原因B旋转因子精度不足或存储错误。检查旋转因子ROM的初始化文件是否正确量化位数是否足够。确保地址生成逻辑在循环计数时没有出错。可能原因C重排序电路错误。这是双流架构特有的风险。如果两个流的数据在输出端混淆或错位频谱会完全错误。可以单独对重排序电路进行测试输入预设的、交织的测试向量验证其输出是否能正确分离和排序。Q2时序不满足无法达到目标时钟频率。排查点A关键路径在复数乘法器。如果使用FPGA的DSP Slice确保其配置为流水线模式。在ASIC中考虑将复数乘法拆分为更小的流水线级。排查点B关键路径在重排序电路的多路选择器。如果重排序级数多选择器输入过多可能导致路径延迟大。可以考虑在重排序流水线中间插入寄存器打破长组合路径。排查点C控制逻辑过于复杂。检查生成控制信号的FSM或ROM输出是否经过了足够的寄存器打拍避免大段组合逻辑。Q3如何验证架构的正确性黄金参考模型使用高级语言如C/C、Python编写一个行为级模型精确模拟重叠DFG、模式切换和重排序过程。用其输出作为RTL仿真的参考。分层测试先单独测试RBS和RDSS模块在所有模式下的功能。再测试完整的单级流水线。最后集成整个多级流水线。覆盖率驱动验证确保测试向量覆盖所有可能的模式切换点、所有旋转因子索引以及重排序电路的所有分支。Q4扩展到更大点数如2048, 4096需要注意什么控制逻辑扩展FSM或控制ROM的深度会增加。确保其可配置性。旋转因子存储ROM大小随N增大。考虑使用CORDIC实时生成或采用对称性压缩存储。重排序电路规模寄存器数量线性增长~2N。需评估其在整体面积中的占比是否仍然可接受。对于超大点数如8192以上可能需要重新评估这种全流水线架构的性价比基于内存的架构可能在某些场景下更优。这个基于重叠DFG的双流实值FFT架构代表了一种在硬件设计领域非常珍贵的思维通过算法和硬件协同优化在资源约束下挖掘极致的性能潜力。它不是简单地堆砌计算单元而是像下围棋一样精心布局让每一份硬件资源都在每个时钟周期内发挥最大效用。对于面临高吞吐量和严苛面积约束的双流信号处理任务它无疑提供了一个非常优雅且高效的解决方案。在实际项目中理解其数据调度的“舞蹈节奏”并精心设计控制逻辑是成功实现的关键。