混合动态Gold码架构：以极低开销实现ASIC/FPGA通用侧信道防护

张

张建站

2026/5/27 18:59:07

10分钟阅读

1. 项目概述当加密芯片“说话”时我们如何让它“闭嘴”在硬件安全的世界里最危险的敌人往往不是那些试图暴力破解算法的黑客而是那些拿着示波器安静地监听芯片“心跳”的侧信道分析师。你的加密芯片无论算法多么坚固只要它在运行就会通过功耗、电磁辐射甚至声音“泄露”秘密。这就是侧信道分析攻击的恐怖之处——它不与你正面交锋而是通过物理世界的蛛丝马迹还原出你精心保护的密钥。近年来随着物联网和边缘计算的爆炸式增长数以百亿计的嵌入式设备暴露在各种物理攻击风险之下设计一种高效、低开销且能跨平台部署的硬件级防护架构成为了芯片设计者必须啃下的硬骨头。传统的防护思路比如在FPGA上利用厂商特定的时钟管理模块来产生随机抖动虽然有效但一旦切换到更主流、成本更低的专用集成电路平台就束手无策。这就像为特定型号的汽车设计了一套完美的防盗系统却无法安装到其他品牌的车上严重限制了方案的通用性。我们需要的是一种“自带干粮”的防护机制它不依赖于特定平台的“黑科技”而是从底层电路结构出发构建一个原生、轻量且高随机性的时钟源。这就是混合动态Gold码架构诞生的背景。它巧妙地将通信领域经典的Gold码序列生成机制与芯片内部最基础的环形振荡器噪声结合在180纳米这样的成熟工艺节点上打造了一个面积开销仅增加1.2%、功耗开销仅增加0.7%的“隐形盾牌”。这个盾牌的核心任务不是阻挡攻击而是让芯片的“窃窃私语”变得杂乱无章让攻击者即便采集了海量数据也无法从中提取出有效的关联信息。2. 核心原理Gold码如何成为硬件安全的“混乱引擎”要理解HDGC为何有效我们得先拆解两个核心概念侧信道攻击的本质与Gold码的随机特性。2.1 侧信道攻击的命门相关性与对齐相关功耗分析这类攻击之所以能成功依赖于两个关键假设第一芯片的功耗与内部数据处理如密钥位翻转存在强相关性第二多次加密运算的功耗轨迹在时间轴上是对齐的。攻击者通过统计成千上万条对齐的功耗曲线就能像从嘈杂的鸡尾酒会中分辨出特定人的声音一样将微弱的密钥相关信号从噪声中提取出来。因此防护的核心策略就是打破这两个假设要么降低信号相关性如掩码技术要么破坏时间对齐性如随机时钟。HDGC选择的是后一条路径并且做得更为彻底。2.2 从通信到安全Gold码的跨界应用Gold码本身并非为安全而生它是一种在码分多址和卫星导航中用于区分不同用户的伪随机序列。其核心价值在于通过两个特定配置的线性反馈移位寄存器进行模二加可以产生大量具有良好自相关和互相关特性的序列。在HDGC架构中我们看中的正是它“看似随机”的周期性。一个典型的m序列最大长度序列虽然随机性好但其能产生的不同周期即时钟频率变化种类有限。而Gold码通过组合两个m序列并引入初始状态的随机化理论上能为一个m阶多项式产生多达 (2^m - 2) 种不同的周期。这意味着驱动加密核心的时钟不再是固定的20MHz而是在一个由Gold序列决定的、不断跳变的频率集合中随机选择。加密操作的每一次执行其时间节点都像是被扔进了一个由伪随机序列控制的“时间搅拌机”彻底打乱了功耗轨迹的时间结构。注意这里“伪随机”是关键。它并非真正的物理随机源但其序列特性足以对基于统计的CPA攻击构成巨大挑战。真正的随机性来源于后续引入的环形振荡器抖动。2.3 混合与动态注入真正的物理熵如果仅使用预设的Gold码其初始状态固定序列仍然是确定性的长期来看可能被分析。因此“混合动态”二字是点睛之笔。HDGC的创新在于它用一个共享的环形振荡器同时为两个Galois LFSR注入基于电路热噪声和闪烁噪声的时序抖动。具体实现步骤如下多项式转换与结构重塑首先选取一对优选的多项式对如论文中的 (g1(x) x^{10} x^7 x^6 x^4 x^2 x 1) 和 (g2(x) x^{10} x^8 x^5 x 1)。将其从传统的斐波那契LFSR结构转换为Galois结构以减少关键路径延迟提升速度。环形化改造进一步将Galois结构重构为环形发生器结构。这一步至关重要它通过重新布局反馈抽头的位置根据公式 (S_i \lfloor (m-i)/2 \rfloor), (D_i \lfloor (mi)/2 \rfloor - 1) 计算源和目的抽头的新位置将线性结构首尾相连形成一个环。这不仅优化了扇出问题还为噪声注入创造了均匀的路径。噪声注入与随机化两个RG结构被整合进一个由201级反相器构成的环形振荡器中。当使能信号有效时RO自由振荡其固有的抖动噪声通过多个注入点同时“污染”两个RG的寄存器状态。经过一段预定的时间如2048个系统时钟周期后两个RG的当前状态被锁定作为本次加密操作的Gold码生成器的随机初始种子。随机时钟生成利用这两个随机初始状态启动Gold码生成器其输出序列即作为加密核心的随机时钟。每次加密完成后使能信号再次触发RO重新注入噪声生成下一组全新的随机初始状态从而实现“动态”更新。为什么是201级反相器这是一个经过仿真权衡的选择。RO的频率 (f_{RO} 1 / (2 \times N \times t_d))其中N为反相器级数(t_d)为门延迟。在180nm工艺下选择N201使得RO频率约为47.2MHz大约是20MHz系统采样时钟的2.36倍。这个比率确保了采样时钟能有效地捕获RO的抖动边沿既保证了随机性质量又避免了频率过高带来的功耗和稳定性问题。3. 架构设计与ASIC实现从理论到硅片的旅程将这样一个混合动态系统集成到实际的AES加密芯片中并确保其在PVT工艺、电压、温度变化下稳定工作是工程实现的核心挑战。3.1 整体系统集成整个受保护芯片的微结构如图所示对应论文中图7。系统核心包含以下几个部分HDGC模块作为随机时钟与随机数源。它接收20MHz的系统参考时钟输出随机化的Gold序列时钟。AES-128加密核心采用单周期轮运算架构。即每一轮AES的SubBytes、ShiftRows、MixColumns和AddRoundKey操作在一个时钟周期内完成整个加密过程需10个时钟周期。这种设计平衡了吞吐率和面积。主控制器负责协调数据流包括明文、密文的输入输出以及AES密钥的加载。它根据HDGC提供的时钟控制加密操作的执行节奏。关键的设计决策是让AES核心同时接收系统时钟i_clk和HDGC生成的GoldSeq时钟。在实际操作中GoldSeq作为加密操作的使能或门控时钟而i_clk用于同步系统中其他逻辑如控制器、接口。系统时钟频率定为20MHz主要是为了与HDGC的采样需求匹配并确保在1.25 GSa/s的采样率下能对最高频率成分约10MHz因为Gold序列最小周期为2个位时间实现超过60倍的过采样以满足侧信道数据采集的奈奎斯特准则。3.2 物理实现与开销分析芯片采用180nm CMOS工艺流片。布局布线后的关键数据如下表所示模块面积 (µm²)等效门数 (GE)功耗 (动态)未受保护的AES设计403,200~41.6k基准HDGC防护模块4,877~0.5k增加约0.7%受保护的整体设计408,077~42.1k基准的1.007倍面积开销分析HDGC模块本身仅占约0.5k门相对于整个AES系统约41.6k门而言面积开销仅为1.012倍。这主要得益于其结构的简洁性核心是LFSR和环形振荡器主要由寄存器和反相器构成没有复杂的运算单元如乘法器。功耗开销分析在20MHz工作频率、1.8V电压下测得整个芯片的功耗情况如下活动模式执行加密时功耗约为4.2mW。空闲模式设计复位时功耗显著降低。睡眠模式主要为泄漏功耗。 HDGC的引入仅使总功耗增加了0.7%。如此低的开销源于两个因素一是RO仅在需要更新随机种子时短暂使能大部分时间处于关闭状态二是Gold序列生成器本身是数字电路功耗可控。实操心得在布局阶段必须将环形振荡器电路进行精细的布局和隔离。因为RO是一个对噪声极其敏感的模拟电路模块其抖动特性是随机性的根源。如果与周围数字电路尤其是高速开关的AES核心靠得太近电源和衬底噪声会干扰RO的振荡可能导致随机性质量下降甚至失效。我们通常采用保护环和独立的电源域来隔离RO。3.3 随机性质量验证通过最严苛的“体检”一个不合格的随机源本身就是安全漏洞。HDGC生成的随机初始状态必须经过国际通用统计测试套件的检验。我们采集了三个芯片在不同温度和电压下的数据共2000万比特进行了全面测试AIS-31测试这是德国BSI发布的权威标准。我们的序列在最高温度80℃下通过了所有T0-T5统计测试且熵值高于7.9760的阈值。更重要的是在不同PVT条件下熵值的均值和标准差保持稳定证明了其鲁棒性。NIST SP 800-22测试包含15项统计测试如频率检验、游程检验、离散傅里叶变换检验等。所有测试的p值均大于0.01表明序列在统计特性上与真随机序列无显著差异。NIST SP 800-90B测试重点评估熵源的最小熵。测试结果显示每字节的最小熵值在不同温度下均保持高质量且稳定。通过这三重测试意味着HDGC产生的Gold序列在密码学意义上是足够“随机”的可以作为可靠的随机时钟源。这为后续的安全评估奠定了坚实基础。4. 安全性能评估在百万级迹线攻击下屹立不倒理论很美好但真正的考验来自实际的攻击。我们搭建了标准的侧信道分析平台使用罗德与施瓦茨RTB2004示波器在1.25 GSa/s的采样率下采集功耗迹线对受保护的AES芯片发起攻击。4.1 泄漏评估χ²检验在发起完整攻击前我们先使用无假设的泄漏检测工具——皮尔逊χ²检验来评估设计的信息泄漏程度。该方法通过比较固定输入和随机输入下的功耗分布计算一个p值。如果p值很小如小于10⁻⁵则拒绝“无泄漏”的原假设。未保护设计仅需约65条迹线p值就突破阈值检测到显著泄漏。HDGC保护设计使用1000条迹线时未检测到任何泄漏点。将迹线数量增加到约7200条时才首次检测到泄漏。结论HDGC将泄漏检测所需的迹线数量提升了约100倍。这说明其引入的时序随机化有效地“稀释”了数据依赖的功耗特征。4.2 非剖析式攻击直面CPA及其变种我们使用了多达500万条未对齐的功耗迹线对四种CPA攻击方法进行了测试攻击方法原理简述对未保护AES的效果对HDGC保护AES的效果 (500万迹线)常规CPA直接计算功耗与假设模型的相关系数约3.4万条迹线可恢复15个子密钥完全失败密钥排名始终高于96滑动窗口CPA对迹线进行滑动窗口积分以缓解轻微错位效果优于常规CPA仅能恢复2个子密钥SW-SYNC-CPA先进行迹线同步预处理再应用SW-CPA效果极佳需100k条迹线恢复12个子密钥幅度峰值定位CPA通过算法定位功耗峰值并重新对齐迹线效果极佳需50万条迹线达到81.25%全局成功率关键指标解读密钥排名攻击后正确密钥在所有候选密钥中的排序。KR1表示攻击成功。HDGC在常规CPA下KR始终96意味着攻击者需要在至少2⁹⁶的巨大空间里暴力搜索这在计算上是不可行的。全局成功率恢复出的正确子密钥字节数占总字节数16的比例。APL-CPA作为最先进的非剖析式对齐攻击在耗费50万条迹线后GSR为81.25%即恢复13个字节仍未达到通常认为的攻击成功阈值如90%或100%。4.3 剖析式攻击对抗更强大的“白盒”对手剖析式攻击假设攻击者拥有一个完全可控的克隆设备用于建模是更强的攻击模型。我们采用了最新的基于深度学习的RkL攻击。对未保护AES仅需约6400条剖析迹线和1000条攻击迹线即可恢复全部16个子密钥效率远超常规CPA。对HDGC保护AES使用100万条剖析迹线和10万条原始未对齐攻击迹线密钥排名仍高于64攻击失败。仅当攻击者能够先对迹线进行高精度对齐例如利用APL算法预处理后RkL攻击才能用10万条剖析迹线和5万条对齐迹线恢复13个子密钥。结论HDGC提供的时序随机化即使面对需要大量迹线的剖析式攻击也能构成强大屏障。攻击成功的前提是必须先破解“对齐”这一难题而这本身就需要巨大的计算和数据处理成本。5. 对比分析与方案优势将HDGC与近年来其他基于隐藏技术的防护方案对比其优势更加明显方案核心机制平台兼容性硬件开销抗CPA能力 (迹线数)NCCT值 (加密时间变化可能性)基于DCM/MMCM的随机时钟利用FPGA专用时钟管理模块产生抖动仅限特定FPGA高30万条迹线未破解中等基于混沌映射的随机时钟利用混沌系统方程生成随机时钟FPGA/ASIC很高需乘法器良好极高 (可达10¹⁹量级)HDGC (本方案)Gold码环形振荡器抖动FPGA/ASIC通用极低 (1.012×面积)500万条迹线未破解高 (由2^m决定)HDGC的核心优势总结真正的跨平台不依赖任何FPGA厂商的私有IP从标准数字单元构建可无缝移植到ASIC和任何FPGA。超低开销面积和功耗开销几乎可忽略不计非常适合资源受限的物联网和边缘设备。高安全性能有效抵御数百万条迹线的常规CPA攻击对高级对齐攻击也展现出强大韧性。可证明的随机性通过标准统计测试套件和PVT验证随机性质量有保障。6. 常见问题、挑战与实战建议在实际流片和测试中我们遇到并克服了一系列挑战以下是总结出的关键要点6.1 环形振荡器的设计陷阱问题初期使用奇数个简单反相器构成RO发现其抖动特性受电源电压波动影响过大在低压下随机性不稳定。解决采用了电流 starving结构的反相器链并通过仿真精细调整了晶体管的尺寸比例使RO在宽电压范围0.8V-2.0V内都能产生稳定且足够的抖动。同时将RO的级数增加到201级以积累更长的抖动时间窗口提高采样到噪声边沿的概率。建议RO设计必须进行全面的蒙特卡洛仿真和PVT角仿真不能只看典型情况。抖动幅度和频率的分布必须满足熵提取的要求。6.2 初始状态采样时机问题何时对RO抖动进行采样以获取RG的初始状态采样过早抖动积累不足采样过晚可能引入周期性模式。解决通过大量实验确定了等待2048个系统时钟周期的准则。这个数值确保了RO运行了足够多的周期约 (2048 \times (f_{sys}/f_{RO}) \approx 868)个RO周期使得抖动充分注入到两个RG中。同时2048是2的幂次便于硬件计数器实现。建议这个等待时间需要根据实际的系统时钟频率和RO频率比值进行调整。可以通过评估采集到的初始状态的熵值来反推最优的等待周期数。6.3 对抗高级对齐攻击的策略问题虽然常规CPA失效但像APL-CPA这类先进的对齐算法仍构成威胁。分析与策略APL-CPA的有效性依赖于功耗轨迹中存在可识别的、与操作相关的尖峰。HDGC通过随机时钟打乱了尖峰的位置但尖峰的“形状”可能仍有特征。未来的强化方向可以是与幅度隐藏技术结合例如引入轻量级的随机电流负载进一步扭曲功耗幅度的特征实现“时域幅域”的双重随机化让对齐算法彻底失去抓手。6.4 集成与验证流程独立验证HDGC模块在集成到AES系统前必须单独对HDGC进行随机性测试AIS-31/NIST确保其输出质量达标。门级仿真与功耗分析在数字设计流程中需要提取带反标延时信息的网表进行门级仿真生成VCD文件并导入功耗分析工具如PrimePower。这一步可以早期预估防护方案引入的功耗和面积开销并检查是否存在时序违例。侧信道评估平台自动化建立自动化的迹线采集和攻击脚本至关重要。我们使用Python控制了示波器、目标板卡和数据分析工具如scared库实现了从数据采集、预处理到CPA/RkL攻击的全流程自动化极大提升了评估效率。7. 总结与展望混合动态Gold码架构的成功印证了一个道理最好的安全有时源于最巧妙的“混乱”。它没有采用复杂的密码学改造或昂贵的模拟电路而是通过将通信领域的成熟序列与芯片底层的物理噪声相结合以极低的代价构建了一道坚固的时序噪声墙。对于深耕硬件安全的设计者而言这个方案提供了一个清晰、可复现且高效的ASIC/FPGA通用防护模板。从工程角度看它的美在于简洁和低开销。从安全角度看它显著抬高了侧信道攻击的门槛迫使攻击者从简单的相关性分析转向更复杂、成本更高的迹线对齐和深度学习攻击。当然没有银弹。面对未来可能出现的更强大的剖析式攻击将HDGC与布尔掩码等逻辑层防护结合构建纵深防御体系是必然的发展方向。在我个人看来硬件安全的未来在于这种“跨层协同”的设计哲学。就像HDGC所做的那样不局限于单一抽象层而是让物理层的噪声、架构层的随机序列与算法层的运算交织在一起共同定义一个系统的安全边界。这种思路或许比追求某种绝对完美的防护算法更能适应日益复杂和多样的硬件攻击 landscape。