用Python手把手实现算术编码：从概率模型到二进制压缩（附完整代码）

张

张建站

2026/4/30 5:09:23

10分钟阅读

用Python手把手实现算术编码从概率模型到二进制压缩附完整代码算术编码的魅力在于它能够将整个消息压缩成一个精确的小数这种优雅的数据压缩方式在图像和视频编码领域有着广泛应用。不同于哈夫曼编码逐个符号处理的方式算术编码通过不断细分概率区间来实现整体压缩往往能获得更高的压缩率。本文将带你用Python从零构建一个完整的算术编码器/解码器通过AABABCABAB这个具体案例深入理解算法核心并解决实际编码中的精度问题。1. 算术编码核心原理与概率模型构建算术编码的核心思想是将整个输入序列映射到[0,1)区间内的一个子区间该子区间的长度与序列出现的概率成正比。高频符号会占据更大的区间范围从而在最终编码时能用更少的比特表示。概率模型是算术编码的基础我们需要用字典结构来存储每个符号及其概率。对于示例字符串AABABCABAB统计各字符出现频率如下from collections import defaultdict def build_probability_model(data): freq defaultdict(int) for char in data: freq[char] 1 total len(data) return {char: count/total for char, count in freq.items()} sample AABABCABAB prob_model build_probability_model(sample) print(prob_model) # 输出: {A: 0.5, B: 0.4, C: 0.1}这个概率模型表明A的概率区间为[0, 0.5)B的概率区间为[0.5, 0.9)C的概率区间为[0.9, 1)区间划分的数学原理每个符号的区间长度等于其概率值且区间之间连续无重叠。编码过程中当前区间会不断按概率比例缩小最终确定一个唯一代表整个序列的小数。2. 编码器实现区间迭代与精度处理实现编码器的关键在于维护两个变量low和high分别表示当前区间的上下界。随着每个符号的处理区间会按概率模型不断细分。def arithmetic_encode(data, prob_model): low, high 0.0, 1.0 for char in data: range_size high - low high low range_size * get_high_range(char, prob_model) low low range_size * get_low_range(char, prob_model) return (low high) / 2 # 返回区间中点作为编码结果 def get_low_range(char, prob_model): return sum(p for c, p in prob_model.items() if c char) def get_high_range(char, prob_model): return get_low_range(char, prob_model) prob_model[char]浮点数精度问题是实际编码中的主要挑战。随着迭代次数增加区间的上下界会越来越接近最终可能超出浮点数的表示范围。解决方案包括比例缩放技术当区间缩小到一定范围时输出固定比特并缩放区间使用高精度计算库如Python的decimal模块整数运算替代将区间映射到大整数范围避免浮点误差以下是带比例缩放的改进版编码器def scalable_arithmetic_encode(data, prob_model, precision16): low, high 0.0, 1.0 output [] for char in data: # 区间细分 range_size high - low high low range_size * get_high_range(char, prob_model) low low range_size * get_low_range(char, prob_model) # 比例缩放检查 while True: if high 0.5: # 区间在[0,0.5) output.append(0) low * 2 high * 2 elif low 0.5: # 区间在[0.5,1) output.append(1) low 2*(low-0.5) high 2*(high-0.5) else: break # 处理最终区间 output.append(1) # 选择区间内最短二进制表示 return .join(output)3. 二进制转换与压缩优化编码输出的最终区间需要转换为二进制形式。选择区间内二进制表示最短的数可以最大化压缩效果。例如对于最终区间[0.1686, 0.16868)选择0.16864013671875二进制0.00101011001011作为编码结果。二进制转换算法def float_to_binary(num, max_length50): binary [] for _ in range(max_length): num * 2 bit int(num) binary.append(str(bit)) num - bit if num 0: break return .join(binary) final_interval (0.1686 0.16868)/2 # 取区间中点 binary_code float_to_binary(final_interval) print(binary_code) # 输出: 00101011001011压缩率对比编码方式原始长度编码长度压缩率ASCII80 bits80 bits0%哈夫曼80 bits15 bits81.25%算术编码80 bits14 bits82.5%算术编码比哈夫曼编码多压缩了1位对于更长的数据这种优势会更加明显。4. 解码器实现与完整闭环验证解码是编码的逆过程需要根据相同的概率模型从二进制编码逐步恢复原始序列。def arithmetic_decode(bitstring, prob_model, length): value sum(int(bit)*0.5**(i1) for i, bit in enumerate(bitstring)) low, high 0.0, 1.0 result [] for _ in range(length): # 确定当前符号 range_size high - low for char in prob_model: char_low low range_size * get_low_range(char, prob_model) char_high low range_size * get_high_range(char, prob_model) if char_low value char_high: result.append(char) low, high char_low, char_high break # 比例缩放逆操作 while True: if high 0.5: pass # 无需操作继续解码 elif low 0.5: value 2*(value-0.5) low 2*(low-0.5) high 2*(high-0.5) else: break return .join(result)完整流程验证# 编码过程 prob_model {A: 0.5, B: 0.4, C: 0.1} encoded scalable_arithmetic_encode(AABABCABAB, prob_model) print(f编码结果: {encoded}) # 解码过程 decoded arithmetic_decode(encoded, prob_model, len(AABABCABAB)) print(f解码结果: {decoded})注意实际实现中需要处理比特流缓冲和文件I/O操作上述代码为简化版演示核心逻辑5. 工程实践中的关键问题与解决方案在实际应用中算术编码还需要解决以下几个关键问题1. 自适应概率模型静态模型需要预先知道符号概率而自适应模型能动态调整概率分布class AdaptiveModel: def __init__(self, initial_symbols): self.symbols {s:1 for s in initial_symbols} # 初始计数为1 self.total len(initial_symbols) def update(self, symbol): self.symbols[symbol] 1 self.total 1 def get_probability(self, symbol): return self.symbols.get(symbol, 0.5) / self.total # 0.5为平滑因子2. 终止符号处理实际应用中需要特殊符号标记数据结束避免解码时无限循环。3. 性能优化技巧使用移位操作替代浮点乘法批量处理符号减少循环次数采用有限状态机实现高速编码以下是一个优化后的编码器类实现class ArithmeticEncoder: def __init__(self, prob_model): self.prob_model prob_model self.low 0 self.high 0xFFFFFFFF # 32位整数表示区间 self.pending_bits 0 self.output bytearray() def encode_symbol(self, symbol): # 基于整数运算的区间划分 range_size self.high - self.low 1 char_low self.low range_size * get_low_range(symbol, self.prob_model) char_high self.low range_size * get_high_range(symbol, self.prob_model) self.low, self.high char_low, char_high - 1 # 比例缩放和比特输出 while True: if self.high 0x80000000: self.output_bit(0) elif self.low 0x80000000: self.output_bit(1) self.low - 0x80000000 self.high - 0x80000000 else: break def output_bit(self, bit): # 比特缓冲和字节输出处理 pass算术编码虽然理论优美但在实际工程中需要考虑诸多细节问题。我在一个日志压缩项目中就遇到过因概率模型不匹配导致的压缩率下降问题后来通过引入自适应模型和异常符号处理机制才使压缩率稳定在预期水平。

Clera 智能助手深度评测：从参数解析到实战边界

① 核心参数规格与初始能力画像在接触 Clera 智能助手之初，最直观的感受往往来自于其“第一印象”。不同于传统规则驱动的客服机器人，Clera 基于新一代大语言模型架构构建，其核心优势在于对自然语言的深层理解与生成能力。从参数规格来看&am…...

2026/4/30 5:04:32 阅读更多 →

lite-avatar形象库开源大模型：150+预训练2D数字人形象全开放可商用

lite-avatar形象库开源大模型：150预训练2D数字人形象全开放可商用 1. 项目介绍 lite-avatar形象库是一个开源的数字人形象资产库，基于HumanAIGC-Engineering/LiteAvatarGallery项目构建。这个库提供了150经过预训练的2D数字人形象，所有形象…...

2026/4/30 4:48:48 阅读更多 →

如何为Runtime Mobile Security (RMS)扩展新功能并贡献到开源社区：完整指南

如何为Runtime Mobile Security (RMS)扩展新功能并贡献到开源社区：完整指南【免费下载链接】RMS-Runtime-Mobile-Security Runtime Mobile Security (RMS) 📱🔥 - is a powerful web interface that helps you to manipulate Android and iO…...

2026/4/30 4:40:22 阅读更多 →

保姆级避坑指南：用MIM搞定MMSegmentation 2.0.0安装，告别版本兼容性报错

深度学习语义分割实战：MMSegmentation 2.0极简安装与避坑手册在计算机视觉领域，语义分割技术正以惊人的速度重塑着医疗影像分析、自动驾驶和工业质检等场景的应用边界。作为OpenMMLab生态中的重要成员，MMSegmentation 2.0凭借其模块化设计和…...

2026/4/29 19:30:43 阅读更多 →

Chrome-GPT：将大语言模型深度集成到浏览器的开发实践

1. 项目概述：当浏览器插件遇上大语言模型最近在折腾一个挺有意思的开源项目，叫“Chrome-GPT”。光看名字，你大概就能猜到它的核心玩法：把当下最火的大语言模型（LLM）能力，直接集成到我们每天都要…...

2026/4/29 19:30:43 阅读更多 →

别再用Node.js写MCP网关了！C++ 2024性能基准测试：相同硬件下吞吐量超Go 3.8倍，延迟降低62%

更多请点击： https://intelliparadigm.com 第一章：MCP协议核心原理与C网关设计全景概览 MCP（Modular Communication Protocol）是一种面向微服务间低延迟、高可靠通信的二进制协议，其核心在于“模块化帧结构”与“状态…...

2026/4/29 19:30:45 阅读更多 →

终极指南：如何通过Newtonsoft.Json配置实现高性能JSON序列化

终极指南：如何通过Newtonsoft.Json配置实现高性能JSON序列化【免费下载链接】Newtonsoft.Json Json.NET is a popular high-performance JSON framework for .NET 项目地址: https://gitcode.com/gh_mirrors/ne/Newtonsoft.Json Newtonsoft.Json&#xff08…...

2026/4/29 10:22:30 阅读更多 →