Windows和Linux下使用Python搭建一个图片OCR工具

张

张建站

2026/6/30 2:20:31

10分钟阅读

识别结果效果案例参考图片一、安装系统级依赖Windows 系统在 Windows 系统下从 Python 官方网站下载 Python 3.10 版本安装包安装时勾选 “Add Python to PATH” 选项。Linux 系统在 Linux 系统下安装 Python 3.10 及常用开发组件1234567sudoapt updatesudoaptinstall-y \python3.10 \python3.10-venv \python3.10-dev \python3.10-distutils \python3-pip这些组件分别用于python3.10Python 解释器venv虚拟环境支持dev / distutils编译与打包依赖pipPython 包管理工具二、创建并激活虚拟环境1. 创建虚拟环境1python -m venv paddle_py102. 激活虚拟环境Windows 系统1paddle_py10\\Scripts\\activateLinux 系统1sourcepaddle_py10/bin/activate激活成功后终端前会显示(paddle_py10)三、安装 PaddlePaddleCPU 版本在虚拟环境中安装PaddlePaddle CPU 版适用于 Windows 和 Linux1python -m pipinstallpaddlepaddle -i https://www.paddlepaddle.org.cn/packages/stable/cpu/说明使用官方国内镜像下载速度更快该版本适合无 GPU / CPU 推理环境自动检测操作系统并安装相应版本四、安装 PDF 相关依赖1. 安装 PyMuPDFPDF 解析1pipinstallPyMuPDF主要用于PDF 页面解析文本 / 图片提取PDF 转图片OCR 前处理2. 安装 PaddleX含 OCR 模块1pipinstallpaddlex[ocr]功能包括OCR 模型封装文本检测 / 识别表格与版面分析3. 安装 ReportLabPDF 生成1pipinstallreportlab完整代码123456789101112131415161718192021222324252627frompaddleocrimportPaddleOCRVLfromPILimportImageimportnumpy as nppipelinePaddleOCRVL(devicecpu)imgImage.open(v2-f644e32ef8fb2b15b6dd7218eff5f844_r.jpg).convert(RGB)# resizemax_side1024w, himg.sizescalemin(max_side/w, max_side/h,1.0)imgimg.resize((int(w*scale),int(h*scale)))# 重要一步PIL → numpy 防止CPU超过内存img_npnp.array(img)outputpipeline.predict(img_np)forresinoutput:res.print()res.save_to_json(save_pathoutput)res.save_to_markdown(save_pathoutput)输出目录示例Windows(paddle_py10) C:\workspace\output dir1768203146_1313.md1768203146_1313_res.json输出目录示例Linux(paddle_py10) usermachine:/home/user/workspace/output$ tree├── 1768203146_1313.md└── 1768203146_1313_res.json0 directories, 4 files

Phi-4-mini-reasoning部署案例：混合云架构下本地推理+云端结果聚合方案

Phi-4-mini-reasoning部署案例：混合云架构下本地推理云端结果聚合方案 1. 项目背景与价值 Phi-4-mini-reasoning 3.8B参数轻量级开源模型是微软Azure AI Foundry推出的专注于数学推理、逻辑推导和多步解题任务的专用模型。这款模型以"小参数、强推理、长上下…...

2026/6/16 8:37:26 阅读更多 →