OpenClaw技能开发入门：为Phi-3-vision-128k定制图片翻译模块

张

张建站

2026/4/30 3:03:27

10分钟阅读

OpenClaw技能开发入门为Phi-3-vision-128k定制图片翻译模块1. 为什么需要自定义图片翻译技能去年我在整理海外技术文档时经常遇到带文字的截图需要翻译。传统做法是先OCR识别再粘贴到翻译软件整个过程要切换多个工具。直到发现OpenClaw可以通过技能扩展实现端到端自动化才决定动手开发这个图片翻译模块。选择Phi-3-vision-128k作为后端模型有两个原因一是其多模态能力可以直接理解图片内容二是128k上下文窗口适合处理高分辨率图像。这个组合让翻译过程无需中间OCR步骤直接从图片到目标语言。2. 开发环境准备2.1 基础工具链配置我的开发环境是macOS VS Code先通过Homebrew安装必要依赖brew install node22 imagemagick npm install -g openclawlatest clawhublatest验证环境时遇到个小坑ImageMagick需要额外授权屏幕录制权限。在系统设置的隐私与安全性中手动开启后图片预处理功能才能正常工作。2.2 创建技能脚手架使用ClawHub CLI初始化项目mkdir image-translator cd image-translator clawhub init --typeskill --nameimage-translator --authoryourname生成的项目结构包含三个关键文件skill.json技能元数据声明index.js主逻辑入口config.schema.json配置参数校验规则3. 核心功能开发3.1 图片预处理逻辑考虑到模型对输入图像的尺寸限制我添加了自动缩放功能。在index.js中实现const { execSync } require(child_process) const fs require(fs) async function preprocessImage(imagePath) { const tempPath /tmp/processed.jpg try { execSync(convert ${imagePath} -resize 1024x1024 -quality 90 ${tempPath}) return { buffer: fs.readFileSync(tempPath), mimeType: image/jpeg } } catch (error) { throw new Error(图片处理失败: ${error.message}) } }这段代码使用ImageMagick的convert命令确保输出图像不超过1024x1024分辨率同时保留90%的JPEG质量。3.2 多模态API调用对接Phi-3-vision需要构造特定的消息格式。我参考了模型文档封装出请求方法async function callPhi3Vision(imageData, targetLang) { const response await openclaw.models.generate({ model: phi-3-vision-128k, messages: [{ role: user, content: [ { type: text, text: 将图片中的文字翻译成${targetLang}保持原格式 }, { type: image_url, image_url: data:${imageData.mimeType};base64,${imageData.buffer.toString(base64)} } ] }], max_tokens: 4096 }) return response.choices[0].message.content }关键点在于构造multimodal messages数组其中同时包含文本指令和base64编码的图片数据。4. 技能打包与测试4.1 本地调试技巧在skill.json中声明测试命令{ test: { commands: [ { name: 测试英文翻译, command: node test/en-to-zh.js } ] } }创建测试脚本test/en-to-zh.jsconst skill require(../index) const fs require(fs) const imageBuffer fs.readFileSync(test/sample.jpg) skill.execute({ image: imageBuffer, targetLang: 简体中文 }).then(console.log)通过clawhub test运行测试时我发现模型有时会返回多余的解释文字。于是增加了后处理函数用正则表达式提取核心翻译内容。4.2 发布到ClawHub市场发布前需要完善技能元数据{ name: image-translator, version: 1.0.0, description: 基于Phi-3-vision的图片翻译技能, tags: [translation, multimodal, phi3], compatibility: { openclaw: 1.2.0 } }执行发布命令clawhub publish --access-token your_token发布后约5分钟技能就会出现在ClawHub市场。其他用户可以通过clawhub install image-translator直接安装。5. 实际应用效果在我的MacBook Pro上测试翻译一张包含300个英文单词的技术图表平均耗时12秒包括图片预处理和模型推理。相比传统OCR翻译的流程节省了至少2分钟的手动操作时间。目前发现的限制主要有复杂排版如多栏文档的格式保持不够理想某些专业术语的翻译需要人工校对超大图片超过8MB需要额外切割处理这些都可以通过后续迭代优化。比如针对第三条我计划在下个版本加入自动分块功能。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

3个突破壁垒方法：网盘直链下载助手如何让文件获取效率提升5倍

3个突破壁垒方法：网盘直链下载助手如何让文件获取效率提升5倍【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云盘…...

2026/4/26 16:21:40 阅读更多 →

IP-Adapter-FaceID动态人脸生成：从静态到视频的跨越 - 终极AI人脸身份绑定技术指南

IP-Adapter-FaceID动态人脸生成：从静态到视频的跨越 - 终极AI人脸身份绑定技术指南【免费下载链接】IP-Adapter-FaceID 项目地址: https://ai.gitcode.com/hf_mirrors/h94/IP-Adapter-FaceID 在AI图像生成技术飞速发展的今天，如何让生成的人物保…...

2026/4/27 20:34:26 阅读更多 →

N版本编程，恢复块和防御性编程深入比较

N版本编程、恢复块与防御性编程深度比较 N版本编程（N-Version Programming）、恢复块（Recovery Block）和防御性编程（Defensive Programming）是软件容错领域的三种经典技术。它们分别代表了设计多样性、动态恢复和预防性设计三种不同的容错思想。下面从原理、实现、优缺点…...

2026/4/27 5:59:27 阅读更多 →

保姆级避坑指南：用MIM搞定MMSegmentation 2.0.0安装，告别版本兼容性报错

深度学习语义分割实战：MMSegmentation 2.0极简安装与避坑手册在计算机视觉领域，语义分割技术正以惊人的速度重塑着医疗影像分析、自动驾驶和工业质检等场景的应用边界。作为OpenMMLab生态中的重要成员，MMSegmentation 2.0凭借其模块化设计和…...

2026/4/29 19:30:43 阅读更多 →

Chrome-GPT：将大语言模型深度集成到浏览器的开发实践

1. 项目概述：当浏览器插件遇上大语言模型最近在折腾一个挺有意思的开源项目，叫“Chrome-GPT”。光看名字，你大概就能猜到它的核心玩法：把当下最火的大语言模型（LLM）能力，直接集成到我们每天都要…...

2026/4/29 19:30:43 阅读更多 →

别再用Node.js写MCP网关了！C++ 2024性能基准测试：相同硬件下吞吐量超Go 3.8倍，延迟降低62%

更多请点击： https://intelliparadigm.com 第一章：MCP协议核心原理与C网关设计全景概览 MCP（Modular Communication Protocol）是一种面向微服务间低延迟、高可靠通信的二进制协议，其核心在于“模块化帧结构”与“状态…...

2026/4/29 19:30:45 阅读更多 →

终极指南：如何通过Newtonsoft.Json配置实现高性能JSON序列化

终极指南：如何通过Newtonsoft.Json配置实现高性能JSON序列化【免费下载链接】Newtonsoft.Json Json.NET is a popular high-performance JSON framework for .NET 项目地址: https://gitcode.com/gh_mirrors/ne/Newtonsoft.Json Newtonsoft.Json&#xff08…...

2026/4/29 10:22:30 阅读更多 →