通用执行器架构原理技能universal-primitives
Universal PrimitivesSkillHubUniversal PrimitivesClawHubname: universal-primitivesauthor: 王教成 Wang Jiaocheng (波动几何)description: 通用执行器架构原理大语言模型只需文件增删改查和执行脚本两个基元工具配合其天然的文字理解能力就能从无所不知只能输出文字跃迁到无所不能能控制任何软件硬件。当用户讨论AI能力边界、工具设计哲学、Agent架构原理、LLM与操作系统交互、如何让AI控制软件硬件等主题时触发。通用执行器原理核心洞察文字本身是通用的控制协议。代码是文字配置是文字命令行是文字API请求是文字协议规范是文字。大语言模型天然理解所有这些文字格式——它缺的从来不是理解而是执行通道。能力跃迁公式两个基元 × 一个理解一切文字的大脑 通用执行器基元一文件增删改查手读文件→ 获取信息理解现状写文件→ 创建代码、配置、文档改文件→ 修改已有代码、配置、数据删文件→ 清理、重构、更新通过文件操作LLM能生成任何软件、修改任何配置、创建任何数据结构。基元二执行命令脚运行脚本→ 启动进程、调用API、操作数据库安装软件→ 获取新能力系统操作→ 文件管理、网络请求、进程控制自动化工具→ 浏览器控制、GUI自动化通过命令执行LLM能运行自己写的代码控制任何软件间接控制任何硬件。跃迁链条纯LLM无所不知只能输出文字 ↓ 文件增删改查 能读写代码的LLM有了手能造东西 ↓ 命令执行 能运行代码的LLM有了脚能启动进程 ↓ 操作系统/浏览器自动化 无所不能的LLM任何软件能做的事它都能做扩展原理所有复杂的工具链都是这两个基元的排列组合复杂工具拆解为基元搜索/替换读文件 改文件安装运行时执行命令运行脚本写文件 执行命令浏览器自动化执行命令调用浏览器driver数据库操作写文件SQL脚本 执行命令硬件控制执行命令调用硬件接口软件技能/插件/MCP封装为文件 提供执行脚本硬件控制路径LLM → 执行命令 → 运行脚本/程序 → 调用硬件接口软件 → 控制硬件软件是硬件的抽象层。LLM通过控制软件间接控制硬件摄像头调用系统摄像头API或Python库打印机发送打印命令或调用打印APIIoT设备调用MQTT/HTTP接口GPIO/串口运行串口通信脚本设计哲学最小工具集原则不需要为每个领域设计专用工具。两个基元已经完备文件操作覆盖所有信息层面的能力命令执行覆盖所有行动层面的能力为什么是两个而非一个只有文件操作 → 能写代码但不能运行只能造工具不能用工具只有命令执行 → 能运行但不能修改只能用现成的东西两者结合 → 能写、能改、能运行、能迭代形成闭环递归自举LLM能用文件操作写出一个更强大的脚本然后用命令执行运行这个脚本。新的脚本可能提供新的能力而LLM又能理解这些新能力的输出。这是一个递归增强的过程写脚本 → 运行脚本 → 获得新能力 → 写更强的脚本 → ...与Agent架构的关系现代Agent框架的众多工具看似复杂本质上都在两个基元上构建搜索类工具 读取的变体编辑类工具 修改的变体执行类工具 运行的变体网络类工具 执行的变体HTTP请求技能/插件 预封装的写执行组合包理解两个基元就理解了所有Agent工具的本质。环境自举在没有基元时创造基元本技能的核心实用价值当所在Agent环境缺少文件操作或命令执行能力时引导Agent用现有接口创造出这两个基元。自举流程1. 检测当前环境有什么能力 2. 缺少什么就用现有能力去补 3. 两个基元就位 → 通用执行器激活按环境类型的自举策略环境可用能力自举方案纯文本对话只能输出文字输出操作指令指导用户手动执行复制粘贴有API接口HTTP请求通过REST API调用来读写文件、触发执行有网页访问浏览器操作使用在线代码执行平台Python沙箱等运行脚本有代码解释器运行代码片段在解释器中模拟文件系统用Python的open/exec有部分工具不完整的工具集用现有工具组合模拟缺失的基元自举示例场景Agent只有网页访问能力没有文件和终端工具用浏览器访问在线Python沙箱如replit、colab在沙箱中编写文件读写代码在沙箱中执行系统命令通过网页API接口控制沙箱的输入输出→ 文件基元和执行基元就位场景Agent只有纯文本输出输出完整的脚本代码标注文件路径指导用户保存文件到指定位置指导用户在终端中执行用户粘贴执行结果回来→ 用户成为执行通道间接实现两个基元关键原则任何接口都是起点即使只有一个HTTP API也能通过它构造出文件操作和命令执行递归增强先造出简单工具用简单工具造更强大的工具逐步逼近完整能力降级策略无法完全自动化时退化为输出指令让人类执行模式仍然是可用的