贴吧 Server 团队 10 周落地小码哥 AI CR:评审占比提至 84%,bug 密度降 66.87%!
一个让我们坚持做下去的数据bug 密度 -66.87%。这是贴吧 Server 团队在持续推进小码哥 AI CRAI Code Review10 周后交出的成绩单。数据走势清晰地展示了使用量上来、bug 率就下来。评审占比从 33% 稳步爬升至 84%评审 icafe 数量从 3 次/周增长到峰值 85 次/周而 bug 密度从 0.332 降至 0.11。这篇文章将这 10 周的经验、数据和踩坑完整分享出来供有意推广 AI CR 的团队参考。小码哥是什么我们为什么做小码哥iCode AI CR只做代码评审不参与代码编写。它的核心价值是把重复性、规范性的代码检查交给 AI让研发同学和人工评审者可以把精力聚焦在更有价值的地方----架构设计、业务逻辑正确性、扩展性。贴吧团队的痛点很典型代码库多、提交频率高人工评审质量参差不齐新人规范问题重复出现老同学 review 疲劳review 占用时间较高。这些问题终将导致非预期的线上问题漏出。我们的目标是在 26 年 Q1让 AI CR 成为团队开发流程的自然环节覆盖 80% 的日常 CR 请求显著减少常见问题发生。时间线从 kickoff 到常态化小码哥在贴吧的落地不是一蹴而就的经历了完整的节奏演进。如何开启这场酣畅淋漓的 AI CR 之旅快速上车目前小码哥已全量开放权限仅需负责同学为代码库开启自动评审即可在 iCode 提交代码时AI CR 自动触发无需额外操作。CR 流程规范AI CR 的评论分三个严重级别高/中必须关注/需要关注必须处理阻塞合入优化建议评估处理拒绝时需说明原因支持多轮对话让 AI 重新评审低优先级观察可选参考。完整的 CR 流程规范大体分为四步开发者提交代码小码哥自动触发 AI 评审AI 生成行间评论和总结报告标记严重级别开发者处理评论----点击采纳和拒绝采纳的高中风险强制修改建议级可多轮对话驳回拒绝的进行反馈评审者确认评论评审通过后合并代码AI 评审记录沉淀为团队经验。配置规则集我们的规则体系分为两层通用规则 定制规则。在不做任何修改直接推进小码哥的情况下默认采用通用规则但无法适配业务特异性需要定制规则补充这部分。通用规则平台预置小码哥平台预置了覆盖 3 大类维度的通用规则覆盖面广、开箱即用。定制规则团队经验从历史问题中沉淀这是贴吧团队自己沉淀的核心资产。我们将 25/26 年历史线上问题和日常 CR 中发现的典型问题提炼为 AI CR 可识别的规则目前共沉淀 14 条定制规则分语言 22 条覆盖 P0/P1 优先级。规则不是一次性配好就完了。我们的经验是初期配置 - 跑一两周 - 收集误报/漏报 - 反馈闭环 - 迭代规则我们正是这样把规则质量不断打磨到位的。自动化评测工作流这套自动化评测体系是贴吧团队在 AI CR 落地过程中最核心的基础设施建设。它不仅是方法论更是一套完整的工程资产 ----Sub - agent、Skills、工作流全部模板化其他团队直接迁移就能跑出自己的 AI CR 规则。整体评测流程6 步生成规则 - Case 构造 - 数据集上传 - 任务创建工作流 - 通用标注 - 汇总报告。生成规则 Case 构造两种方式可选。方式一传统手动分步法生成规则通过自然语言描述规则需求让 Ducc 或 Zulu 生成可被小码哥识别的 rules prompt生成后人工确认、人工发起反馈调优。规则文件保存在代码库 baidu/tieba - xxx - xxx/smart - cr/rules/ 下按语言php/go和模块组织。Case 构造拉取指定的 iCode 评审代码库到沙箱环境用 Ducc/Zulu 生成正例/反例代码片段插入到现有代码类的 private 方法中独立提交每个 case 到评审系统最后产出 Excel含评审 URL 评论。方式二Agent/Skills 一站式自动化推荐我们搭建了 Comate Skills路径 ./comate/skills/smart - cr - benchmark和 Sub - agent 双引擎实现了“一句话生成全套评测 case 和标准答案”的能力。规则生成和 Case 构造由 Agent 自动完成无需分步操作。协同机制反馈群 iCafe 周会三道防线如何保障问题落地解决、需求落地我们建立了三层闭环机制促进 CR 效果的提升、为团队定制规则赋能。第一层反馈群实时响应贴吧团队和小码哥团队共建了专属反馈群开发者在日常 CR 中遇到误报、漏报等问题可以直接在群里反馈。双方明确了接口人确保问题有响应、有跟踪不石沉大海。第二层iCafe 卡片跟踪对于需要系统跟进解决的问题通过 iCafe 卡片录入明确 SLA服务等级协议和升级通道确保定期闭环。每一条反馈的处理结果都会沉淀下来好的场景和方法反哺到规则库中形成正向积累。第三层周会评审需求每周四例行周会对齐进展、评审新需求、同步问题如规则冲突、效果波动及应对方案。需求的流转路径为贴吧日常提需求卡 - 周会评审 - 小码哥开发确保每一条有价值的规则需求都能进入迭代 pipeline。通过这三层闭环规则集持续优化 ---- 误报率逐步下降准确率稳步提升。这套反馈机制本身也已成为贴吧和小码哥团队合作的标准化流程。现在是轮到更多团队上车的时候了贴吧 server 团队的经验已经趟出了一条路先上量在推广初期要有人主动带节奏形成团队习惯不依赖自发定制规则从 case 提炼从历史线上事故和日常 CR 问题中沉淀自己的规则这是 AI CR 效果最深层次的护城河自动化评测必须跟上利用 agent/skills 工作流让规则迭代形成“配置 - 评测 - 优化 - 再评测”的飞轮协同机制做扎实反馈群实时响应 iCafe 卡片跟踪 周会评审需求三层反馈闭环机制让小码哥变得更强大。我们的目标是让 AI CR 成为贴吧研发流程里不需要想起来、自然存在的一环。就像 CI 检查一样理所当然。如果你的团队还没用起来现在是最好的时机 ---- 有前人踩坑经验有规则库可以借鉴有自动化工作流可以直接复用有问题可以实时反馈。