一.选题过程在接收到项目实施计划书后我提取了腾讯会议里关于项目的要求连同计划书一起作为Prompt输入Kimi借助其深度研究功能进行了初步的选题研究生成了一份初步的选题报告。其中agent的占比高于常用系统其也是当下热门的开发方向因此我们组内定下了智能体开发这一大方向。为快速了解agent的选题与开发我使用了Gemini来帮我入门。随即了解到了多智能体协作经组内讨论我们一致认为其具有更先进的结构并具有更好的实用性和可落地性。因此我让gemini以故事的方式帮我快速了解这很有效同时多智能体博弈评审这一思路也悄然诞生。其旨在让agent具备自审功能以求实现更准确的输出尽可能避免幻觉不过仅靠博弈评审仍无法引入外部事实依据因此第二个关键技术检索增强生成(RAG)自然进入了我们的视野。架构确认后是主题的选择除了AI最初推荐的医疗方向组内积极讨论提出了多个候选主题408计算机专业课知识查询助手、算法解题助手、法律服务助手等。为此展开了竞品分析以及可落地性参考其中我将大家的思路汇总并以竞品分析可落地性可行性为约束进行了评审最终我们选题为儿科预诊这不仅与我们提出的框架天然吻合同时也具有实用价值。立题后我按时完成了立项书并且顺利通过答辩成功立项。通过生成上述原型代码并与大家讨论也从工程上确认了本题的可行性。二.需求获取立项后我们对于项目的需求做了详细的分析例如分工角色扮演以判断各智能体功能等具体见项目博客一在这里不做展开。与此同时找到了一篇关于中文儿科数据集的工作《PediaBench: A Comprehensive Chinese Pediatric Dataset for Benchmarking Large Language Models》这项工作提出了PediaBench这是首个专门针对中文儿科领域的大规模、综合性大语言模型评估基准。该数据集包含 5,749 道题目涵盖了 12 类典型儿科疾病组并创新性地整合了从客观选择题到复杂病例分析的主观题等多种题型。其中对 20 个主流大模型进行了深度测评如下图所示我们认为其并没有达到极高的准确率因此认定我们的项目具有现实的价值。20 个主流大语言模型在 PediaBench 数据集上的性能从立项到需求分析我深刻体会到AI的实力与团队协作的重要性。AI工具帮我快速了解了智能体乃至多智能体的开发流程省去了搜集教程、看视频的时间也让团队能快速入门并评估项目可行性。但AI的输出在细节上仍需人工审阅。除了常见的幻觉Gemini给出了一份2023年卫健委发布的儿科材料我根本搜不到链接也不对技术细节的把控也离不开人例如指出关键数据结构的设计缺陷。这时团队的作用就凸显出来有人负责验证引用有人负责检查代码分工互补。我的体会是善用AI能事半功倍但前提是具备判断正误的能力尤其是验证来源和审查细节。