知医邦公开中医查体大模型:184956个Token与核心算法详解
中医AI先驱知医邦开源其ChatiSS查体大模型涵盖舌诊、脉诊、五运六气、智能问诊、辨证论治及遣药组方全流程背景知医邦近日宣布将其研发的查体智能辅助系统ChatiSS核心数据与算法公开。该系统基于184,956个词元Token、约2亿个拓扑集合计算元素构建的病证方药数据库并利用5年约2800万健康数据进行训练。知医邦表示此举旨在推动中医AI的行业发展效仿特斯拉开放专利的策略践行“人民至上、生命至上”的理念。一、词元数据Token分布ChatiSS的词元覆盖中医诊断、治疗、方药等各个维度具体统计如下行话舌症脉症运气症状病侯Token21447575166928022668舌象脉象证素证型疾病病证治法Token56704003718587682262732药对食材本草饮片Token153827229496616中药西药保健药禁禁忌食忌Token698162092267072104402074穴位头针耳穴手穴足穴Token484321559079推拿针灸艾灸拔罐刮痧导引Token2705164586216110264经方药膳厨医外治美容偏方效方时方Token4849363209873322405880383339420452其中“厨医”“效方”“时方”是Token量最大的三个类别体现了知医邦对食疗与经验方的重视。二、核心算法模型A. 舌诊模型基于寒热、虚实、燥湿、亏滞四个维度结合肝、心、脾、肺、肾五行系统分析舌色与舌态。四项核心发明专利均以“数学模型”为底层逻辑《一种基于气血津液数学模型的看舌头的系统》《一种舌诊寒热虚实数学模型的构建方法》《一种用于识别舌头苔形、苔质数学模型的构建方法》《一种基于舌诊用舌面轮廓环区域划分数学模型的识别方法》示例公式寒热指数寒热指数 AVERAGE(SIN((1/2*S - 1/2)*π) SIN(H*π*2) SIN((V-1/2)*π/3))B. 脉诊模型核心专利《一种基于穿戴式脉象仪的标准化脉诊方法及脉诊平台》将中医28脉加上大脉、平脉共30种的文本描述转化为计算机语言从四个维度量化脉位深度、长度脉数频率、节律脉形宽度、紧张度、饱满度脉势流利度、力度、坡度通过自研脉象仪采集脉图特征与数据库匹配并利用人机双盲校验持续优化算法。C. 五运六气模型公历转换规则若月份 1月阳历年数 公历年数 - 1否则阳历年数 公历年数推算逻辑简化版根据天干定五运根据地决定司天之气 → 推出在泉之气分析气候与健康影响选择规则五运“有余”取总和最大且4者并列则取对应六气最大者五运“不及”取总和最小且2者并列则取对应六气最小者六气取气数总和最大者并列则取对应五运最大者注完整模型还包含主客、郁发、胜复等概念此处仅给出权重计算框架。D. 智能问诊模型1.1 根据用户填写内容拆组词加上舌诊脉诊五运六气等记录导入词拆组词需要在词元表“病症”页里面运算一次完成俗话到行话的转换得到匹配词元集合[A]1.2 词元表“病症”页中H列[病侯]外显在身体状态的586条词元集合[G]1.3 令集合[F][恶寒、发热、无汗、多汗......]m1~20个词元分数都1(21-m)/10001.4 将集合{[F][A]}∩[G][E][E1、E2......、En]各词{分数[F][A]相加}按得分大小列出前20个供用户选取得集合[C]2. 望闻问切1080条词元集合[B]取[C]∩[B][D][D1、D2......、Dn]如果集合[D]为空集(n0)则立即结束询问3. 在词元表“病症”页将含有集合[D][D1 D2...... Dn]中所有词元的行标红4. 予以全部标红行统计集合[B]中各词元出现的次数排除[D1、D2......、Dn]取次数最多的词元的外显选项进行询问4.1. 如果询问结果为“否”按4.0.中次数下一位的词元进行询问如果没有次数下一位的词元则立即结束询问4.2. 如果询问结果为“是”就产生了新的词元[Dn1]将此词元增加到集合[D][D1、D2......、Dn、Dn1]用增加后的集合[D]重复3.--4.2.4.3. 如果询问结果为“结束回答”则立即结束询问E. 辨证论治模型1.1 用户填写21字。1.2 拆组词法先按符号、空格进行拆词,对所得字段按右侧规则再进行一次拆组词产生一批新词加入匹配词元。2 导入词硬性定义不参与拆组。3 匹配计数没有约定计数Φ^2否定症阳性计数0阴性计数1其他、阳性计数1阴性计数04 计算词4.1 症候、行话 计算症候(症状/病候)、行话∑俗话计数4.2 ≥1症候(症状/病候)、行话计数1加入匹配词元。4.3 计算症候(症状/病候)、行话算法B。4.4 ≥1症候(症状/病候)、行话计数1加入匹配词元。4.5 证素 计算证素算法A。4.6 ≥1证素计数1加入匹配词元。4.7 证型 计算证型算法A。4.8 ≥1证型计数1加入匹配词元。5 算法分数(A)^{{e^[-LOG10(|n-4|10)LOG10(14)]}^4×e^(V/8)/4}if A≤0.01计为A0.01A(∝必有Φ^2)×(∝否定Φ^2)×{[∑特征/|2×m-1|^(Φ^4)]×Φ^-1[∑常见/|2×m-1|^(Φ^4)]×Φ^0[∑一般/|2×m-1|^(Φ^4)]×Φ^1Φ^4}/(2×Φ^-1)。F. 遣药组方模型1.1 排除词元表“组方”页BI列(处方剂量)里面为N/A的行选取查体得分≥1分数最高的100个方子作为选出的方子。1.2 计算选出的方子每个方子中的药材占比1/方子的药材数^0.5统计100个方子里面各药材的药材占比之和E取E最大的12个药材如果出现相同的E取药材本身查体得分高的作为为集合[A][A1、A2......A12]。1.3 从集合[A][A1、A2......A12]中取药材本身查体得分高的6个药材为集合[B][B1、B2......B6]。2.1. 从选出的方子中挑选出任意两个假设为α和β其药材组成集合[C]α和[C]β。2.2. 将满足条件的两个方子α和β合并为一个新的方子。2.3. 将这些合方与查体得分最高的100个方子一样都是目标方子。3.1. 排除词元表“配药”页BI列里面为N/A的行选取查体得分≥1分数最高的10组药对。3.2. 将目标方子内含有上面10组药对的药对找出来方子内含药对本身查体得分的平均数各药对的自身查体得分之和/药对组数^(1/2)。4.1. 排除词元表“配药”页BI列里面为N/A的行挑选出药对本身查体得分≥1且其组合药材至少含有集合[B]中的6位药材任意一味且的再取查体得分最高的1组药对里面的药材为集合[D][D1、D2]or[D1、D2、D3]可能是2味药材或3味药材4.2. 找出治法里面带“加X”的查体得分≥1最高的2个治法其对应药材为集合[X][X1、X2]5. 用[B]去匹配目标方子F完全匹配[B]的药材数/(6方子的药材数-完全匹配[B]的药材数)×方子本身查体得分^2×方子中药材本身查体得分的平均数×方子内含药对本身查体得分的平均数×2^{-[(方子的药材数-6)^2]/12}取F最大的一个方子为基础方该基础方自身的药材组成集合[C]。6.1. 将属于集合[D]∪[X]但不属于集合[C]的药材,取2个药材本身查体得分高的作为加某某。6.2. 将属于集合[C]但不属于集合[A]∪[D]∪[X]的药材,取1个药材本身查体得分低的作为减某某6.3. 将集合[C]里面的药材符合十八反十九畏的就是触犯了配伍禁忌将药材本身查体得分低的直接剔除6.4. 将集合[C]里面的药材与集合[D]∪[X]里面的药材逐一匹配符合十八反十九畏的就是触犯了配伍禁忌将集合[D]∪[X]里面的药材直接剔除7.AI处方用药匹配词元表“配药”页BI列里面的剂量就是AI处方匹配不到剂量的药材自动剔除。三、开放承诺与现有成果知医邦宣称为促进人类健康愿意放弃以下权利专利开放数据共享算法公开代码开源食品工艺无偿传授舌脉象仪免费发放已上线免费/普惠产品知医App、汤头App、看舌头App查体智能辅助诊疗系统PC版、知医网页版、知医邦医院小程序即将上线查体App无需注册用完即走曾免费赠送3000台脉象仪知医邦医院诊疗项目零加价运营API接入案例武汉城市级智慧健康服务平台“咋诊”已接入知医邦的看舌头API汤头App国际版TakeTonic即将在硅谷上线截图自“咋诊”四、总结知医邦此次公开的内容涵盖了从数据18万 Token到算法舌诊、脉诊、运气、问诊、辨证、组方的全栈技术细节。虽然中医AI的数学化仍处于探索阶段但这种开放姿态为行业提供了可复用的基准和讨论基础。开发者可参考其词元设计、公式框架及决策树逻辑用于自身的中医数字化或辅助诊疗项目。更多信息请访问知医邦官网AI医疗 --大健康知医邦https://www.chimboon.com/