1. 项目概述在MOOC大规模开放在线课程平台蓬勃发展的今天学习者面临着海量课程选择的挑战。传统的推荐系统主要关注课程或视频级别的推荐而忽略了更细粒度的知识概念Knowledge Concepts, KCs推荐。知识概念作为构成课程内容的基本单元其精准推荐对个性化学习至关重要。当前MOOC推荐系统面临三大核心挑战数据稀疏性问题学习者与知识概念的交互数据通常非常有限语义理解不足现有方法难以捕捉知识概念之间的深层语义关联路径依赖局限基于图神经网络的方法过度依赖预定义的元路径(metapaths)缺乏灵活性针对这些问题我们提出了AMRAspect-aware MOOC Recommendation框架通过自动发现多路径并提取路径特定的多维度表征实现了更精准的知识概念推荐。与现有方法相比AMR的创新性主要体现在采用双向游走(bi-directional walk)自动发现元路径减少对领域专家的依赖引入多维度(aspect)表征捕捉路径中节点的语义内容通过Bi-LSTM编码器生成细粒度的路径表征2. 核心架构设计2.1 整体框架AMR框架包含四个关键组件构成了完整的推荐流水线路径生成模块通过创新的双向游走算法自动发现连接学习者或知识概念的元路径多维度表征模块使用Bi-LSTM编码器提取路径特定的多维度表征维度聚合器整合不同路径的多维度信息生成统一的节点表征维度重要性评估模块动态评估各维度对推荐结果的影响权重2.2 异构网络构建MOOC数据天然适合表示为异构信息网络(Heterogeneous Information Network, HIN)包含多种节点类型学习者(Learner)视频(Video)课程(Course)教师(Teacher)知识概念(KC)我们通过以下步骤构建网络提取知识概念的语义特征使用FastText获取词向量构建邻接矩阵基于实体间的交互关系如学习者-课程、视频-知识概念等特征投影将非KC实体的特征投影到与KC相同的潜在空间关键技术细节特征投影公式为XA RA,KX⊤K其中XA是实体A的投影特征矩阵RA,K是实体A与KC的邻接矩阵XK是KC内容特征矩阵。3. 关键技术实现3.1 双向游走算法传统元路径方法需要人工设计路径模式这既费时又可能遗漏重要关系。AMR采用创新的双向游走算法自动发现元路径从目标节点学习者或KC出发向两个方向同时探索在每一步从当前节点类型允许的边类型中随机选择扩展方向当两个方向的探索相遇时形成完整路径使用广度优先搜索(BFS)收集多条路径def bidirectional_walk(start_node, max_length5): forward_paths [[start_node]] backward_paths [[start_node]] for _ in range(max_length): # 向前扩展 new_forward [] for path in forward_paths: last_node path[-1] neighbors get_neighbors(last_node) for neighbor in neighbors: new_forward.append(path [neighbor]) # 向后扩展 new_backward [] for path in backward_paths: first_node path[0] neighbors get_inverse_neighbors(first_node) for neighbor in neighbors: new_backward.append([neighbor] path) # 检查相遇 intersections find_intersections(new_forward, new_backward) if intersections: return construct_metapaths(intersections) forward_paths new_forward backward_paths new_backward return []3.2 多维度表征学习每条路径上的节点可能体现不同的维度(aspect)即不同的语义侧面。AMR通过以下步骤学习多维度表征节点投影对每个节点使用维度特定的投影矩阵Wa ∈ Rd×h将原始嵌入投影到维度空间Al,i El,iWa其中El,i是节点i的原始嵌入路径编码使用Bi-LSTM编码路径上的节点序列˜Pl bi-LSTM({Al,i}Ii1)注意力聚合计算路径上各节点的注意力权重生成最终路径表征βl softmax(Wβ˜Pl)Pl β⊤l ˜Pl实测发现h64的隐藏层维度在效果和效率间取得了良好平衡更大的h(如128)带来的提升有限但显著增加计算成本。3.3 图神经网络聚合将路径表征作为边特征构建同构图后使用GCN进行信息聚合构建学习者-学习者和KC-KC同构图边权重为路径表征应用两层GCN进行消息传递h0l Mlhkl ReLU(Wk·∑i∈N(l)hk-1i⊙Pl,i)输出最终节点表征hl我们对比了不同GNN架构的效果GCN表现最佳适合均匀聚合邻居信息GAT计算成本高且效果略差GraphSAGE采样导致信息损失4. 实验与评估4.1 数据集我们在两个公开MOOC数据集上评估AMRMOOCCube来自学堂在线平台包含2005名学习者、600门课程、22000视频、21000知识概念数据时间跨度2017-2019PEEK来自VideoLectures.Net包含4063名学习者、23200个讲座和知识概念提供了标准训练测试划分4.2 评估指标采用推荐系统常用指标HRK命中率测试集中真实交互的KC出现在Top-K推荐中的比例nDCGK考虑排名位置的归一化折损累积增益评估策略对每个测试集中的正例KC随机采样99个负例KC计算模型将正例排在负例前面的能力。4.3 基线对比比较七种先进的图推荐方法模型核心思想预定义元路径Metapath2vec异构网络嵌入需要ACKRec注意力元路径聚合需要MOOCIR元路径表示学习需要AMCGRec对比学习增强需要PGPR强化路径推理不需要CAFE粗到细推理不需要UPCR用户中心路径推理不需要4.4 主要结果在MOOCCube数据集上的表现模型HR5HR10HR20nDCG5nDCG10nDCG20Metapath2vec0.6420.7740.8730.4680.5110.537ACKRec0.6590.7640.8420.5030.5380.557AMR (Ours)0.7540.8710.9340.5810.6190.635关键发现AMR在所有指标上显著优于基线优势在更严格的HR5和nDCG5指标上尤为明显自动发现的路径比预定义路径包含更丰富的信息4.5 消融分析维度数量影响维度数从2增加到8时性能持续提升超过8后趋于稳定说明MOOC场景中8个维度已足够捕捉主要语义路径长度影响长度4-6对结果影响不大说明节点内容比路径长度更重要维度分布分析KC的维度分布均匀反映其多面性学习者的维度分布集中通常由2-3个主导维度决定兴趣5. 应用实践与优化建议5.1 系统部署经验在实际MOOC平台部署AMR时我们总结了以下经验冷启动处理新学习者利用注册信息专业、学历等初始化节点特征新KC基于课程大纲和教学视频的ASR文本生成初始嵌入增量更新每周全量更新一次图结构和模型参数每日增量更新学习者交互数据计算优化对大规模图进行分区处理使用DGL或PyG的GPU加速实现5.2 参数调优指南基于大量实验得出的推荐配置参数推荐值影响嵌入维度d64-128太小导致信息损失太大增加计算负担路径数量p10-20更多路径带来更好覆盖但增加计算成本维度数A5-8需平衡表达能力和模型复杂度GCN层数2-3更深不一定更好可能引发过平滑5.3 常见问题排查在实际应用中遇到的典型问题及解决方案推荐多样性不足症状总是推荐相似的KC诊断路径发现过于集中解决增加双向游走的随机性引入探索机制长尾KC曝光少症状冷门KC很少被推荐诊断交互数据稀疏导致嵌入质量差解决引入课程-KC共现先验增强长尾KC特征训练不稳定症状指标波动大诊断可能由于小批量采样方差大解决增大batch size或使用梯度裁剪6. 未来方向基于当前工作我们认为MOOC推荐系统有几个有前景的研究方向跨平台知识迁移将在一个MOOC平台学到的知识迁移到新平台缓解冷启动问题。我们的初步实验表明通过对抗训练可以实现约60%的跨平台知识迁移效率。时序动态建模当前AMR处理的是静态图而学习者兴趣会随时间演变。引入时间感知的图神经网络可能进一步提升推荐时效性。可解释性增强虽然路径机制提供了一定可解释性但普通学习者仍难以理解。开发面向最终用户的可视化解释工具是重要方向。多模态融合当前主要利用文本信息未来可以整合视频、习题等多模态数据更全面地表征知识概念。