TDT5 Multilingual TextLDC2006T18是 LDC 于 2006 年发布的多语种话题检测与跟踪TDT基准语料库核心用于 2004 年 NIST TDT 技术评测为英文、阿拉伯文、中文的话题检测、跟踪、关联等任务提供标注数据与标准基准是早期多语种 TDT 研究的核心资源。以下从核心信息、内容构成、数据特性、应用价值与局限展开说明。一、核心基础信息信息类别详情数据集全称TDT5 Multilingual Text官网编号LDC2006T18发布机构美国语言数据联盟LDC发布时间2006 年语种覆盖英文、阿拉伯文、中文语料规模总计 407,503 条新闻报道含训练集、测试集与开发集语料来源路透社、美联社、法新社等权威新闻专线覆盖政治、经济、体育等多领域核心用途话题检测与跟踪TDT、事件抽取、跨语言话题关联、文本聚类等ISBN1-58563-417-4数据格式XML含文本内容与标注元数据配套标注规范与评测脚本