从“能存下”到“训得动”：XSKY XEOS 支撑头部 AI 实验室建设 EB 级数据湖

张

张建站

2026/5/23 13:20:05

10分钟阅读

从“能存下”到“训得动”：XSKY XEOS 支撑头部 AI 实验室建设 EB 级数据湖

大模型规模化训练正加速推动 AI 数据湖突破规模临界点也让企业和科研机构陷入一个核心困境数据湖“能存下”不难“存得统一、用得高效”却愈发艰难。对这类客户来说存储系统已不只是“容量底座”更是决定训练效率、平台复杂度与长期治理成本的核心环节——数据视图是否统一、单桶对象能否持续扩容、List 和元数据访问是否稳定直接影响大模型研发的迭代速度。针对此类场景XSKY XEOS 对象存储在国内某头部人工智能科研机构的 AI 数据湖建设中给出了最优解以单桶千亿级对象、EB 级容量横向扩展、多级元数据与 List 优化能力让客户业务数据在规模增长中始终保持统一为大模型研发扫清存储障碍。需求保持统一是 AI 数据湖的核心该客户长期聚焦大模型、多模态智能、科学智能及开源开放生态研发数据来源广泛、类型繁杂且增长迅猛——从海量开源语料到自主标注数据从模型权重到推理日志这些数据并非孤立文件而是贯穿训练、评测、迭代全链路的核心生产资料这也决定了其 AI 数据湖必须满足四大核心刚需缺一不可第一容量需实现“永续增长”大模型训练是持续迭代的长期项目数据会随着新任务、新版本、新模态不断进入数据湖容量需要从 PB 级持续走向 EB 级无容量天花板限制。第二对象数量要能“长期承载”AI 数据湖中存在大量小文件、样本分片、索引文件、Checkpoint 分片和模型产物。对象数量增长速度往往比容量增长更快单桶对象数需要具备百亿级、千亿级扩展能力杜绝因对象数量瓶颈影响业务。第三训练链路需“高效数据发现”训练初始化、数据分片发现、全局遍历、Shuffle、ETL 扫描、Checkpoint 枚举等动作均高度依赖对象存储的元数据和 List 能力高效的数据发现能力直接缩短训练等待时间提升 GPU 利用率。第四数据治理需“全链路统一”权限管控、生命周期、审计、监控和数据版本管理都希望围绕一个统一的数据湖视图展开而不是被底层桶和集群边界打散。挑战数据规模增长后存储边界会侵入业务架构在 AI 数据湖规模变大后真正的困难不是“再加一些容量”这么简单而是存储规格不足会逐步传导到训练平台、数据工程和治理体系。最终拖慢大模型研发进度、增加运维成本甚至带来合规风险具体面临四大核心挑战挑战一容量增长会导致多集群拆分当单一存储域无法继续承载增长时客户往往需要把数据拆到多个集群——短期看似解决了扩容问题长期却会引发一系列业务痛点跨集群访问、数据迁移、容灾策略、监控告警和运维边界的复杂化。更会让训练平台被迫感知数据位置调度系统也额外需要处理不同集群之间的访问路径和性能差异严重影响训练效率。挑战二对象数量增长会导致多桶拆分当单桶对象数量达到瓶颈后业务只能把数据拆进多个桶。但桶不仅是存储容器也是访问路径、权限策略、生命周期和元数据治理的边界。拆桶之后数据采集要增加路由规则训练脚本要适配跨桶遍历ETL 任务要聚合多个桶的对象列表平台侧还可能需要额外维护索引层。原本统一的数据湖开始变成多个逻辑碎片大幅增加业务改造与运维成本。挑战三List 和元数据性能会影响训练效率大模型训练非常依赖元数据访问——训练任务启动前要列出数据集对象、分布式训练要发现数据分片、Checkpoint 恢复要枚举版本和分片数据清洗任务要扫描大量对象这些操作均需稳定的 List 与元数据能力。当对象数量达到百亿级甚至更高时List 已经不是普通目录操作而是对元数据系统的持续压力测试。如果响应不稳定训练任务启动会变慢Checkpoint 恢复会变慢GPU 甚至闲置在“找数据”环节造成资源浪费。挑战四治理策略会被多桶、多集群打散AI 数据湖需要统一权限、生命周期、审计和监控。但在多桶、多集群架构下这些策略需要重复配置、同步和校验不仅增加运维工作量更可能出现策略不一致进而引发数据访问异常、合规审计失败、故障定位困难等问题埋下业务隐患。可见AI 数据湖的核心诉求从来不是“能否扩容”而是“扩容后能否保持统一的数据视图与简单的业务边界”——这正是 XSKY XEOS 的核心价值所在。解决方案把规模复杂度留在存储系统内部面对该客户的核心痛点XSKY XEOS 的设计思路是将容量、对象数量、元数据访问的规模复杂度全部留在存储系统内部不将任何负担传导给训练框架、数据平台与业务团队让业务侧“无需改造、无感扩容”具体解决方案如下单桶千亿级对象保持统一数据视图XEOS 支持单桶千亿级对象能力可在统一桶视图下无缝承载训练样本、小文件、数据分片、索引文件、Checkpoint 分片、模型权重和推理日志等全链路数据资产。这意味着业务路径不需要因为对象数量增长而频繁调整训练脚本不需要感知底层分桶逻辑数据采集和清洗任务也不需要维护复杂的分桶路由。从根源上避免数据湖碎片化解决“拆桶带来的业务改造”痛点。EB 级容量横向扩展支撑长期增长针对 AI 数据湖持续增长的特点XEOS 通过多集群管理和统一命名空间能力将多个数据集群纳入同一逻辑命名空间。对上层训练框架、数据平台和业务应用而言底层容量可以按需横向扩展至 EB 级上层仍保持统一桶视图、统一访问路径和统一治理边界。彻底解决“多集群拆分带来的业务复杂度”问题区别于传统多集群拼接容量的粗放模式。多级元数据与 List 优化减少训练等待XEOS 面向 AI 场景中的高并发元数据访问和 List 操作进行优化提升大规模对象场景下的数据发现和路径遍历效率——无论是训练初始化、数据分片发现还是 Checkpoint 恢复、ETL 扫描都能实现快速响应避免 GPU 闲置在“找数据”环节直接提升训练效率与资源利用率精准解决“元数据性能不足”的核心痛点。案例价值让 AI 数据湖在增长中保持统一对于该头部人工智能科研机构而言XSKY XEOS 承载的不仅是海量对象数据而是贯穿大模型研发全流程的数据资产——从训练语料、标注结果、数据分片、到模型权重从 Checkpoint、评测数据、到推理日志XEOS 以“统一、高效、可扩展”的核心能力为客户带来实实在在的业务收益真正实现“AI 数据湖在增长中保持统一”。无需拆分集群统一命名空间支持 EB 级容量横向扩展避免因容量增长过早拆分集群减少跨集群数据迁移、运维管理的成本提升研发效率无需改造业务单桶千亿级对象能力避免因对象数量增长调整业务路径、适配分桶逻辑为研发团队节省大量业务改造时间提升训练效率多级元数据与 List 优化显著缩短训练初始化、分片发现、Checkpoint 恢复的等待时间充分释放 GPU 算力减少资源浪费简化治理难度统一桶视图与治理边界让权限、生命周期、审计、监控策略实现“一次配置、全域生效”降低运维成本规避合规风险。大模型时代存储的选型已经不再是“选择容量”更是“选择未来 AI 平台的复杂度边界”。XSKY XEOS 对象存储以单桶千亿级对象、EB 级容量横向扩展和面向 AI 数据湖优化的元数据核心能力打破存储规模与数据统一的矛盾让客户无需在“扩容”与“统一”之间做选择——把复杂留给存储把简单留给业务。这不是新概念而是大模型时代对对象存储提出的新要求让 AI 数据湖扩容不拆桶、增长不添乱让训练链路少一点等待让业务团队少一点负担为大模型研发筑牢统一、高效、可持续扩展的存储底座。

GHelper技术解析：基于ACPI直接通信的华硕笔记本轻量级控制方案

GHelper技术解析：基于ACPI直接通信的华硕笔记本轻量级控制方案【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops with nearly the same functionality. Works with ROG Zephyrus, Flow, TUF, Strix, Scar, ProArt, Vivobook, Zen…...

2026/5/23 13:18:04 阅读更多 →

5分钟掌握Simple HTTP Server：终极轻量级静态文件服务解决方案

5分钟掌握Simple HTTP Server：终极轻量级静态文件服务解决方案【免费下载链接】simple-http-server Simple http server in Rust (Windows/Mac/Linux) 项目地址: https://gitcode.com/gh_mirrors/si/simple-http-server 在现代软件开发中，一个高…...

2026/5/23 13:17:10 阅读更多 →

自动售货机一个月能赚多少钱？真实数据告诉你答案 [特殊字符]~YH

很多想入行的朋友最关心的就是这个问题：自动售货机到底赚不赚钱？一个月能有多少收益？今天咱们就来掰开揉碎聊聊这个话题，用真实数据说话，让你心里有个底 👇📊 先说结论：收益差距真的…...

2026/5/23 13:14:41 阅读更多 →

免费API宝藏库：开发者必备的Public APIs完全指南 [特殊字符]

免费API宝藏库：开发者必备的Public APIs完全指南 🚀 【免费下载链接】public-apis A collective list of free APIs 项目地址: https://gitcode.com/GitHub_Trending/pu/public-apis 还在为寻找可靠API而烦恼吗？Public APIs项目为你准…...

2026/5/22 16:40:59 阅读更多 →