为什么数据库一体机曾被认为“过时”,如今却再次成为主流?
图1 《高级数据库机架构》2024年12月在一篇关于中国人工智能先驱史忠植研究员的访谈1中我看到了一本久违的书《高级数据库机架构》Advanced Database Machine Architecture如图1所示。这本封面厚重的学术专著在我心中拨动了一根记忆的弦也打开了一段跨越近半个世纪的技术史诗。从1970年代学院派的概念探索到1979年商业公司的争相涌入从1983年悲观主义者的“死亡宣判”到1992年并行数据库系统的绝地反击从2008年拉里·埃里森Larry Ellison在旧金山发布会上的惊天一击再到今天云和恩墨以软件定义存储重新定义一体机……这是一部充满争议与反转的数据库硬件进化史。这段历史中有一位华人科学家的名字贯穿始终却鲜为国内读者所知——他就是萧开美David K. Hsiao2。正是他点燃了数据库机的学术火炬也正是他的论文激励了Teradata的创始人走上商业化之路正是他的研究引领了一批中国访问学者的方向也间接催生了中国数据库产业的第一批种子。在前面的篇章中我们讨论了数据库机从Britton-Lee到Teradata的创业历程。在这篇文章中我将以史学的严谨态度重新梳理数据库一体机从学术概念到商业产品、从封闭专用到开放通用的完整历程并以人物故事为经、技术演进为纬为读者呈现这段波澜壮阔的科技往事。1 专访史忠植研究员二十多年前就开始做Agent研究的中国学者InfoQ2024-12-30https://www.infoq.cn/news/vAy1biQtrhdHHWJqz97z2 萧开美在很多文献中被写作“肖开美”。本文依史忠植访谈之例记为“萧开美”《中国数据库40年》一书中周龙骧先生的文章记为“肖开美”。“萧”与“肖”二姓之争在中国历史上是一段公案。中国于1977年12月正式发布《第二次汉字简化方案草案》简称“二简字”强制将“萧”简化为“肖”导致大量“萧”姓人士被改姓为“肖”对“萧”“肖”两个氏族造成的影响延续至今。“二简字”方案于1986年被废除但在1979-1980年萧开美回国时正值“二简字”推行的高峰期所有新闻和学术期刊均严格执行“肖”字写法。据文献记载被强制改姓的“萧”姓族人后来纷纷更改户口本恢复本姓。00.序章华人先知点燃的火炬图2 萧开美数据库机领域真正的先驱人物是一位华人科学家——萧开美见图2。萧开美出生于1933年于1956年从台湾赴美在迈阿密大学俄亥俄州分校取得数学学士和硕士学位。1968年他成为宾夕法尼亚大学计算机与信息科学系的首批博士生并以数据库保护和访问控制为题完成博士论文——那是该领域的第一篇博士论文。萧开美的学术地位在数据库界举足轻重。他不仅是VLDB3超大型数据库国际会议的创始人和发起者——这一创办于1975年现为数据库领域三大顶级会议之一的学术盛会——而且是第一位在计算机科学领域获得博士学位的华人。这在当时是具有里程碑意义的历史事件。博士毕业后萧开美留在宾夕法尼亚大学任教此后还先后在俄亥俄州立大学和马里兰大学担任教职最终在美国海军研究生院Naval Postgraduate School结束了他的学术生涯。他的研究重心始终牢牢锁定在一个问题上如何让数据库运行得更快到了1970年代末他给出了自己的答案——数据库机Database Machine。3 VLDB官方会议历史https://www.vldb.org/conference.html1975年第一届会议于美国马萨诸塞州弗雷明汉举行。01.檄文数据库机来了图3 《数据库机来了》论文印刷稿1979年3月萧开美发表了一篇足以改变数据库机历史的著名论文《数据库机来了》Data Base Machines are Coming, Data Base Machines are Coming!4。如图3所示仅凭这个充满感叹的标题我们便能感受到作者当时的激情与笃定。萧开美在论文中回顾了数据库机技术的发展并满怀热情地呼吁数据库机的时代已经到来。这篇论文被视为数据库机领域的“动员令”和“战斗檄文”。值得玩味的是这篇论文的标题中Data和Base是两个独立的单词而非我们今天熟知的合体词Database。这个小细节折射出那个时代技术词汇尚未定型的历史语境——Database作为单一词汇的通用化本身就是1980年代以后的事情。萧开美论文的核心论点可概括为新兴研究的持续发力与硬件技术的最新进展将很快使商用数据库机成为现实。这一论断包含三层内涵第一技术就绪性判断。萧开美指出大规模集成电路、半导体存储器、微处理器等硬件技术的进步已使构建成本可控的数据库专用硬件成为可能。第二研究生态成熟度判断。论文强调数据库机并非孤立的硬件创新而是需要数据库理论、体系结构、算法优化等多领域研究的协同推进。第三商业化前景预期。论文明确指向商业数据库机而非纯粹的学术研究原型体现了作者对技术转化路径的清晰认知。从技术架构角度萧开美论文虽未展开详细设计但指明了数据库机的核心特征将数据库操作从通用CPU卸载offload至专用处理单元实现存储与计算的协同优化。这一思想成为后续所有数据库机/一体机设计的根本遵循。同年6月萧开美又发表了配套论文《DBC——一台为超大型数据库设计的数据库计算机》DBC—A Database Computer for Very Large Databases5进一步探讨了数据库机的架构与设计方案。在20世纪70年代末到80年代初数据库机之所以成为热点是因为随着数据量的指数级增长通用计算机的CPU逐渐成为处理大规模数据库任务的瓶颈。萧开美通过研究提议“既然通用计算机慢那我们就为数据处理量身定制一套硬件。”1983年萧开美主编出版了《高级数据库机架构》一书系统总结了该领域的各种技术路线指明了数据库机前进的方向成为那个时代数据库机研究者的重要参考。正是这本书在数十年后出现在史忠植访谈画面里再度唤起了我们对这段历史的记忆。4 David K. Hsiao, Data Base Machines are Coming, Data Base Machines are Coming!, ACM SIGMOD Record, Vol. 9, No. 4, March 1979.5 David K. Hsiao, DBC—A Database Computer for Very Large Databases, VLDB Conference Proceedings, June 1979.02.行动数据库机的商业化如火如荼萧开美关于数据库机的研究论文影响了很多人杰克·谢默Jack E. Shemer1940-2020是其中之一。谢默曾在施乐工作在看到萧开美的文章后他相信数据库机的时代即将到来。1979年7月谢默联合几位来自施乐和花旗银行的资深技术专家创立了Teradata。Teradata在大规模并行数据处理领域做出了革命性的开创工作。后来Teradata成为了VLDB的长期赞助商。萧开美还曾为另外一家数据库机公司——布里顿-李Britton-Lee——提供咨询。关于Teradata和Britton-Lee的故事读者可以参考前面的文章——《从Teradata到Exadata和zData的容量愿景》《从Britton-Lee的陨落到Exadata和zData的智能复兴》《从Britton-Lee到zData专用硬件和通用硬件之抉择》《从德维特的Gamma系统到开放集成的zData实践》03.批判一篇让数据库领域颤抖的论文1983年一篇措辞犀利的学术论文在数据库机领域引发了轩然大波。这篇论文的作者是来自威斯康星大学麦迪逊分校的戴维·德维特David J. DeWitt——日后的并行数据库系统权威、数据库学界最具影响力的学者之一。论文的标题极为直白充满挑衅意味《数据库机一个已经过时的构想——对数据库机未来发展的批判性分析》Database Machines: An Idea Whose Time has Passed? A Critique of the Future of Database Machines6。要知道在几年以前德维特还是数据库机的坚定支持者他和保拉·霍索恩Paula Hawthorn的合作直接影响了Britton-Lee的创立和发展。然而短短几年之后德维特对数据库机的看法就发生了转变。文章开头德维特写道“萧开美撰写《数据库机来了》一文时数据库机的前景似乎一片光明许多研究项目正在进行几款商业产品也即将面世。然而现在我们的观点完全不同我们曾一度想将本文标题定为‘数据库机死了Database Machines are Dead, Database Machines are Dead’”。这种呼应萧开美论文标题的刻意反转颇具文学色彩也让这篇批判性论文获得了更广泛的传播。6 Haran Boral, David J. DeWitt, Database Machines: An Idea Whose Time has Passed? A Critique of the Future of Database Machines, IWDM 1983: 166-187德维特的核心观点是磁盘容量的增加对高度并行数据库机产生了非常不利的影响除非找到提高大规模存储设备带宽的方法否则高度并行的数据库机架构注定要消亡。这个论断在当时颇有说服力。专用数据库机的硬件成本高昂而通用计算机的性价比则在摩尔定律的驱动下快速提升。专用硬件的优势正在被通用硬件的迅猛进化所侵蚀。然而德维特本人并未就此放弃。批评者往往也是探索者——在发表那篇批判性论文的同一年他在威斯康星大学悄悄启动了一个全新的研究项目Gamma数据库机项目7。Gamma项目从1984年1月正式启动持续运行到1992年底。其核心目标恰恰是去验证德维特在1983年论文中所质疑的东西使用非专用的通用“廉价”硬件能否实现高性能的并行数据库系统Gamma运行在一个由普通工作站通过高速网络互联而成的集群上采用无共享Shared-Nothing架构通过数据分区Partitioning和并行查询处理实现高性能。它证明了一个关键命题并行数据库不一定需要专用的昂贵硬件通用硬件的集群同样可以实现出色的性能。这一发现深刻影响了此后整个并行数据库系统的发展方向。时间来到1992年德维特与吉姆·格雷Jim Gray联合撰文发表了《并行数据库系统高性能数据库系统的未来》Parallel Database Systems: The Future of High Performance Database Systems。在这篇论文中他们共同反驳了德维特1983年的判断高度并行的数据库系统正开始取代传统的大型机用于超大规模的数据库和事务处理任务。这些系统的成功驳斥了1983年一篇预测数据库机消亡的论文。十年前高度并行数据库机的未来看起来黯淡无光即使在其最坚定的支持者看来也是如此。批评者预测除非找到解决I/O瓶颈的方案否则多处理器系统将很快受到I/O限制。虽然这些关于硬件未来的预测相当准确但批评者关于并行数据库系统的整体未来的判断肯定错了。在过去十年中Teradata、Tandem和许多初创公司成功地开发并销售了高度并行的数据库系统。德维特作为一位学者公开承认自己十年前的判断“肯定错了”这在学术界并不多见。德维特和格雷的这篇论文成为并行数据库系统领域的经典文献也标志着这一方向完成了从“被质疑”到“被认可”的历史性转折。7 D.J. DeWitt, S. Ghandeharizadeh et al., The Gamma Database Machine Project, IEEE Transactions on Knowledge and Data Engineering, Vol.2, No.1, March 1990. DOI: 10.1109/69.50905.04.复兴Exadata的谋定而后动德维特在1983年指出的那个死结——磁盘I/O带宽的增长速度跟不上数据量的增长——并没有消失它只是被推迟了。时间进入21世纪这个问题再度以新的形式出现在数据库设计者的面前。然而技术的进步也带来了新的解法。到2000年代中期InfiniBand高速互联技术的成熟为打破带宽瓶颈提供了一把“钥匙”。InfiniBand是一种高性能、低延迟的网络互联标准其带宽远高于同期的以太网延迟则低至微秒级。正是这把“钥匙”让Oracle等待已久的数据库一体机蓝图成为可能。当Oracle开始谋划推出数据库一体机时德维特当年所指出的约束条件都已经有了解决方案。Oracle数据库一体机的目标是通过开放硬件打造高性能的数据库基础设施。图4 HP Oracle Database Machine2008年9月24日旧金山Moscone中心约4.3万人齐聚Oracle OpenWorldOOW年度大会。Oracle CEO拉里·埃里森走上舞台发表了他在硬件领域的历史性宣言Oracle与惠普合作正式推出Oracle历史上的首款硬件产品——HP Oracle Database Machine即Exadata V1如图4所示。Exadata V1的核心硬件采用的是HP的x86服务器其核心技术创新是Smart Scan智能扫描技术。该技术的原理是将SQL查询的基础操作如过滤、投影直接下推到存储服务器层执行而非将所有数据传输到数据库服务器后再处理。这种“存储层计算”的设计大幅减少了计算节点与存储节点之间的数据传输量从根本上缓解了带宽瓶颈8。与Smart Scan配合的是连接计算节点和存储节点的InfiniBand高速内部网络。InfiniBand在Exadata内部同时承担两个角色其一作为Oracle RACReal Application Clusters节点间的私有互联网络其二作为计算节点与Exadata存储服务器之间的数据传输通道。两个角色都要求极低的延迟和极高的带宽InfiniBand完美胜任。这一架构正是对德维特所预言的“提高大规模存储设备带宽”的工程实现——只不过解法不是传统意义上的磁盘带宽提升而是通过高速网络与存储计算下推的组合在系统层面上规避了带宽瓶颈。Oracle的第一代一体机产品面向数据仓库场景。很快在2009年推出的第二代产品将Exadata的应用场景扩展至OLTP。同时闪存技术被用来加速I/OSmart Scan技术则被用来缩减网络流量。一体机开始解除束缚Exadata进入高速发展期如图5所示。图5 Oracle Exadata的早期创新Oracle Exadata的成功带动了数据库一体机市场的复兴很多厂商开始提供第三方的同类产品。但本质上所谓第三方的“Oracle数据库一体机”是不存在的。因为Oracle并不授权任何第三方一体机预装Oracle数据库。而且第三方一体机需要依赖Oracle ASM才能实现数据冗余和条带化导致产品竞争力不足。8 Oracle官方Exadata十年历程信息图https://www.oracle.com/webfolder/s/assets/infographics/10-years-of-exadata/index.html05.革命软件定义一切带来真正的解放“数据库机”的真正进化在于软件定义时代的到来。2010年代初“软件定义”浪潮席卷整个IT产业软件定义网络SDN、软件定义数据中心SDDC、软件定义存储SDS……这场浪潮的核心逻辑是将原本固化在专用硬件中的功能以软件的形式在通用硬件上实现从而获得更高的灵活性、可扩展性和成本效益。软件定义存储领域涌现出多个具有代表性的项目和产品Ceph——由加州大学圣克鲁兹分校博士生Sage Weil于2004年发起的开源分布式存储系统2012年以LGPL协议开源2014年被Red Hat收购被誉为“存储领域的Linux”9ScaleIO现更名为Dell PowerFlex——EMC收购自以色列公司ScaleIO提供基于服务器的软件定义块存储。9 Sage WeilCeph项目历史Ceph: 20 Years of Cutting-Edge Storage at the Edge, The New StackInfoQ翻译2024-10-16https://www.infoq.cn/article/dfjRxSKdNJtNbqiddwmu通用的软件定义存储可以支持对象、块存储等而云和恩墨基于自身的数据库基因走上了一条与Ceph等通用SDS方案不同的专业化道路不做通用的SDS而是聚焦专为数据库场景深度优化的软件定义块存储。这就是zStorage的由来。zStorage是云和恩墨自主研发的数据库分布式存储软件针对数据库I/O特征——高IOPS、低延迟、大量随机读写——进行了深度优化并充分利用现代NVMe闪存和高速网络InfiniBand和RoCE的性能潜力。以zStorage为内核灵魂的zData数据库一体机因而将Exadata的愿景再度向前推进一步以开放的通用硬件实现通用数据库的性能加速。在软件定义存储的数据库部署模式中传统的“数据库服务器专用存储阵列”架构被彻底重构存储资源池化基于x86标准服务器的分布式存储资源池取代专用存储阵列存储节点可以独立横向扩展。性能与容量协同扩展通过节点级横向扩展使性能与容量同步增长消除传统集中式架构的性能瓶颈。在线弹性扩容数据库的扩容完全可以在线进行无需停机业务连续性得到根本保障。高速网络加持25Gb至200Gb带宽的高速RoCE / InfiniBand网络确保存储I/O路径的极低延迟和超高吞吐。这是技术进步为数据库基础设施带来的根本性革命数据库摆脱了存储层的束缚获得了极致性能与极致弹性的双重自由。传统存储架构与软件定义存储架构的对比如图6所示。图6 传统存储架构与软件定义存储架构的比较2025年10月具备多元数据库承载能力的新一代zData X在金杯电工正式上线帮助这家传统制造业巨头将其生产制造MES、供应链SRM、销售CRM、财务ERP等核心系统整合到新平台之上。系统完成重构迁移之后数据库I/O性能较原架构提升了10倍并且从超融合平台回收了148核CPU、17.7TB存储让用户的资源得以充分利用整体IT运行成本得到大幅优化。zData X提供的可视化智能运维平台更让数据库管理实现了现代化如图7所示。图7 zData X在金杯电工的应用实践06.眺望AI时代数据库机的新轮回写完这段历史不能不向前眺望。当下人工智能的浪潮正在深刻改写数据库与存储的版图。GPU加速数据库、向量数据库、AI原生数据库……一批专为AI工作负载设计的“新型数据库机”正在悄然涌现。有趣的是这些新物种的核心思路与1970年代数据库机研究者们的初衷惊人地相似为特定的计算特征设计专用的硬件与软件协同方案。倘若萧开美与德维特能够并肩站在今天面对这一幕或许会会心一笑这场关于专用硬件与通用硬件的辩论从未真正结束也永远不会结束——因为它的本质是人类永不停息地追逐计算极限的冲动。历史的螺旋还在转动。参考文献专访史忠植研究员二十多年前就开始做 Agent 研究的中国学者InfoQ2024-12-30https://www.infoq.cn/news/vAy1biQtrhdHHWJqz97z《中国数据库40年》2017.10清华大学出版社