艺学启航:数据挖掘的三次浪潮
艺学启航1956年IBM工程师用打孔卡片处理人口普查数据每秒数百次运算。当时没人想到这笨拙的数据处理将催生一门改变世界的学科。第一波浪潮1960–1980年代 · 数据库黎明1963年统计学家John Tukey提出“从数据中挖掘知识”的构想。当时1MB存储成本数千美元只能存核心交易记录。1970年关系型数据库诞生SQL让数据检索结构化。里程碑1983年美国运通用逻辑回归分析信用卡数据识别高流失风险客户ROI达到1:7。关键词统计计算、回归分析、千行级数据第二波浪潮1990–2010年代 · 互联网引爆数据爆炸1995年亚马逊上线记录每一次点击、停留、搜索。2001年Google提出MapReduce框架Gartner正式定义“大数据”海量、高速、多样。2006年Netflix悬赏100万美元推动协同过滤普及。2009年Kaggle成立南非团队用随机森林预测艾滋病病程超越临床模型。2012年AlexNet将图像识别错误率从26%降至15%开启深度学习革命。从“事后分析”转向“实时决策”高频交易、谷歌广告毫秒级响应。第三波浪潮2010年代至今 · AI与自动化融合2016年AlphaGo从3000万局棋谱中挖掘模式击败李世2018年Google Cloud AutoML让非专家也能建模门槛大幅降低。2022年ChatGPT训练于万亿级token其推理、创作能力是数据挖掘的范式跃迁。中国数据挖掘的追赶2014年阿里“天池”平台上线菜鸟物流路径优化双11时效从7天压至2.5天。2017年腾讯“绝艺”围棋AI夺冠中国论文投稿量首次超过美国。实现精准流调。一句话总结数据挖掘从打孔卡片到大模型走了七十年。它不是魔法是统计、算力和数据三者不断堆叠的结果。