大模型内部的数学世界

张

张建站

2026/4/27 5:02:46

10分钟阅读

从文字到数字，从数字到理解引言：当你对大模型说"你好"想象你走进一座巨大的图书馆。这座图书馆里有数十亿本书，每本书都记录着人类的知识。当你走向前台，对管理员说："你好，请问什么是量子力学？"——管理员听到了你的问题，然后在她的大脑中开始了一系列复杂的信息处理过程，最终给你一个清晰易懂的回答。大语言模型（比如 ChatGPT、Claude、Kimi）就像这位管理员。不同的是，它不是一个"人"，而是一个运行在计算机上的数学程序。它不会"理解"文字的含义——至少不是我们人类意义上的理解。它做的是一件事：把文字变成数字，对数字进行数学运算，再把运算结果变回文字。本文的目标，就是带你走进这个过程的内部，看看当一句话被送进大模型后，究竟发生了什么样的数学变化。不需要你懂高等数学，只需要你有初中数学的基础（加减乘除、简单的函数概念），我们就能一起探索这个神奇的世界。第一章从文字到数字——分词（Tokenization）1.1 为什么要先把文字变成数字计算机有一个根本性的限制：它只能处理数字。更准确地说，计算机的处理器（CPU、GPU、NPU）本质上就是一台极其快速的"数字计算器"。它不知道"猫"是什么，也不知道"开心"是一种什么样的感受。它唯一会做的，就是对数字进行加减乘除。所以，如果我们想让计算机"理解"一句话，第一步就必须把这句话里的每个字、每个词，转换成计算机能处理的数字。这个过程，就叫做分词（Tokenization）。你可以把分词想象成"密码本"的工作方式。假设我们有一本密码本，上面写着："你" = 521"好" = 389"世" = 1024"界" = 567当我们输入"你好世界"这四个字时，计算机就会查这本密码本，把它变成四个数字：[521, 389, 1024, 567]。这四个数字，就是计算机能理解的"语言"了。1.2 分词的具体过程实际上的分词过程，比你想象的更有趣。大模型并不是简单地"一个字对应一个数字"。它使用一种叫做"子词分词"（Subword Tokenization）的技术。为什么要用子词分词？因为英语等语言中有大量变形。比如 "play"、"playing"、"played" 其实是同一个词的不同形式。如果每个变形都分配一个独立的数字，密码本就会变得无比庞大。而且计算机无法知道这三个词之间的关系。子词分词的做法是：把词拆开。比如 "playing" 可能被拆成 "play" + "ing"。"play" 分配一个数字，"ing" 分配一个数字。这样密码本更小，而且计算机能明白 "playing" 和 "played" 都与 "play" 有关。中文的分词略有不同。因为汉字本身就是基本单位，所以中文通常是一个字或一个词对应一个 token。比如"人工智能"可能被分成["人工","智能"]两个token，也可能分成四个单字token，取决于具体的分词器设计。1.3 分词后的数字长什么样分词完成后，我们得到的是一串整数。比如输入"今天天气很好"，分词后的结果可能是：[3421, 1098, 1098, 2567, 883]这些数字本身没有任何"含义"。3421并不代表"今"的某种属性，它只是一个编号——就像图

Vulkan GPU图像处理之幂律(伽马)变换：Kompute框架实战与性能分析

一、定义章节：第3章灰度变换与空间滤波 → 3.2 基本灰度变换 → 3.2.3 幂律（伽马）变换别名：幂律变换（Power‑Law Transformation）、伽马变换（Gamma Transformation） 公式 [scrγ] …...

2026/4/27 5:01:35 阅读更多 →

Docker原生WASM运行时落地实践：从零搭建低延迟边缘AI推理节点（含性能压测数据）

更多请点击： https://intelliparadigm.com 第一章：Docker原生WASM运行时落地实践：从零搭建低延迟边缘AI推理节点（含性能压测数据） WebAssembly（WASM）正突破浏览器边界，成为边缘计算…...

2026/4/27 5:00:22 阅读更多 →

超700万辆车已经用上这款AI，特斯拉也要来了！

本报讯 4月24日，首届北京车展拉开帷幕。就在当天，一个名为"通用AI底座"的产业趋势正在汽车行业悄然成型。火山引擎正式发布新一代汽车AI解决方案，标志着汽车行业即将迎来"Android时刻"。此次发布的"豆包汽车AI解决方…...

2026/4/27 4:59:04 阅读更多 →

保姆级避坑指南：用MIM搞定MMSegmentation 2.0.0安装，告别版本兼容性报错

深度学习语义分割实战：MMSegmentation 2.0极简安装与避坑手册在计算机视觉领域，语义分割技术正以惊人的速度重塑着医疗影像分析、自动驾驶和工业质检等场景的应用边界。作为OpenMMLab生态中的重要成员，MMSegmentation 2.0凭借其模块化设计和…...

2026/4/26 0:05:40 阅读更多 →

Chrome-GPT：将大语言模型深度集成到浏览器的开发实践

1. 项目概述：当浏览器插件遇上大语言模型最近在折腾一个挺有意思的开源项目，叫“Chrome-GPT”。光看名字，你大概就能猜到它的核心玩法：把当下最火的大语言模型（LLM）能力，直接集成到我们每天都要…...

2026/4/27 5:26:31 阅读更多 →

别再用Node.js写MCP网关了！C++ 2024性能基准测试：相同硬件下吞吐量超Go 3.8倍，延迟降低62%

更多请点击： https://intelliparadigm.com 第一章：MCP协议核心原理与C网关设计全景概览 MCP（Modular Communication Protocol）是一种面向微服务间低延迟、高可靠通信的二进制协议，其核心在于“模块化帧结构”与“状态…...

2026/4/26 0:05:49 阅读更多 →

终极指南：如何通过Newtonsoft.Json配置实现高性能JSON序列化

终极指南：如何通过Newtonsoft.Json配置实现高性能JSON序列化【免费下载链接】Newtonsoft.Json Json.NET is a popular high-performance JSON framework for .NET 项目地址: https://gitcode.com/gh_mirrors/ne/Newtonsoft.Json Newtonsoft.Json&#xff08…...

2026/4/27 4:01:07 阅读更多 →