李彦宏说，大模型其实从来没「读」过你说的话

张

张建站

2026/5/14 20:05:00

10分钟阅读

Token量的是烧了多少煤，不是发了多少电。李彦宏今天说要换个算法。大模型每天跟你说话，但它其实从来没「读」过你说的话。这句话听起来有点玄，但你往下看，我觉得你会跟我一样，有点被这件事惊到。事情是这样的。你打开Claude或者文心一言，输入「帮我总结这篇文章」，按下发送。然后呢？模型第一件事，不是去「看」你的文章，而是把你输入的每一个字，切成一个个小碎片。这些碎片，叫Token。「帮」是一个Token，「我」是一个Token，「总结」可能是两个Token，「这」是一个Token，「篇」是一个Token……全部切碎，全部变成数字，然后模型拿着这些数字去计算。所以严格来说，模型处理的不是你说的「话」，是你说的「字符串切片」。这就是Token最大的问题所在。它只衡量了投入，没有衡量产出。Token到底是什么，为什么全行业都在用它你可以把Token理解成大模型世界里的「分」。人民币有元、角、分，Token就是大模型的「分」，最小计量单位，所有东西都以它为基础。你调用GPT-4花多少钱，按Token算。你用Claude有上下文限制，按Token算。训练一个大模型要多少算力，也按Token算。Token是计费单位、算力度量、也是模型处理信息的基础货币，三合一。Token机制是GPT-3那一代建立起来的。当时的逻辑很简单，要让模型处理语言，总得有个最小单位，Token简单、可计算、方便计费，够用，于是就成了标准。全球大模型行业跟着用，国内厂商也跟着用，Token就这么变成了行业公约。但「够用」不等于「对」。

AMBER实战：基于丙氨酸扫描与MM/PBSA的HIV蛋白酶-抑制剂结合热点分析

1. 从零理解丙氨酸扫描技术第一次听说"丙氨酸扫描"这个词时，我脑海里浮现的是实验室里拿着扫描仪对着丙氨酸来回扫的画面。后来才发现，这其实是药物设计领域一项非常精妙的技术手段。简单来说，它就是通过系统性地将蛋白质中的氨基…...

2026/5/14 20:04:27 阅读更多 →

蓝桥杯单片机省赛客观题避坑指南：2017年这10道题，我是这样翻手册找答案的

蓝桥杯单片机竞赛手册高效使用指南：从题干到答案的精准定位策略参加蓝桥杯单片机竞赛的同学们常常面临一个共同难题：面对客观题时，明明知道答案在官方手册里，却不知如何快速定位关键信息。本文将以2017年省赛真题为例&#xff0c…...

2026/5/14 20:03:14 阅读更多 →

10亿+蛋白质、3000万核苷酸，全球最大生物向量库

摘要同源搜索在计算生物学中具有核心作用，可用于识别生物序列间的进化关系与功能相似性。然而，包括BLAST、Foldseek和MMseqs2在内的现有同源搜索方法，难以高效、精准地处理超大规模生物数据库。本研究提出高效检索增强搜索工具ERAST，可在迄今规模最大的向量数据库中处理约…...

2026/5/14 19:59:04 阅读更多 →

OpenClaw智能模型路由：基于任务复杂度与成本约束的动态调度实践

1. 项目概述：一个聪明的AI模型调度器如果你正在使用OpenClaw，并且手头同时接入了多个不同能力、不同成本的AI模型（比如Kimi、GPT、Claude等），那么你很可能遇到过这样的困扰：一个简单的文本总结任务&#xf…...

2026/5/14 5:05:50 阅读更多 →

机器学习的数据合成（二）

原文：annas-archive.org/md5/9d5ab593b867c3a47f27572d629020aa 译者：飞龙协议：CC BY-NC-SA 4.0 第十四章：合成到真实领域自适应本章向您介绍了一个常见的问题，通常限制了合成数据的使用性，称为领域差距…...

2026/5/14 23:26:14 阅读更多 →

cann/catlass MX FP8批量矩阵乘

MXFP8BatchMatmulTla Example Readme 【免费下载链接】catlass 本项目是CANN的算子模板库，提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass 功能介绍演示 Ascend 950 上的 MX FP8 矩阵乘：A、B …...

2026/5/12 17:56:15 阅读更多 →