AI知识库投喂:我们如何让机器学会“常识”?
有一次我在一个AI群里看到了一个争论。有的人讲, AI的知识库投喂便是喂数据, 越多便越好, 如同填鸭子那般, 将整个互联网的文本都塞进去, 机器自然而然就聪明了。还有一个人讲, 并非如此, 投喂这件事的关键之处在于“怎样去喂”。要是给他喂的是垃圾, 那他学到的便是垃圾要是喂的是精品, 那他学到的即为精品。他们争了很久谁也说服不了谁。我在旁边看觉得他们都没说错但都没说透。喂十亿条推文不如喂一千本书这是一个具备一定趣味性的问题, 人工智能究竟是以何种方式, 从我们所给予的资料当中去学习知识的呢? 实际上它并非那般玄奥异常, 要是你将人工智能的学习进程设想为一个人在进行学习, 如此一来便较为容易理解了。倘若你的小孩打算学习历史, 你是给予他一套装帧精美的《资治通鉴》, 还是将他丢进抖音里的“一分钟讲历史”的汇总集合之中呢?很大概率而言, 是前者。然而, 问题存在于此, 对于AI来讲, 它的训练机制与人类有着极大差别。AI依据的是概率, 它不会如同人那般去思索“这句话背后所蕴含的意义”, 它只是单纯地计算“这个词出现以后, 紧接着下一个词最具可能性会是什么”。所以, 你给予它的数据量越大, 数据越多样, 其所覆盖的场景越多, 那么它就越能够准确地进行预测。但这里有一个陷阱。数据质量才是那只看得见的手有一家小型AI公司曾经做过一个实验。他们向一个开源模型投放了三百万条源自某个特定论坛的对话数据, 这些数据的内容皆是技术问答, 极为专业, 而且干净。他们再度于同样的模型之上, 投喂了1000万条数据, 这些数据是从普通社交网络里爬取下来的, 其中夹杂着表情包, 还有网络梗, 以及错别字, 甚至有无意义的争吵。你觉得哪个模型表现更好情况是这样的: 首个模型于技术问答方面准确率相当高, 然而在日常聊天之际却宛如呆子一般。第二个模型虽说在技术问答上准确率降低了百分之十二点三, 可是整体对话流畅程度提升了百分之四十一点七, 愈发像有血有肉的“人”了。这个数据不是我编的是那次实验的真实记录。向AI进行投喂时面临的最难之处, 并非是寻觅到数量足够多的数据, 而是寻找到“恰当”的数据, 要是你期望它懂得具备幽默特性, 在这一情形下你就得给它展示脱口秀以及段子方可达成, 要是你希望它能够阐述逻辑方面的内容在这种状况下你就得给它呈现论文乃至推理题才能实现。关于那些混乱的“食物”现如今, 整个世界范围内的AI训练者, 都必然会遭遇到一个令人头疼不已的状况, 那就是, 互联网之上的数据, 实在是太过杂乱无章了。譬如, 你是为了去训练该AI的常识理解方面的能力, 才从维基百科之上割取了足足2000万篇的文章下来。你以为这些文章是干净的、中立的。错。即使是最为严谨的百科, 也存有事实方面的错误, 存在过时的信息, 存在语言上的偏见, 甚至有一些词条被人进行过恶意篡改。在2024年的时候, 有研究者做过统计, 在英文维基百科里, 涉及特定政治人物的词条, 平均每3.2天就会出现一次被修改的情况。你喂进去的数据是活的、是沸腾的是有毒的。所以当下诸多团队会开展这样一件事情: 进行数据清洗, 他们借助规则以及算法, 将那些显著不可靠的内容筛选除去, 不再保留。这个步骤, 耗费了整个训练准备工作之中, 百分之六十至百分之七十的人力时间。我知晓一位数据标注员, 他每日的任务是查看几百条语句, 判定它们有无“毒性”。他讲他所看过的极为离谱的一条是“香蕉皮能够医治抑郁症”, 随后还附有3000字的论证。那条数据最终被删掉了, 原因是其逻辑链出现了断裂, AI学了对自身有害。有些知识不是喂出来的每一次, 当目睹有人吹嘘“我们的模型运用了10万亿参数”之时我便会萌生出这样的想法, 即数字庞大并不意味着具备什么实质意义。2025年年初的时候, 有一个实验室, 发布了一个模型, 这个模型参数量仅仅只有70亿, 然而呢, 在多项推理测试当中, 它的成绩, 超过了参数量处于1300亿级别的大模型。他们的秘诀是什么不是喂了更多数据而是改变了“喂”的方法。他们引入了一种名为“课程学习”的机制 , 起初仅仅是投喂最简单的句子 , 像“猫在垫子上睡觉”这样的。等到模型掌握了这一层次后 , 接着投喂稍微复杂一些的 , 即“那只橘色的猫在灰色的垫子上安静地睡觉”。随后再进一步增加难度 , “尽管窗外下着大雨 , 但那只橘色的猫依然在它最喜欢的灰色垫子上安静地睡觉。”。就像你教小孩说话从字到词从词到句从短句到长难句。在这个进程之中, 于此处而言, 数据的整个数量实际上并没有增添许多, 然而呢, 学习的有效速率却翻升了大概3.8倍。最容易被忽略的一件事大家讨论AI知识库投喂的时候总在说数量、质量、算法。但有一件事几乎没人提。换句话来说, 存在这样一种情况, 即我们投放进去的事物, 实际上正以相反的方式, 对我们未来的认知起到塑造作用。倘若有一个人工智能处于训练阶段之时, 被投喂了百分之九十的英文数据, 百分之七的中文数据, 百分之三的其他语言数据。那么, 在这个AI去回应一个针对非洲部落文化的询问之际, 它会给出怎样的作答呢。它会用英语的思维、英语的逻辑、英语的文化背景去解读。这实际上乃是一种隐匿的文化霸权, 它将某一种语言的知识体系, 视作了“标准答案”, 而其他所有语言的知识, 则均被贬低为“补充材料”。此并非是故意夸大使人听了感到惊恐。存在数据表明, 当下全球主要的大规模模型的训练集合当中, 英文方面的内容占比平均状况达到达到87.6%之多, 但是中文内容占比仅仅仅有大约4.1%。这意味着什么这表明, 当你就相同的问题来进行询问时, 分别采用英语去问以及用中文去问, 所获取到的答案在质量方面极有可能存在着较大的差异。其中, 英文给出的答案会更加精准, 更加丰富多样, 更加具备深度。所以, 当下好多研究者着手进行一件事情: 平衡语料库, 他们不惜余力地往训练数据当中增添各类小语种的内容, 增添方言, 增添冷门领域的专业文献。不是为了别的就是为了让AI不变成“英语的复读机”。说到最后前几天我又去看了那个群。他们不再争论“喂些什么”以及“怎样进行喂食”了, 他们正在就一个全新的概念展开讨论, 这个概念是——数据饥饿。有人提出了这样一个观点: 高质量的自然语言数据其实际上快要被用完了, 人类历史上全部的书籍、论文、网页、对话记录加起来, 大概处于60万亿到100万亿个词的范围左右, 然而当下的模型训练一回, 就要消耗掉几万亿个词。依循着这般速度, 到了2028 年前后, 人类制造出来的全新的具备高质量的文本数据, 或许就不足以去供给那些大模型了。到时候怎么办有人讲是采用合成数据, 致使AI自行创作内容来给自己喂食, 有人讲唯有寄望于算法突破, 凭借更少的数据从而学出更佳的效果。我不知道答案。然而我清楚地明白, 当下我们每一次朝着数据池投放一条内容, 每一回撰写一段文字, 每一次发表一篇论文, 每一次发布一条朋友圈动态, 皆是在为未来的AI贡献力量, 增添助力。你敲下的每一个字都可能是别人家AI的一口粮。这个想法想想还挺奇妙的。