从推荐系统到AI绘画：近似最近邻(ANN)算法如何悄悄改变你的日常？

张

张建站

2026/6/12 11:41:58

10分钟阅读

从推荐系统到AI绘画近似最近邻(ANN)算法如何悄悄改变你的日常打开手机里的淘宝首页推荐的商品恰好是你最近想买的刷抖音时下一条视频总能精准戳中你的兴趣点用地图App搜索附近的咖啡馆结果按距离远近完美排列——这些看似简单的功能背后都藏着一个低调的算法英雄近似最近邻搜索ANN。它不像深度学习那样声名显赫却在无数场景中默默优化着我们的数字体验。1. ANN究竟是什么为什么我们需要近似想象你要在图书馆找一本与手中书籍最相似的书。精确的做法是拿这本书与馆内每一本逐一对比但这显然不现实。ANN就像一位经验丰富的图书管理员它不会比较所有书籍而是快速锁定几个最有可能的书架从中找出足够相似的候选书。这种足够好的哲学正是ANN的核心价值。为什么精确搜索在高维数据中会失效当数据特征超过几十维时比如图片的512维特征向量计算精确距离的代价呈指数级增长在10亿级数据集中即使每次比较只需1微秒穷举搜索也需要近16分钟人类感知对微小差异不敏感95%准确度的结果往往与100%无异# 传统精确搜索 vs ANN搜索的复杂度对比 import numpy as np from sklearn.neighbors import NearestNeighbors # 生成100万条128维数据 data np.random.rand(1000000, 128) query np.random.rand(1, 128) # 精确搜索耗时约2.3秒 nn NearestNeighbors(n_neighbors1, algorithmbrute).fit(data) %time distances, indices nn.kneighbors(query) # ANN搜索耗时约0.02秒 from annoy import AnnoyIndex t AnnoyIndex(128, angular) for i in range(len(data)): t.add_item(i, data[i]) t.build(10) # 构建10棵树 %time indices t.get_nns_by_vector(query[0], 1)提示ANN算法通常能提供100-1000倍的加速比而准确率损失控制在5%以内这种权衡在大多数应用中完全可以接受2. 主流ANN算法如何工作从原理到应用场景2.1 KD树空间分割的艺术KD树就像不断对空间进行切蛋糕的算法。在淘宝推荐系统中它将商品特征空间价格、销量、品类等递归分割选择方差最大的维度进行划分确定该维度的中位数作为切分点对左右子空间重复上述过程实际应用中的优化技巧当叶子节点包含少于20个点时停止分割搜索时优先检查最近分割面另一侧的空间允许同时探索多个最有希望的路径参数推荐值对性能的影响叶子大小20-50值越小精度越高但内存消耗越大并行度4-8线程充分利用多核CPU搜索深度自动调整控制精度/速度权衡2.2 局部敏感哈希(LSH)高维数据的模糊匹配ChatGPT的知识检索依赖LSH的变种。其核心思想是设计特殊的哈希函数使得相似内容大概率落入同一个桶中。比如处理用户提问如何煮咖啡时将问题转换为300维的语义向量通过3组不同的哈希函数计算签名只检查与这些签名匹配的知识片段# 简易LSH实现示例 import numpy as np from datasketch import MinHash # 准备文本数据 docs [手冲咖啡教程, 意式浓缩做法, 咖啡豆选购指南] queries [如何制作咖啡, 哪里买好的咖啡豆] # 创建MinHash对象 minhashes [] for doc in docs: mh MinHash(num_perm128) for word in doc: mh.update(word.encode(utf8)) minhashes.append(mh) # 查询处理 query_mh MinHash(num_perm128) for word in queries[0].split(): query_mh.update(word.encode(utf8)) # 查找相似文档 matches [i for i,mh in enumerate(minhashes) if mh.jaccard(query_mh) 0.3]2.3 图索引现代ANN的加速引擎Pinterest的视觉搜索采用HNSW分层可导航小世界算法其核心是通过构建多层图结构实现高效检索底层包含所有节点上层是下层的抽样搜索从顶层开始逐层向下细化利用朋友的朋友也是朋友的启发式规则性能对比百万级图片数据集算法建库时间查询延迟准确率10HNSW15分钟2ms98%IVF8分钟5ms95%LSH2分钟20ms85%3. ANN在AI绘画中的革命性应用Stable Diffusion等工具依赖ANN实现以图搜图和风格迁移。当用户上传一张风景照希望转换为梵高风格时提取输入图片的CLIP特征向量512维在预构建的ANN索引中搜索最相似的艺术作品将找到的风格特征注入生成过程典型工作流程# 使用FAISS构建艺术风格索引 import faiss dimension 512 index faiss.IndexFlatL2(dimension) # 使用L2距离 # 添加预提取的艺术品特征假设已有 art_vectors np.load(art_styles.npy) index.add(art_vectors) # 查询最相似风格 query_vec get_clip_vector(input_image.jpg) D, I index.search(query_vec, k3) # 找top3注意商业级系统通常会结合多种ANN算法比如先用LSH快速筛选候选集再用HNSW精细排序4. 选择ANN算法的实用指南面对具体业务场景时考虑这些关键因素数据特性维度50KD树/球树维度50-500HNSW或IVF维度500LSH或PQ量化系统要求内存充足HNSW内存受限PQIVF需要增量更新NSG精度/速度权衡召回率要求95%HNSW或SCANN允许召回率80-90%LSH或IVF推荐工具库性能对比库名称语言优势场景学习曲线FAISSC/Python十亿级向量中等AnnoyC/Python静态数据集简单HnswlibC/Python低延迟查询中等MilvusGo/Python全流程管理较陡在实际项目中我们通常会先用小规模数据测试多种算法。比如在构建电商推荐系统时发现当商品特征维度达到256维后HNSW比KD树快30倍而召回率仅下降2%这种trade-off完全值得。

2026全网最透彻数据库分类指南！从MySQL到Milvus，一文看懂10种数据库的底层原理、核心公司与AI应用场景（建议架构师收藏）

大家好，我是你们的技术伙伴。👋 在2026年的AI浪潮中，我们见证了大模型（LLM）的崛起，但支撑这一切智能算力的，依然是坚实的数据底座——数据库。现在的技术栈已经不再是单一的MySQL就能搞定的时…...

2026/6/12 11:41:29 阅读更多 →

别再死记硬背了！用Wireshark抓包实战，5分钟搞懂IPSec的AH和ESP到底怎么工作的

用Wireshark解密IPSec：从抓包实战看AH与ESP的奥秘当你第一次在教科书上看到IPSec的AH和ESP协议时，那些抽象的概念是否让你感到困惑？认证头、封装安全载荷、传输模式、隧道模式...这些术语听起来就像天书。但今天，我们要用一种全新…...

2026/6/12 11:39:53 阅读更多 →

LLMs-in-Finance高级教程：构建多智能体协作的金融分析系统

LLMs-in-Finance高级教程：构建多智能体协作的金融分析系统【免费下载链接】LLMs-in-Finance LLMs in Finance - Generative AI - AI Agents 项目地址: https://gitcode.com/gh_mirrors/ll/LLMs-in-Finance LLMs-in-Finance是一个专注于将生成式AI与AI智能体…...

2026/6/12 11:37:53 阅读更多 →

如何快速搭建本地图片搜索引擎：3步实现千万级图片秒级检索

如何快速搭建本地图片搜索引擎：3步实现千万级图片秒级检索【免费下载链接】ImageSearch 基于.NET10的本地硬盘千万级图库以图搜图案例Demo和图片exif信息移除小工具分享项目地址: https://gitcode.com/gh_mirrors/im/ImageSearch 想要在数万张照片中快速找…...

2026/6/10 15:22:15 阅读更多 →

ai辅助开发：借助快马平台智能生成win11开始菜单自定义设置工具

快速体验打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容： 请使用ai辅助生成一个关于windows 11开始菜单位置设置的应用代码，应用需要实现以下智能交互功能：首先用户可以通过自然语言输入设置需求，例如请…...

2026/6/11 5:09:25 阅读更多 →

【Android】PhotoArt--一款融入了ai技术的照片画质增强神器

【Android】PhotoArt-AI一键擦除衣服-变性感美女链接：https://pan.xunlei.com/s/VOuPm57W6vVhz5Dzn0seQRVaA1?pwdkjec# 通过该软件您可以在线制作获取各种风格的动漫图片，无论是头像还是壁纸都可以轻松获取。...

2026/6/9 8:39:39 阅读更多 →

Android权限管理深度解析：XXPermissions框架完整实战指南

Android权限管理深度解析：XXPermissions框架完整实战指南【免费下载链接】XXPermissions Android Permissions Framework, Adapt to Android 16 项目地址: https://gitcode.com/GitHub_Trending/xx/XXPermissions 在Android开发中，权限管理一直是…...

2026/6/10 19:31:16 阅读更多 →