知光搜索系统

张

张建站

2026/4/17 22:37:17

10分钟阅读

本问仅用于自己记忆想到什么写什么详情可去xhs 程序员流年自行了解一、为什么用es而不是mysql1. 底层索引结构不同MySQL 使用 B 树适合事务和精确查询但做全文检索时 LIKE 会导致全表扫描数据量稍大就会拖垮数据库。ES 基于 Lucene 的倒排索引将文本分词后建立反向映射查询复杂度接近 O(1)海量文本检索能稳定在毫秒级。2. 业务排序需求复杂我们的搜索不是简单的关键词匹配还需要结合‘发布时间’、‘点赞数’进行综合排序。ES 原生支持 function_score可以在 BM25 相关性得分上动态叠加业务权重。同时我们利用 log1p 算法压缩点赞数防止历史爆款永久霸榜这些在 MySQL 中需要大量自定义 SQL 且性能极差。3. 分布式与扩展性ES 天生支持分片集群水平扩展简单。配合 search_after 游标分页彻底解决了传统 offset 深翻页的性能抖动问题。相比 SolrES 的社区生态更活跃与 Spring Boot 和 Canal 的集成链路也更成熟降低了研发和运维成本。总结来说MySQL 负责‘写’和强一致ES 负责‘读’和复杂检索。这是典型的 CQRS 读写分离架构既保障了核心链路的稳定又提供了极致的搜索体验。二、search_after解决“深分页性能抖动”痛点传统的 from size 分页如翻到第 100 页from2000ES 需要把前 2000 条数据都查出来扔掉只留最后 20 条。翻得越深越慢甚至会卡死。解法游标分页。原理不告诉 ES“跳过多少条”而是告诉它“从哪一条开始往后找”。就像看书不用从第一页翻起而是用书签夹在第 100 页下次直接接着读。效果无论翻到第几页性能都是恒定的 O(1)彻底解决深分页卡顿。三、function_score BM25融合“相关性”与“业务热度”痛点ES 默认的 BM25 算法只懂文字匹配。比如搜“Java”一个 3 年前没人看的帖子和一个昨天刚发的热门帖子可能得分一样。这不符合用户“想看高质量内容”的诉求。解法业务加权。原理在 BM25文字匹配分的基础上加上业务分点赞数、浏览量。公式最终得分文字匹配分 (点赞数权重浏览数权重)。效果即使文字匹配度稍低高质量内容也能排在前面提升用户体验。四、log1p 算法解决“历史爆款霸榜”痛点如果直接用“点赞数”加权一个百万赞的老帖会永远霸占第一新帖根本没有出头之日马太效应。解法对数压缩Log1p。原理log1p(x) 函数会让曲线变平缓。点赞 10 → 得分约 2.3 ln(10) 2.3点赞 100 → 得分约 4.6差距拉大 ln(100) 4.6点赞 1000 → 得分约 6.9差距缩小点赞 10000 → 得分约 9.2差距微乎其微效果削弱绝对数值的碾压。让 100 赞和 1000 赞的差距变小新内容只要有一定热度就有机会排在老爆款前面保证流量流动性。五、completion suggester实现“低延迟前缀联想”痛点用户在搜索框输入“知光”时希望立刻弹出“知光介绍”、“知光下载”等提示。如果用普通搜索延迟太高几百毫秒用户体验差。解法前缀自动补全。原理ES 专门的一种数据结构FST只存前缀。输入“知”直接查出以“知”开头的标题速度极快几毫秒。效果实现“边输边出词”丝滑流畅。

从DALL·E到Stable Diffusion：VQGAN编码器为何仍是AIGC的幕后功臣？

从DALLE到Stable Diffusion：VQGAN编码器为何仍是AIGC的幕后功臣？ 当DALLE 3生成的超现实图像席卷社交媒体，或是Stable Diffusion让每个人都能成为数字艺术家时，很少有人注意到这些系统底层都依赖一个关键技术——图像的高效离散编…...

2026/4/17 22:35:18 阅读更多 →

为何大批程序员扎堆转行网络安全？深度拆解背后_4_大真实原因

【收藏】为什么程序员都在转网络安全？内卷破局薪资翻倍政策红利，一文详解转行攻略文章分析了程序员转行网络安全的趋势，指出程序员面临技术内卷、迭代过快、职业天花板等困境，而网络安全行业则因人才缺口大、薪资高、发展空间广…...

2026/4/17 22:35:15 阅读更多 →

智慧农业之茶叶病虫害检测系统茶树病害检测报告生成系统

🌱 智能茶叶病虫害检测系统：AI赋能，守护每一片茶叶的健康在传统茶园管理中，病虫害的识别与防治往往依赖经验，耗时费力且易误判。如今，我们融合前沿AI技术与现代全栈开发，打造出一款高效、精准、…...

2026/4/17 22:33:29 阅读更多 →

Snyk 依赖性安全漏洞扫描工具实战指南：从安装到多语言项目扫描

1. Snyk工具与依赖安全漏洞扫描基础第一次听说Snyk是在去年参与一个金融项目时，我们的技术负责人突然要求所有依赖包必须通过安全扫描才能上线。当时团队里没人知道该怎么操作，直到发现了这个神器。Snyk本质上是个"依赖包安检仪"，…...

2026/4/17 10:30:59 阅读更多 →

mbed OS 6+ 嵌入式TFTP服务器设计与实现

1. TFTPServer项目概述TFTPServer 是一个面向 ARM mbed OS 平台的轻量级 TFTP（Trivial File Transfer Protocol）服务器实现，专为嵌入式以太网设备设计。其核心目标是在资源受限的 MCU（如 STM32F4/F7/H7、NXP LPC1768/LPC54608、Re…...

2026/4/17 10:31:01 阅读更多 →

Windows效率神器PowerToys：30+免费工具让你的电脑生产力翻倍

Windows效率神器PowerToys：30免费工具让你的电脑生产力翻倍【免费下载链接】PowerToys Microsoft PowerToys is a collection of utilities that supercharge productivity and customization on Windows 项目地址: https://gitcode.com/GitHub_Trending/po/Powe…...

2026/4/17 10:31:03 阅读更多 →

RX63N驱动SSD1963显示控制器的HAL级配置指南

1. 项目概述Display_shield_config是为 Renesas GR-PEACH 开发板配套的显示扩展板（Display Shield）所设计的一套底层配置资源集合。GR-PEACH 是基于 Renesas RX63N 微控制器的高性能嵌入式开发平台，主频高达 100 MHz，内置 1 MB Fl…...

2026/4/17 10:31:04 阅读更多 →