AI驱动Web漏洞扫描：基于ChatGPT的JavaScript代码安全分析实践

张

张建站

2026/5/12 4:00:58

10分钟阅读

AI驱动Web漏洞扫描：基于ChatGPT的JavaScript代码安全分析实践

1. 项目概述与核心思路拆解最近在整理自己的安全工具箱时翻到了一个挺有意思的老项目——VulnScan。虽然项目作者已经明确标注了“不再维护”但它的设计思路在今天看来依然有很强的启发性。简单来说这是一个利用ChatGPTGPT-3.5 Turbo的API来辅助进行Web应用漏洞扫描的工具。它的核心逻辑不是传统的规则匹配或模糊测试而是将目标网站的JavaScript代码喂给AI让AI来分析其中可能存在的安全风险。这种“AI驱动”的扫描思路在几年前算是一个相当大胆的尝试。这个工具主要面向两类人一是拥有自己网站或Web应用的开发者、运维人员他们可以用它来对自己的资产进行一次“AI视角”的代码审计作为传统扫描器的补充二是对AI在安全领域的应用感兴趣的安全研究员或爱好者可以把它当作一个学习案例看看如何将大语言模型LLM与安全工具进行结合。当然它不是一个“一键搞定”的商业级产品更像是一个概念验证PoC或一个DIY的安全实验平台。你需要有自己的OpenAI API密钥并且理解其工作原理和局限性才能有效地使用它。2. 工具原理与架构深度解析2.1 核心工作流程从URL到AI诊断VulnScan的工作流程可以概括为“采集-提取-提问-解析”四个步骤。这和我们熟知的传统扫描器如Nessus, OpenVAS或DAST工具如OWASP ZAP, Burp Suite有本质区别。传统工具依赖于庞大的漏洞特征库签名或预定义的攻击载荷Payload进行主动探测而VulnScan走的是静态分析结合AI推理的路径。目标采集与内容获取工具启动后会提示用户输入一个目标URL。它会使用Python的requests库访问这个URL获取其HTTP响应重点是提取页面中的JavaScript代码。这里不仅包括script标签内的内联JS还会尝试获取通过src属性引用的外部JS文件。这一步的完整性直接决定了后续分析的基础。代码预处理与上下文构建获取到JS代码后工具会进行简单的清洗和格式化比如去除过多的空白字符但保留基本结构并将过长的代码进行智能截断或分片。因为GPT API有上下文长度限制当时主要是4096个token必须确保发送给AI的“问题”是精炼且包含足够信息的。工具需要将目标URL、提取到的核心JS代码片段组合成一个结构化的“提示词”Prompt。AI交互与漏洞询问这是最核心的一步。工具会构造一个特定的问题抛给ChatGPT API。这个问题不是简单的“这段代码有漏洞吗”而更可能是“请分析以下JavaScript代码它来自[目标URL]。请重点检查是否存在可能导致安全问题的模式例如不安全的eval()或Function()使用、可能导致DOM型XSS的innerHTML或document.write操作、硬编码的敏感信息如API密钥、不安全的反序列化、对用户输入缺乏验证的跳转或加载操作如window.location,src动态赋值等。请列出你发现的所有潜在风险点并简要说明原因。”结果解析与呈现收到ChatGPT的文本回复后工具会将其直接输出到终端。由于回复是自然语言所以结果的可读性通常不错但结构化程度较低。工具本身可能没有对AI的回复做进一步的自动化分类或风险评级这需要人工来解读和判断。2.2 技术栈与依赖分析从项目简陋的requirements.txt可以推断出其技术栈非常轻量核心HTTP客户端requests。用于抓取目标网页内容。HTML解析库很可能是BeautifulSoup4虽然原文未明确列出但这是从HTML中提取script标签的标配。用于从原始HTML中精准定位和提取JavaScript代码块。OpenAI API客户端openaiPython库。这是与GPT-3.5 Turbo模型通信的桥梁所有漏洞分析的核心逻辑都通过向这个库发送请求来完成。可能的辅助库如urllib3通常随requests安装、tqdm用于显示进度条如果作者实现了的话等。这种轻量级依赖使得工具部署非常快速但也意味着所有“重型”的分析任务都外包给了远端的AI API。工具的本地部分更像是一个“调度器”和“结果展示器”。2.3 优势与局限性探讨这种设计带来了独特的优势和不可避免的局限。优势理解上下文与逻辑AI能一定程度上理解代码的语义和业务逻辑。例如它能判断一段接收用户输入并操作DOM的代码是否在特定上下文如缺乏转义下可能构成XSS这比单纯匹配innerHTML这个关键词要智能。发现“奇怪”的模式AI经过海量代码训练可能识别出一些不符合安全最佳实践、但又不属于常见漏洞库的“代码异味”Code Smell比如某些不常见的危险函数使用方式。降低误报潜力通过让AI解释“为什么”这可能是个问题可以帮助分析人员更准确地判断是真漏洞还是误报。传统扫描器的大量告警需要人工筛选而AI的叙述性输出可能提供更多判断依据。快速概念验证对于一个新的、文档不全的JavaScript框架或库临时为其编写扫描规则成本很高。用AI进行通用性分析可以快速获得初步的安全印象。局限与挑战严重依赖API与网络整个工具的有效性建立在OpenAI API的可用性、响应速度和成本之上。频繁扫描会产生API调用费用且必须考虑网络延迟。“幻觉”与误报/漏报大语言模型会“一本正经地胡说八道”产生幻觉。它可能虚构出代码中不存在的函数调用或者将完全安全的代码误判为危险。同时它也可能漏掉非常隐蔽的漏洞。缺乏交互与验证这是一个纯静态分析工具。它无法像DAST工具那样通过发送实际攻击载荷来验证漏洞是否存在例如是否真的可以弹出alert框。AI说“这里可能有XSS”只是一个基于模式的推测需要人工进一步验证。上下文长度限制对于大型单页应用SPA其JavaScript包Bundle可能巨大无法全部送入AI分析。只能抽样或分析部分代码这会带来覆盖率问题。无法处理登录后页面工具没有内置的会话管理或认证机制只能扫描公开的、未认证的页面。注意将公司或客户的源代码直接发送给第三方AI API如OpenAI可能存在严重的法律和商业机密风险。在合规要求严格的环境中使用此类工具需要极其谨慎最好只在自有或已获明确授权的资产上测试。3. 环境搭建与实战操作指南虽然项目不再维护但作为学习案例我们完全可以将其在本地运行起来体验其工作过程。以下步骤基于Kali Linux或Ubuntu等常见渗透测试环境其他系统可作相应调整。3.1 基础环境准备首先确保你的系统有Python 3.7或更高版本。然后获取项目代码并安装依赖。# 1. 克隆项目仓库虽然不再维护但代码仍在 git clone https://github.com/Hacking-Notes/VulnScan.git cd VulnScan # 2. 创建并激活一个Python虚拟环境强烈推荐避免污染系统环境 python3 -m venv venv source venv/bin/activate # Linux/macOS # 对于Windows: venv\Scripts\activate # 3. 安装项目依赖 # 首先检查requirements.txt内容可能包含不必要的包我们先安装核心的 pip install requests beautifulsoup4 openai有时老项目的requirements.txt可能包含未使用的包。如果安装失败可以尝试只安装上面这三个核心包。3.2 配置OpenAI API密钥这是工具运行的关键。你需要一个有效的OpenAI账户并生成API密钥。访问 OpenAI平台登录后进入“API Keys”页面。点击“Create new secret key”生成一个新密钥。务必立即复制并妥善保存关闭页面后将无法再次查看完整密钥。在运行VulnScan之前需要将该密钥设置为环境变量。这是最安全、最常用的方式。# 在终端中直接设置仅对当前会话有效 export OPENAI_API_KEY你的-api-key-here # Windows (Command Prompt): set OPENAI_API_KEY你的-api-key-here # Windows (PowerShell): $env:OPENAI_API_KEY你的-api-key-here你也可以将export OPENAI_API_KEY你的密钥这行添加到你的shell配置文件如~/.bashrc或~/.zshrc中然后执行source ~/.bashrc使其永久生效但需注意安全风险。3.3 运行工具并分析测试目标启动工具并选择一个合适的测试目标。强烈建议使用专门为安全测试搭建的“靶场”应用如OWASP Juice Shop、DVWA (Damn Vulnerable Web Application) 或 bwapp。绝对不要在没有明确授权的情况下扫描任何生产网站。# 进入项目目录并激活虚拟环境后 python3 VulnScan.py运行后工具会提示你输入目标URL。我们以本地搭建的DVWA为例假设运行在http://localhost:8080。Enter the target URL: http://localhost:8080/vulnerabilities/xss_d/输入URL后回车工具会开始工作。你会看到它先尝试连接目标然后提取JavaScript最后显示“Analyzing with ChatGPT...”。稍等片刻取决于API响应速度ChatGPT的分析结果就会以文本形式打印在终端里。一次典型的输出可能如下[] Target: http://localhost:8080/vulnerabilities/xss_d/ [] Fetching page content... Done. [] Extracting JavaScript... Found 2 script blocks. [] Sending code to ChatGPT for analysis... Waiting for response. ChatGPT Analysis Result 在提供的JavaScript代码中我发现了以下潜在的安全问题 1. **直接使用 innerHTML 插入未经验证的用户输入** 代码中存在 document.getElementById(someElement).innerHTML userInput; 这样的模式。其中 userInput 变量直接来自URL参数 name (?php echo $_GET[name]; ? 服务器端回显)。这构成了一个典型的DOM型跨站脚本XSS漏洞。攻击者可以构造一个恶意URL例如 http://localhost:8080/vulnerabilities/xss_d/?namescriptalert(XSS)/script当受害者访问此链接时恶意脚本将在其浏览器中执行。 2. **缺乏输入输出编码** 整个代码片段没有对 name 参数进行任何HTML实体编码或过滤。在将用户控制的数据放入HTML上下文之前必须进行适当的编码例如将转换为 lt;, 转换为 gt;。建议修复方案 - 避免使用 innerHTML 来插入纯文本内容改用 textContent 属性。 - 如果必须使用 innerHTML在插入前必须对用户输入进行严格的HTML编码。 - 在服务器端PHP也应实施输入验证和输出编码。请注意此分析基于提供的代码片段。实际风险需要结合完整的应用上下文进行验证。这个结果很好地展示了AI分析的特点它指出了漏洞模式innerHTML 未过滤用户输入、解释了漏洞原理、甚至给出了攻击示例和修复建议。这比传统扫描器只报一个“可能的XSS”提供了更多的上下文信息。3.4 参数调优与高级用法探索原版工具可能没有提供更多参数但我们可以通过修改源代码来进行一些调优使其更实用。调整Prompt提示词这是影响AI分析质量最关键的因素。打开VulnScan.py找到构造发送给OpenAI API消息的那部分代码通常包含messages[{role: user, content: analysis_prompt}]。你可以修改analysis_prompt字符串让它更符合你的需求。更聚焦如果你只关心XSS可以指示AI“请专注于寻找跨站脚本漏洞XSS的模式忽略其他问题”。要求结构化输出你可以要求AI“请以JSON格式输出包含vulnerability_type,location,description,severity高/中/低,remediation字段”。这可以方便后续自动化处理虽然AI不一定严格遵守。提供上下文你可以添加更多背景如“这是一个运行在jQuery 1.7环境下的遗留应用请特别注意与此版本相关的已知安全问题”。处理大型JS文件如果目标页面JS代码太长你需要实现分片逻辑。可以将提取的JS代码按字符数或行数分割成多个片段分别发送给AI分析最后汇总结果。但要注意分片会丢失全局上下文可能影响分析准确性。添加代理支持如果需要在特定网络环境下使用可以在requests.get()调用中添加代理参数。proxies { http: http://your-proxy:port, https: http://your-proxy:port, } response requests.get(target_url, proxiesproxies, verifyFalse) # 注意verifyFalse仅用于测试自签名证书4. 常见问题、排查技巧与实战心得在实际把玩这个工具的过程中你肯定会遇到各种问题。下面是我遇到的一些典型情况及其解决方法。4.1 工具运行报错与排查问题现象可能原因排查与解决步骤ModuleNotFoundError: No module named openai依赖未正确安装或在虚拟环境外运行。1. 确认已激活虚拟环境命令行提示符前有(venv)。2. 在虚拟环境中重新执行pip install openai。openai.error.AuthenticationErrorAPI密钥无效、未设置或过期。1. 检查环境变量OPENAI_API_KEY是否设置正确echo $OPENAI_API_KEY。2. 确保密钥未过期并在OpenAI平台有足够的额度。3. 尝试在代码中直接硬编码密钥仅用于测试用完即删openai.api_key sk-...。openai.error.RateLimitErrorAPI调用频率超限或额度用完。1. 登录OpenAI平台查看用量和额度。2. 免费额度可能已用完需要绑定付费方式。3. 在代码中添加延迟time.sleep(1)between calls。requests.exceptions.ConnectionError网络问题无法访问目标URL或OpenAI API。1. 检查本地网络连接。2. 尝试用浏览器或curl访问目标URL确认其可达。3. 如果使用代理确保代码中已正确配置代理。工具运行后立刻退出无输出目标页面没有JavaScript或JS提取逻辑有误。1. 手动访问目标页面查看源代码确认是否有JS。2. 在代码中添加打印语句调试requests获取的内容和BeautifulSoup提取的结果。ChatGPT返回无关内容或拒绝回答Prompt设计不佳触发了AI的安全或内容策略。1. 修改Prompt避免使用“攻击”、“利用”、“黑客”等敏感词。用“安全审计”、“漏洞识别”、“风险检测”等中性词汇替代。2. 明确说明这是用于教育目的的安全测试。4.2 结果分析与验证技巧拿到AI的分析报告后如何判断其价值以下是我的几点心得交叉验证是金标准永远不要单独相信AI的结果。必须用传统方法进行验证。对于XSS根据AI指出的位置如document.getElementById(xxx).innerHTML手动构造Payload如img srcx onerroralert(1)在浏览器中测试或使用Burp Suite的Repeater模块重放请求。对于信息泄露检查AI提到的疑似硬编码的密钥或路径看是否真的能通过浏览器或工具访问到敏感文件。关注“模式”而非绝对结论AI擅长指出“这里使用了危险函数A并且数据源是用户可控的B这可能导致C问题”。这个“AB-C”的逻辑链往往比单纯的“有漏洞”更有价值。即使最终验证不是漏洞这种模式识别能力也能帮你发现代码中的坏味道。利用AI解释进行深度理解当AI指出一个你不熟悉的潜在漏洞时例如不安全的postMessage使用可以利用它的解释快速学习。你可以接着问或自行搜索“postMessage的安全最佳实践是什么”、“如何安全地验证postMessage的来源”。假阳性误报处理AI可能会将经过安全编码的代码误判。例如它看到innerHTML就报警但没注意到数据在插入前已经通过一个安全的库如DOMPurify进行了清洗。这时需要你人工审查代码的完整上下文。假阴性漏报的必然性要清醒认识到AI肯定会漏报。复杂的漏洞链、逻辑漏洞、业务逻辑漏洞等很难通过静态代码片段被AI发现。它只能作为辅助不能替代全面的安全评估。4.3 安全、合规与伦理边界使用此类工具必须恪守底线仅用于授权测试绝对不要在未获得明确书面授权的情况下对任何不属于你或你未被允许测试的系统、网站、应用进行扫描。这不仅是违法行为也违背了安全从业者的职业道德。注意数据隐私如前所述将代码发送给OpenAI API意味着代码内容会经过第三方服务器。确保你发送的代码不包含任何真实的用户数据、商业秘密、知识产权代码或任何受法律保护的信息。靶场是最佳选择对于学习和测试始终使用像DVWA、Juice Shop、bWAPP这样的漏洞靶场。它们被设计成不安全的是完美的实验场。了解API成本OpenAI API调用是收费的。虽然单次分析成本很低但大规模扫描会累积费用。在编写循环或扫描大量目标时务必注意成本控制。5. 项目启发与扩展思路尽管VulnScan本身已停止开发但它为我们打开了一扇窗展示了AI与安全工具融合的一种可能形态。基于这个思路我们可以设想如何将其改进或应用到其他场景集成到现有工具链将AI分析模块作为插件集成到Burp Suite或ZAP中。在被动扫描阶段对流量中捕获的JS文件自动进行AI分析并将结果以自定义Issue的形式呈现在扫描结果中。构建本地化模型出于成本和隐私考虑可以尝试使用开源的、可本地部署的大语言模型如CodeLlama、DeepSeek-Coder等针对安全代码分析进行微调Fine-tuning构建一个专有的“安全代码分析AI助手”。聚焦特定漏洞类型训练或引导AI专注于某一类高价值漏洞的深度发现。例如专门用于发现业务逻辑漏洞如“能否绕过这个订单价格校验”或者专门审计身份认证与授权相关的代码。从“分析”到“交互式验证”结合爬虫或DAST工具的探索能力让AI不仅能分析静态代码还能根据分析结果智能生成下一步的测试用例或攻击Payload形成一个初步的“AI引导的渗透测试”循环。代码修复建议生成在发现漏洞后让AI不仅指出问题还能生成具体的、可应用的修复代码补丁Patch甚至直接关联到开发框架如“在Spring Security中这里应该添加PreAuthorize注解”。这个项目的遗产不在于其代码本身而在于其大胆的构想。它提醒我们在规则引擎和模式匹配之外还有一种更接近人类专家推理的分析路径。虽然目前受限于AI的幻觉、成本和上下文长度但这条路无疑值得持续探索。对于安全从业者来说拥抱并理解这类工具不是为了替代自己的技能而是为了扩展自己的能力边界在未来的人机协同安全评估中占据先机。

ARM PMCCNTR寄存器：性能监控与时钟周期计数详解

1. ARM PMCCNTR寄存器深度解析在现代处理器架构中，性能监控单元(PMU)是系统调优和性能分析的关键组件。作为ARM架构性能监控的核心，PMCCNTR寄存器提供了精确的处理器时钟周期计数能力。这个64位寄存器在AArch32和AArch64执行模式下具有架构映射关系&…...

2026/5/12 3:59:52 阅读更多 →

【谷歌AI实验室内部文档流出】：Gemini 2.0 for Slides的隐藏API调用逻辑与定制化模板生成法

更多请点击： https://intelliparadigm.com 第一章：Gemini 2.0 for Slides技术演进与文档泄露背景 Google Gemini 2.0 for Slides 并非官方正式发布的独立产品，而是开发者社区基于 Gemini API 与 Google Slides REST 接口深度集成所构建的增强…...

2026/5/12 3:58:40 阅读更多 →

R语言入门学习教程，从入门到精通，R语言流程控制语句(5）

R语言流程控制语句一、程序结构 R语言的程序结构包括： 顺序结构：默认从上到下依次执行。选择结构：根据条件选择执行不同代码块（if、switch、ifelse）。循环结构：重复执行某段代码（repeat、while、…...

2026/5/12 3:46:48 阅读更多 →

OpenClaw智能模型路由：基于任务复杂度与成本约束的动态调度实践

1. 项目概述：一个聪明的AI模型调度器如果你正在使用OpenClaw，并且手头同时接入了多个不同能力、不同成本的AI模型（比如Kimi、GPT、Claude等），那么你很可能遇到过这样的困扰：一个简单的文本总结任务&#xf…...

2026/5/11 19:13:10 阅读更多 →

机器学习的数据合成（二）

原文：annas-archive.org/md5/9d5ab593b867c3a47f27572d629020aa 译者：飞龙协议：CC BY-NC-SA 4.0 第十四章：合成到真实领域自适应本章向您介绍了一个常见的问题，通常限制了合成数据的使用性，称为领域差距…...

2026/5/10 0:10:18 阅读更多 →

cann/catlass MX FP8批量矩阵乘

MXFP8BatchMatmulTla Example Readme 【免费下载链接】catlass 本项目是CANN的算子模板库，提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass 功能介绍演示 Ascend 950 上的 MX FP8 矩阵乘：A、B …...

2026/5/11 13:10:58 阅读更多 →