简单三步：Xinference-v1.17.1在Jupyter中实现OpenAI兼容API，无缝切换模型

张

张建站

2026/4/5 12:02:51

10分钟阅读

简单三步Xinference-v1.17.1在Jupyter中实现OpenAI兼容API无缝切换模型1. 准备工作与环境配置1.1 启动Xinference服务在Jupyter环境中启动Xinference服务非常简单只需执行以下命令!xinference-local --host 127.0.0.1 --port 9997 --log-level WARNING /tmp/xinference.log 21 这个命令会在后台启动Xinference服务监听本地9997端口。为了确保服务已正常启动可以检查日志!cat /tmp/xinference.log | tail -5如果看到类似Xinference is running at http://127.0.0.1:9997的输出说明服务已成功启动。1.2 验证服务可用性让我们用Python代码快速验证服务是否可用import requests response requests.get(http://127.0.0.1:9997/v1/models) if response.status_code 200: print(Xinference服务运行正常) else: print(f服务异常状态码{response.status_code})2. 加载模型与API兼容设置2.1 选择并加载模型Xinference支持多种开源大语言模型我们可以轻松加载一个模型from xinference.client import Client client Client(http://127.0.0.1:9997) # 加载一个轻量级模型适合快速测试 model_uid client.launch_model( model_namephi-3-mini, model_size_in_billions3.8, quantizationq4_k_m ) print(f模型加载完成UID: {model_uid})2.2 设置OpenAI兼容APIXinference原生支持OpenAI兼容API这意味着你可以直接使用OpenAI的Python客户端from openai import OpenAI # 创建兼容OpenAI的客户端 oai_client OpenAI( base_urlhttp://127.0.0.1:9997/v1, api_keynot-needed # Xinference不需要API密钥 )3. 实际应用与模型切换3.1 使用OpenAI风格API调用模型现在你可以像使用OpenAI API一样调用本地模型response oai_client.chat.completions.create( modelmodel_uid, messages[ {role: system, content: 你是一个有帮助的AI助手}, {role: user, content: 用简单的语言解释什么是机器学习} ], temperature0.7, max_tokens150 ) print(response.choices[0].message.content)3.2 无缝切换不同模型Xinference的强大之处在于可以轻松切换不同模型。例如如果你想换用更大的模型# 加载另一个模型 new_model_uid client.launch_model( model_nameqwen2, model_size_in_billions7, quantizationq4_k_m ) # 使用相同的API调用新模型 response oai_client.chat.completions.create( modelnew_model_uid, messages[ {role: system, content: 你是一个有帮助的AI助手}, {role: user, content: 用简单的语言解释什么是机器学习} ], temperature0.7, max_tokens150 ) print(response.choices[0].message.content)3.3 高级功能函数调用Xinference也支持OpenAI风格的函数调用功能# 定义可用函数 functions [ { name: get_current_weather, description: 获取当前天气信息, parameters: { type: object, properties: { location: { type: string, description: 城市名称 } }, required: [location] } } ] # 发起带函数调用的请求 response oai_client.chat.completions.create( modelmodel_uid, messages[{role: user, content: 北京现在的天气怎么样}], functionsfunctions, function_callauto ) print(response.choices[0].message)4. 总结与最佳实践通过以上三个简单步骤我们成功在Jupyter环境中部署了Xinference并实现了OpenAI兼容API的功能。这种方法的主要优势包括无缝兼容现有基于OpenAI API的代码几乎无需修改灵活切换可以轻松尝试不同的开源模型本地运行数据无需离开本地环境保障隐私安全成本节约相比商业API长期使用成本显著降低对于日常使用建议开始可以先使用轻量级模型如phi-3-mini进行快速测试生产环境可以考虑更强大的模型如qwen2-7b或llama-3-8b定期检查Xinference的更新获取对新模型的支持获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

告别消隐电容！用栅极+漏极双电压检测，为你的SiC MOSFET驱动板设计一个600ns内响应的短路保护

SiC MOSFET短路保护的革新：双电压检测方案实战解析在电力电子设计领域，碳化硅（SiC）MOSFET因其卓越的高频、高压和高温性能，正逐步取代传统硅基器件。然而，其极短的短路耐受时间（通常仅2μs&…...

2026/4/5 11:59:25 阅读更多 →

Apex Legends智能压枪宏：自动武器检测与多分辨率支持的终极解决方案

Apex Legends智能压枪宏：自动武器检测与多分辨率支持的终极解决方案【免费下载链接】Apex-NoRecoil-2021 Scripts to reduce recoil for Apex Legends. (auto weapon detection, support multiple resolutions) 项目地址: https://gitcode.com/gh_mirrors/ap/Ape…...

2026/4/5 11:58:08 阅读更多 →

效率提升秘籍：使用快马AI快速生成可配置的热点词互动页面模块

效率提升秘籍：使用快马AI快速生成可配置的热点词互动页面模块最近在做一个节日营销活动，需要快速开发一个互动页面。主题是"520888moc中"，要求有数字递增动画、祝福语展示等功能。如果从零开始写代码，至少要花大半天时…...

2026/4/5 11:57:40 阅读更多 →

基于MATLAB的轮轨接触几何计算GUI程序设计与实现

1-148 matlab的带有gui的轮轨接触几何计算程序基于matlab的带有gui的轮轨接触几何计算程序,根据不同的踏面和轨头，计算不同横移量下面的接触点位置。程序已调通，可直接运行有没有人蹲过现成的、换文件就能换轮轨、不用啃半天赫兹接触前的几何方程、结果还…...

2026/4/5 0:00:53 阅读更多 →

【CPP 深度学习】PyTorch On CPP 系列课程第一章 01 ：入门与环境搭建【Ai Infra 3.0】[PyTorch CPP LibTorch 硕士研一课程]

章节 1: PyTorch ON Cpp入门与环境搭建本章将为PyTorch的使用做好准备。我们首先会配置必要的软件和环境。接着，主要内容将转向PyTorch的核心数据结构：张量。您将学习如何： 使用常用包管理器安装PyTorch。配置适合PyTorch项目的开发环境…...

2026/4/5 0:05:12 阅读更多 →

4DGL-uLCD-SE：轻量级嵌入式GUI驱动框架

1. 项目概述4DGL-uLCD-SE 是一个面向嵌入式系统设计的轻量级、可移植的图形用户界面（GUI）驱动框架，专为 4D Systems 公司推出的 uLCD 系列智能显示模块（如 uLCD-320GL, uLCD-70DT, uLCD-43PT 等）而构建。该库并非直接操…...

2026/4/5 0:34:09 阅读更多 →

电源逆变结构设计与选型指南

1. 电源逆变结构概述作为一名硬件工程师，我在过去十年里设计过各种电源转换电路。电源逆变结构是电力电子领域的核心内容，它决定了电能转换的效率、可靠性和成本。简单来说，电源逆变就是将直流电(DC)转换为交流电(AC)的过程，这在太…...

2026/4/5 0:34:18 阅读更多 →

更多精彩文章