Qwen3-ASR-1.7B与Typora结合的语音笔记工具开发

张

张建站

2026/4/14 8:34:47

10分钟阅读

Qwen3-ASR-1.7B与Typora结合的语音笔记工具开发1. 引言你有没有遇到过这样的情况开会时灵感迸发却来不及打字记录或者开车时突然想到一个绝妙的点子却无法及时记录下来传统的文字输入方式在这些场景下显得力不从心。现在有了Qwen3-ASR-1.7B语音识别模型我们可以开发一个智能语音笔记工具让你通过说话就能自动生成高质量的笔记内容。Qwen3-ASR-1.7B是阿里最新开源的语音识别模型支持52种语言和方言识别准确率极高甚至在嘈杂环境下也能稳定工作。而Typora作为一款优雅的Markdown编辑器正是整理和编辑笔记的绝佳工具。将两者结合就能打造一个从语音输入到精美笔记的无缝工作流。本文将手把手教你如何开发这样一个语音笔记工具让你彻底解放双手专注于思考和创作。2. 工具准备与环境搭建2.1 安装必要的软件包首先我们需要安装一些基础的Python包。打开终端执行以下命令pip install torch torchaudio pip install transformers pip install pyaudio pip install soundfile这些包分别用于深度学习推理、音频处理和文件操作。如果你在安装pyaudio时遇到问题可能需要先安装portaudio开发库# Ubuntu/Debian sudo apt-get install portaudio19-dev # macOS brew install portaudio2.2 下载Qwen3-ASR模型Qwen3-ASR-1.7B模型可以从Hugging Face或ModelScope获取。这里我们使用Hugging Face的transformers库来加载模型from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor model_name Qwen/Qwen3-ASR-1.7B model AutoModelForSpeechSeq2Seq.from_pretrained(model_name) processor AutoProcessor.from_pretrained(model_name)第一次运行时会自动下载模型文件大小约3.4GB请确保有足够的磁盘空间和稳定的网络连接。2.3 配置音频录制功能我们需要一个简单的音频录制模块来捕获语音输入import pyaudio import wave import numpy as np def record_audio(filename, duration10, sample_rate16000): 录制指定时长的音频并保存为文件 chunk 1024 format pyaudio.paInt16 channels 1 p pyaudio.PyAudio() stream p.open(formatformat, channelschannels, ratesample_rate, inputTrue, frames_per_bufferchunk) print(开始录音...) frames [] for i in range(0, int(sample_rate / chunk * duration)): data stream.read(chunk) frames.append(data) print(录音结束) stream.stop_stream() stream.close() p.terminate() # 保存为WAV文件 wf wave.open(filename, wb) wf.setnchannels(channels) wf.setsampwidth(p.get_sample_size(format)) wf.setframerate(sample_rate) wf.writeframes(b.join(frames)) wf.close() return filename3. 核心功能实现3.1 语音识别模块现在我们来实现核心的语音识别功能import torch from transformers import pipeline class SpeechRecognizer: def __init__(self): self.device cuda:0 if torch.cuda.is_available() else cpu self.pipe pipeline( automatic-speech-recognition, modelQwen/Qwen3-ASR-1.7B, deviceself.device ) def transcribe_audio(self, audio_path): 将音频文件转换为文字 try: result self.pipe( audio_path, generate_kwargs{language: zh, task: transcribe} ) return result[text] except Exception as e: print(f识别出错: {e}) return None def real_time_transcribe(self, duration10): 实时录制并识别语音 audio_file temp_audio.wav record_audio(audio_file, durationduration) text self.transcribe_audio(audio_file) return text3.2 与Typora的集成为了让识别结果直接进入Typora我们可以创建一个简单的文件监视和写入机制import time import os from watchdog.observers import Observer from watchdog.events import FileSystemEventHandler class TyporaHandler(FileSystemEventHandler): def __init__(self, recognizer): self.recognizer recognizer self.current_file None def on_modified(self, event): if event.src_path.endswith(.md): self.current_file event.src_path def append_to_file(self, text): 将识别结果追加到当前打开的Markdown文件 if self.current_file and text: timestamp time.strftime(%Y-%m-%d %H:%M, time.localtime()) formatted_text f\n\n**{timestamp}**\n{text} with open(self.current_file, a, encodingutf-8) as f: f.write(formatted_text) print(f已添加到笔记: {text}) # 安装watchdog包pip install watchdog4. 完整工作流实现现在我们把所有模块组合起来创建一个完整的语音笔记工具def main(): # 初始化识别器 recognizer SpeechRecognizer() # 初始化Typora处理器 typora_handler TyporaHandler(recognizer) observer Observer() observer.schedule(typora_handler, path., recursiveFalse) observer.start() print(语音笔记工具已启动) print(按下回车键开始录音输入quit退出) try: while True: command input(按回车录音10秒或输入时长秒: ) if command.lower() quit: break try: duration 10 if command else int(command) text recognizer.real_time_transcribe(duration) if text: print(f识别结果: {text}) typora_handler.append_to_file(text) else: print(未识别到有效内容) except ValueError: print(请输入有效的数字) except KeyboardInterrupt: print(\n程序退出) finally: observer.stop() observer.join() if __name__ __main__: main()5. 进阶功能与优化5.1 支持多种语言识别Qwen3-ASR支持多语言识别我们可以根据需要切换语言def transcribe_multilingual(self, audio_path, languageauto): 支持多种语言识别 if language auto: # 自动检测语言 result self.pipe(audio_path) else: result self.pipe( audio_path, generate_kwargs{language: language, task: transcribe} ) return result[text]5.2 添加实时反馈功能为了让用户体验更好可以添加实时反馈机制import pygame def play_feedback_sound(successTrue): 播放操作反馈音效 pygame.mixer.init() if success: sound pygame.mixer.Sound(success.wav) else: sound pygame.mixer.Sound(error.wav) sound.play() time.sleep(0.5)5.3 批量处理音频文件如果你有已有的录音文件需要整理可以添加批量处理功能def batch_process_audio_files(folder_path, output_file): 批量处理文件夹中的音频文件 recognizer SpeechRecognizer() with open(output_file, w, encodingutf-8) as out_f: for filename in os.listdir(folder_path): if filename.endswith((.wav, .mp3, .m4a)): audio_path os.path.join(folder_path, filename) text recognizer.transcribe_audio(audio_path) if text: out_f.write(f## {filename}\n) out_f.write(f{text}\n\n) print(f已处理: {filename})6. 实际应用场景这个语音笔记工具在实际工作中有很多应用场景会议记录在开会时实时录音并转写会后直接获得整理好的会议纪要灵感捕捉随时随地记录想法避免灵感流失学习笔记听课或看视频时自动生成文字笔记访谈整理采访或对话时自动生成文字稿大大提高整理效率我自己的使用体验是识别准确率相当高中文环境下基本能达到95%以上的准确率即使是带有一些专业术语的内容也能很好识别。最大的好处是解放了双手可以更专注于内容本身而不是记录的过程。7. 总结将Qwen3-ASR-1.7B与Typora结合开发语音笔记工具确实能显著提升笔记效率。这个方案的优势在于首先是识别准确率高即使在有一定噪声的环境下也能正常工作其次是使用简单只需要按一个键就能开始录音和识别最后是集成性好识别结果直接进入Typora无需手动复制粘贴。在实际使用中你可能需要根据具体环境调整录音参数比如在嘈杂环境下可以增加录音时长来提高识别准确率。如果处理长音频可能还需要考虑分段处理的问题。这个工具还有很多可以改进的地方比如添加语音指令控制、支持更多文件格式、添加云同步功能等。你可以根据自己的需求进一步扩展和完善。最重要的是现在就开始尝试使用语音来记录和创作吧你会发现当技术真正服务于人的需求时工作效率的提升是实实在在的。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

Qwen3.5-9B-AWQ-4bit效果展示：招聘JD截图→岗位要求提取+胜任力模型映射

Qwen3.5-9B-AWQ-4bit效果展示：招聘JD截图→岗位要求提取胜任力模型映射 1. 效果展示开场想象一下这样的场景：HR每天需要处理上百份招聘JD截图，手动提取关键信息、匹配胜任力模型，不仅耗时耗力，还容易遗漏重要细节。…...

2026/4/14 8:34:22 阅读更多 →

Cortex-A7 MPCore 架构

鉴于学习的硬件使用的是Cortex-A7架构，本章学习该架构的相关知识。了解了 Cortex-A7 架构以后有利于我们后面的学习，因为后面有很多例程涉及到 Cortex-A7 架构方面的知识，比如处理器模型、 Cortex-A7 寄存器组等等。Cortex-A7 MPCore 简介Cor…...

2026/4/14 8:32:56 阅读更多 →

【仅剩72小时解禁】2026奇点大会AIAgent NLU内核技术简报：3个颠覆性专利算法+1套开源推理引擎

第一章：2026奇点智能技术大会：AIAgent自然语言理解 2026奇点智能技术大会(https://ml-summit.org) 语义解析架构的范式演进本届大会首次公开演示了基于多粒度语义锚定（Multi-Granularity Semantic Anchoring, MGSA）的NLU引擎&a…...

2026/4/14 8:32:08 阅读更多 →

Snyk 依赖性安全漏洞扫描工具实战指南：从安装到多语言项目扫描

1. Snyk工具与依赖安全漏洞扫描基础第一次听说Snyk是在去年参与一个金融项目时，我们的技术负责人突然要求所有依赖包必须通过安全扫描才能上线。当时团队里没人知道该怎么操作，直到发现了这个神器。Snyk本质上是个"依赖包安检仪"，…...

2026/4/13 13:51:39 阅读更多 →

mbed OS 6+ 嵌入式TFTP服务器设计与实现

1. TFTPServer项目概述TFTPServer 是一个面向 ARM mbed OS 平台的轻量级 TFTP（Trivial File Transfer Protocol）服务器实现，专为嵌入式以太网设备设计。其核心目标是在资源受限的 MCU（如 STM32F4/F7/H7、NXP LPC1768/LPC54608、Re…...

2026/4/13 13:14:19 阅读更多 →

Windows效率神器PowerToys：30+免费工具让你的电脑生产力翻倍

Windows效率神器PowerToys：30免费工具让你的电脑生产力翻倍【免费下载链接】PowerToys Microsoft PowerToys is a collection of utilities that supercharge productivity and customization on Windows 项目地址: https://gitcode.com/GitHub_Trending/po/Powe…...

2026/4/14 3:20:16 阅读更多 →

RX63N驱动SSD1963显示控制器的HAL级配置指南

1. 项目概述Display_shield_config是为 Renesas GR-PEACH 开发板配套的显示扩展板（Display Shield）所设计的一套底层配置资源集合。GR-PEACH 是基于 Renesas RX63N 微控制器的高性能嵌入式开发平台，主频高达 100 MHz，内置 1 MB Fl…...

2026/4/14 4:56:47 阅读更多 →