蛐蛐QuQu开源AI语音输入工具

蛐蛐(QuQu)是什么?

蛐蛐(QuQu)是一款专为中文用户打造的开源免费桌面端语音输入与文本处理工具,定位为 Wispr Flow 的国产替代品。它采用 FunASR 本地语音识别引擎 + 可配置大语言模型(LLM)的两段式架构,语音数据全程不出设备,同时支持通义千问、Kimi、DeepSeek 等国产模型及 OpenAI 兼容 API,是目前中文语音输入工具中隐私性与智能化兼顾的最佳选择。

GitHub 地址:https://github.com/yan5xu/ququ

为什么需要蛐蛐?Wispr Flow 的痛点

Wispr Flow 是海外知名的 AI 语音输入工具,但对中文用户存在明显短板:

  • 价格贵:每月 $12 订阅费,年付近千元
  • 隐私风险:语音数据上传云端处理,国内合规存疑
  • 中文体验差:口语、网络用语识别率低,编程术语格式化弱
  • 模型受限:仅支持海外模型,国内服务访问慢、成本高

蛐蛐逐一解决这些痛点:免费开源、本地识别、中文专项优化、国产模型优先适配。

核心功能深度解析

1. FunASR 本地语音识别——隐私优先

内置阿里巴巴开源的 FunASR Paraformer 模型,直接在本地 GPU/CPU 运行,无需联网即可完成语音转文字。识别精度针对中文口语、网络用语专项优化,支持连续语音、中英混说等场景。

关键优势:语音数据零上传,适合金融、医疗、法务等对数据隐私有严格要求的场景。

2. ASR + LLM 两段式引擎——识别只是开始

蛐蛐的工作流不是简单的”语音转文字”,而是“语音到识别到大模型智能优化再到输出”

  • 口头禅过滤:自动去除”嗯””那个””就是”等口语填充词
  • 自我更正还原:识别到”周三不对,是周四”时,直接输出”周四”
  • 格式化润色:将口述内容自动整理为邮件、文档、代码注释等格式
  • 术语格式化:准确识别并输出 camelCase、snake_case、PascalCase 等编程命名格式

3. 国产模型生态支持——更快更省更合规

兼容 OpenAI API 格式,优先适配:

  • 通义千问(阿里)
  • Kimi(月之暗面)
  • DeepSeek
  • 任何 OpenAI API 兼容服务

国内模型响应延迟更低(ms 级 vs 海外数百 ms),调用成本显著下降,且数据出境风险可控。

4. 情境感知输出——自动适配当前应用

根据当前活跃窗口自动判断场景(写代码 / 回邮件 / 写文档),应用不同的 AI 指令优化输出格式。也支持自定义 Prompt 模板,灵活适配个人工作流。

快速上手指南

  1. 下载安装:前往 GitHub Releases 页面下载对应系统安装包(支持 Windows / macOS)
  2. 首次启动:软件自动下载 FunASR 模型文件(约 200MB),完成后即可本地语音识别
  3. 配置大模型:在设置中填入你的 LLM API Key(支持通义千问、Kimi、OpenAI 等),选择默认模型
  4. 开始使用:按 F2 一键唤醒,对着麦克风说话,松开后自动识别、优化并粘贴到光标位置
  5. 自定义指令(可选):在设置中配置不同场景的 AI Prompt 模板

典型使用场景

场景 说明
会议纪要 口述要点,自动整理为结构化纪要
邮件撰写 口述内容,自动润色为正式邮件
代码注释 口述说明,输出 camelCase 格式注释
Git 提交 口述改动说明,生成规范 commit message
学习笔记 口述笔记,自动去口语化整理
隐私敏感场景 完全离线识别,数据不出设备

与 Wispr Flow 对比一览

对比项 蛐蛐 QuQu Wispr Flow
价格 免费开源 $12/月
语音处理 本地 FunASR 云端
中文优化 专项优化 通用支持
模型生态 国产+海外 仅海外
隐私合规 数据不出设备 上传云端
编程术语 格式化输出 基础支持
自定义 Prompt 支持 有限

相关资源

本文由宅叔整理发布,如涉及版权问题请联系我们。文中信息以项目官方说明为准。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。