LiveCaptionN 将您的 Android 手机变成一个实时语音字幕和翻译工具,它可以悬浮在任何其他应用之上。它通过麦克风或当前播放应用的音频进行监听,逐字逐句地转录您说话的内容,将其翻译成您选择的语言,并将结果以可拖动的字幕窗口的形式显示在您正在观看、浏览或学习的任何内容之上。
默认情况下,该流程的两个部分都在设备端完全运行:
• 流式 Vosk 语音识别 — 一个长寿命识别器持续接收约 100 毫秒的音频片段,因此字幕几乎是即时显示的,而不是以 2 秒的片段形式出现。
• Google ML Kit 设备端翻译 — 支持约 59 种语言,每种语言对只需一次性下载约 30 MB 的数据,然后永久缓存离线。
无需帐户。不收集遥测数据。默认流程无需服务器。
功能特性
• 悬浮式字幕叠加层,可置于任何应用之上,支持拖拽移动、捏合缩放、暂停、最小化和关闭等操作
• 支持麦克风或系统音频(通过 MediaProjection),均采用低延迟传输
• 设备端 Vosk 流式识别器,体验媲美 Google Live Caption
• 内置下载器,提供更多设备端 Vosk 模型,两种质量级别:小型(约 30 至 80 MB)和大型服务器级(80 MB 至 2 GB,错误率最低),支持西班牙语、法语、德语、意大利语、葡萄牙语、荷兰语、俄语、乌克兰语、波斯语、印地语、中文、日语、阿拉伯语、越南语等多种语言
• 通过 Google ML Kit 进行设备端翻译,可选 LibreTranslate 作为服务器后端,以覆盖更广泛的语言
• 可直接在应用内搜索转录历史记录
• 可调整叠加层:文本大小、不透明度、宽度、高度、屏幕位置记忆
• 通过 GitHub Releases 自动接收更新通知API
隐私至上
LiveCaptionN 不会创建账户,不会追踪您的活动,也不会进行任何分析。语音识别和翻译功能均在您的手机上运行。该应用仅在您请求时才会访问互联网,以下载 Vosk 模型(来自 alphacephei.com)和 ML Kit 翻译对(来自 Google 的模型服务),并检查 GitHub 上是否有新的版本发布。如果您在设置中启用可选的 Whisper 或 LibreTranslate 服务器,则流量将仅流向您配置的 URL,不会流向其他任何网站。
系统要求
• Android 10(API 29)或更高版本
• 麦克风权限(用于麦克风模式)
• “在其他应用之上显示”权限(用于浮动字幕窗口)
• 通知权限(用于可选的更新提醒)
LiveCaptionN 完全开源。每个版本都由 GitHub Actions 基于您可以查看的公开提交构建。欢迎在 GitHub 上提交问题、反馈和拉取请求。
Last updated on 2026年06月30日
Bug Fixes