分类: 语音识别 - Jianchang512的博客

2025-03-10发表2025-03-11更新语音识别4 分钟读完 (大约538个字)

在浏览器里搞定语音转文字：免费无上限，基于openai-whisper

一个基于 OpenAI Whisper 模型的免费转录语音为文字的Web服务，您只需打开浏览器即可使用，无需注册无需登录。

模型会在本地下载并运行，确保您的文件无需上传至任何外部服务器。

使用地址

https://stt.pyvideotrans.com

可供选择的模型

工具提供多种模型选项，包括：

tiny
base
small
medium
large-v1
large-v3

模型特点：

尺寸越小的模型（如 tiny 和 base），运行速度越快，但转录精度相对较低；
尺寸越大的模型（如 large-v1 和 large-v3），精度越高，但运行速度较慢，且在性能较低的设备上可能导致浏览器崩溃。

如何使用

上传文件：点击选择需要转录的音频或视频文件。
选择模型：根据设备性能选择合适的模型。
- 性能较弱的设备建议使用 tiny 或 base；
- 性能较强的设备可选择 small 或 medium；
- 除非设备性能极佳，否则避免选择过大模型，以免浏览器崩溃。
选择语言：指定音视频中的语音语言。
模型下载：首次使用某模型时，工具会从 Hugging Face 下载模型文件。由于该网站在国内可能无法直接访问，建议使用科学上网工具确保下载顺利。

注意事项

隐私安全：模型下载后完全在本地运行，您的文件不会上传至任何服务器。
性能依赖：模型选择和运行速度取决于您的设备性能。
系统建议：推荐在 Windows 或 Linux 系统上使用 Chrome 浏览器。Mac 设备上的 M 系列芯片支持可能不够完善。

技术原理

实现方式：工具基于 Transformers.js 技术，支持在浏览器中运行大型模型。
模型来源：采用 OpenAI Whisper 模型，经过 Xenova/whisper-web 优化与转换。