在浏览器里搞定语音转文字:免费无上限,基于openai-whisper
一个基于 OpenAI Whisper 模型的免费转录语音为文字的Web服务,您只需打开浏览器即可使用,无需注册无需登录。
模型会在本地下载并运行,确保您的文件无需上传至任何外部服务器。
使用地址
可供选择的模型
工具提供多种模型选项,包括:
tiny
base
small
medium
large-v1
large-v3
模型特点:
- 尺寸越小的模型(如
tiny
和base
),运行速度越快,但转录精度相对较低; - 尺寸越大的模型(如
large-v1
和large-v3
),精度越高,但运行速度较慢,且在性能较低的设备上可能导致浏览器崩溃。
如何使用
- 上传文件:点击选择需要转录的音频或视频文件。
- 选择模型:根据设备性能选择合适的模型。
- 性能较弱的设备建议使用
tiny
或base
; - 性能较强的设备可选择
small
或medium
; - 除非设备性能极佳,否则避免选择过大模型,以免浏览器崩溃。
- 性能较弱的设备建议使用
- 选择语言:指定音视频中的语音语言。
- 模型下载:首次使用某模型时,工具会从 Hugging Face 下载模型文件。由于该网站在国内可能无法直接访问,建议使用科学上网工具确保下载顺利。
注意事项
- 隐私安全:模型下载后完全在本地运行,您的文件不会上传至任何服务器。
- 性能依赖:模型选择和运行速度取决于您的设备性能。
- 系统建议:推荐在 Windows 或 Linux 系统上使用 Chrome 浏览器。Mac 设备上的 M 系列芯片支持可能不够完善。
技术原理
- 实现方式:工具基于 Transformers.js 技术,支持在浏览器中运行大型模型。
- 模型来源:采用 OpenAI Whisper 模型,经过 Xenova/whisper-web 优化与转换。