使用本地大模型翻译字幕

DeepSeek、Qwen 等开源 AI 大模型表现出色,借助 OllamaLM Studio 等工具,我们可以在本地轻松搭建大模型服务,并将其集成到各类 AI 应用中,比如视频翻译软件 。

然而,受限于个人电脑的显存,本地部署的大模型通常较小,例如 1.5B、7B、14B 或 32B。

DeepSeek 官方在线AI服务使用的 r1 模型,参数量高达 671 B。这种巨大的差异意味着本地模型的智能程度相对有限,无法像使用在线模型那样随意使用,否则可能遇到各种奇怪的问题,比如翻译结果中出现提示词、原文与译文混杂、甚至出现乱码等。

根本原因在于小模型智能不足,对复杂提示词的理解和执行能力较弱。

因此,在使用本地大模型进行视频翻译时,需要注意以下几点,才能获得较好的翻译效果:

一、正确配置视频翻译软件的 API 设置

将本地部署模型的 API 地址填写到视频翻译软件 翻译设置 –> 兼容 AI 及本地大模型 下的 API 接口地址中。通常,API 接口地址应以 /v1 结尾。

  • 如果你的 API 接口设置了 API Key,请将其填写到 SK 文本框中。 如果未设置,则随意填写一个值即可,例如 1234,但不要留空。
  • 将模型名称填写到 填写所有可用模型 文本框中。 注意: 某些模型名称后可能带有尺寸信息,例如 deepseek-r1:8b,末尾的 :8b 也需要一并填写。

image.png

image.png

二、优先选择参数量更大、更新的模型

  1. 建议选择参数量至少为 7B 的模型。如果条件允许,尽量选择大于 14B 的模型。当然,在计算机性能允许的情况下,模型越大效果越好。
  2. 如果使用通义千问系列模型,优先选择 qwen2.5 系列,而不是 1.5 或 2.0 系列。

image.png

三、取消勾选视频翻译软件中的“发送完整字幕”选项

除非你部署的模型尺寸大于等于 70B,否则勾选“发送完整字幕”可能会导致字幕翻译结果出错。

image.png

四、合理设置字幕行数参数

将视频翻译软件中的 传统翻译字幕行数AI 翻译字幕行数 都设置为较小的值,例如 1、5 或 10 等。 这样可以避免出现过多空白行的问题,并提高翻译的可靠性。

值越小,翻译出错的可能性越低,但翻译质量也会下降;值越大,虽然在不出错的情况下翻译质量更好,但也更容易出错。

image.png

五、简化提示词(Prompt)

当模型较小时,可能无法理解或指令遵从性较差。 此时,可以简化提示词,使其简单明了。

例如,默认的 软件目录/videotrans/localllm.txt 文件中的提示词可能较为复杂,当发现翻译结果不尽如人意时,可以尝试简化。

简化示例一:

# 角色
你是一个翻译助手,能够将<INPUT>标签内的文本翻译成{lang}。

## 要求

- 译文行数必须等于原文行数
- 按照字面意思翻译,不要解释原文。
- 仅返回译文,禁止返回原文。
- 如果无法翻译,请返回空行,不得道歉,不得解释原因。

## 输出格式:
直接输出译文,禁止输出任何其他提示,例如解释、引导字符等。

<INPUT></INPUT>

翻译结果:

简化示例二:

你是一个翻译助手,将以下文本翻译成{lang},保持行数不变,只返回译文,无法翻译则返回空行。

待翻译文本:
<INPUT></INPUT>

翻译结果:

简化示例三:

将以下文本翻译为{lang},保持行数一致。如果无法翻译,留空。

<INPUT></INPUT>

翻译结果:

你还可以根据实际情况进一步简化和优化提示词。

通过以上几点优化,即使是较小的本地大模型,也能在视频翻译中发挥更大的作用,减少错误,提升翻译质量,为你带来更好的本地 AI 使用体验。

为edge-tts添加动态代理

想让你的文字“开口说话”,而且声音自然逼真、媲美真人?微软 Edge 浏览器内置的“大声朗读”功能就能做到!它支持几十种语言和多种音色,关键是完全免费。

基于此功能的开源项目 edge-tts 也广受欢迎,许多免费的文字转语音工具都是基于它开发的。但随着用户增多,微软已对配音请求进行限流。现在,使用量稍大就会遇到 403 错误,导致无法继续合成语音。

如何避免或减少 403 错误?

由于这是微软提供的 API 服务,而非开源项目,本地部署是行不通的。无论如何,语音合成都必须连接到微软的服务器。

  1. 部署到 Cloudflare: 可以降低 403 错误的发生频率,但无法完全避免。

  2. 使用动态 IP 代理: 每隔几分钟自动更换 IP,能有效避免 403 错误。稳定性取决于动态 IP 的质量。如果动态 IP 可靠性为 97%,那么 edge-tts 的可用性也能达到 97%。

    • 这似乎是目前最佳的解决方案。当然,优质的动态 IP 代理服务通常是需要付费的。免费代理往往质量不佳,无法满足需求。

那么,如何配置动态 IP 代理,又有哪些服务值得推荐呢?

动态IP 无法保证百分百可用,真实可用可能仅在 85%-95%

这里以我个人使用过的 Proxy302 为例。它提供国外家庭住宅 IP,大约每 5 分钟切换一次,按流量计费(1.5 美元/GB)。

下面是详细的开通和使用步骤:

一、注册账号

  1. 访问 302AI 注册账号,该账号及余额与 Proxy302 通用。之所以推荐从 302AI 注册,是因为它的最低充值额为 5 美元,而 Proxy302 的最低充值额为 20 美元。初次尝试,建议先小额充值,以降低风险。

  2. 打开该链接注册: https://gpt302.saaslink.net/teRK8Y
    使用邮箱注册账号,并完成邮箱验证。

  3. 充值余额:按下图示意充值,最低充值 5 美元。

image.png

二、登录 Proxy302.com

充值完成后,使用相同的账号密码登录 https://dash.proxy302.com/login

登录后即可看到余额。

image.png

三、创建动态 IP 代理地址

  1. 按上图所示点击左侧导航栏的 动态IP(短效) –> 按流量扣费

  2. 再依次点击 通用代理生成 –> 生成通用代理,如下图。

image.png

  1. 生成后在下方的 已有代理–>已购代理 中,可看到新生成的代理地址。点击地址后方的 help 按钮,设置代理 IP 所属国家,并复制代理地址。

image.png

  1. 如下图,在国家中选择 United States (US),点击生成随机 Session,并复制最底部的地址。

重要提示: 每次需要复制代理地址时,务必点击 help 按钮进行复制。

image.png

四、将代理地址应用于视频翻译软件

首先必须将视频翻译软件升级到 v3.50 版本。

  1. pyVideoTrans 视频翻译软件的 sp.exe 同级目录下(如果是源码部署,则在 sp.py 所在目录下),创建一个名为 edgetts.txt 的纯文本文件。

  2. 将上一步复制的代理地址粘贴到 edgetts.txt 文件中,并保存,如下图。

image.png

现在,你就可以尝试使用 edge-tts 进行语音合成了。

按照流量计费,粗估 1 元人民币约可合成 3-5 小时语音(若遇错重试将增加费用,实际费用请自行测试,此仅供参考)

主流AI大模型介绍

相比传统翻译,使用 AI 作为翻译渠道具有显著优势。OpenAI ChatGPT、Gemini、Claude 在翻译质量上表现出色,但它们需要 VPN,且付费需要国外信用卡支付,使用门槛较高,对国内用户来说并不友好。

值得庆幸的是,国内 AI 技术也在飞速发展,这些国内 AI 服务的 API 接口完全兼容 OpenAI SDK,这意味着你可以无需修改任何代码,即可无缝替换 OpenAI。例如 Deepseek、阿里百炼、智谱 AI、百川智能、硅基流动等。

你只需要将 API URLSK (API Key)模型名字 这 3 项关键信息填写到软件的 菜单 – 翻译设置 – OpenAI ChatGPT API 中,即可立即开始使用。

无需复杂的配置,即使是零基础的小白也能轻松上手!

image.png

Deepseek 深度求索

这是 Deepseek的官方 API 服务,不过近期不稳定

image.png
官网地址:https://www.deepseek.com

API KEY(SK)获取地址: https://platform.deepseek.com/api_keys

API URL: https://api.deepseek.com/v1

可用模型: deepseek-chat :即v3模型 、 deepseek-reasoner即R1推理模型

智谱AI

官网地址: https://bigmodel.cn

API KEY(SK)获取地址: https://bigmodel.cn/usercenter/proj-mgmt/apikeys

API URL:https://open.bigmodel.cn/api/paas/v4

可用模型: glm-4-plus、glm-4-air、glm-4-air-0111 、glm-4-airx、glm-4-long 、glm-4-flashx 、glm-4-flash

注意:glm-4-flash 是免费模型,无需任何花费,其他模型为收费,需保证账号内有余额

image.png

百川智能

官网地址: https://www.baichuan-ai.com

API KEY(SK)获取地址: https://platform.baichuan-ai.com/console/apikey

API URL: https://api.baichuan-ai.com/v1

可用模型:Baichuan4-Turbo 、Baichuan4-Air、Baichuan4、Baichuan3-Turbo、Baichuan3-Turbo-128k、Baichuan2-Turbo

image.png

月之暗面 Kimi

官网:https://www.moonshot.cn

API KEY(SK)获取地址: https://platform.moonshot.cn/console/api-keys

API URL: https://api.moonshot.cn/v1

可用模型: moonshot-v1-8k、moonshot-v1-32k 、moonshot-v1-128k

image.png

零一万物

官网:https://lingyiwanwu.com

API KEY获取地址: https://platform.lingyiwanwu.com/apikeys

API URL: https://api.lingyiwanwu.com/v1

可用模型: yi-lightning

image.png

阿里百炼

阿里百炼是AI模型集市,提供了所有阿里系模型及其他厂家模型,包括 Deepseek-r1

官网地址:https://bailian.console.aliyun.com

API KEY(SK)获取地址: https://bailian.console.aliyun.com/?apiKey=1#/api-key

API URL: https://dashscope.aliyuncs.com/compatible-mode/v1

可用模型: 众多,具体查看 https://bailian.console.aliyun.com/#/model-market

image.png

硅基流动

又是一个类似阿里百炼的AI集市,提供了国内主流模型,包括 deepseek-r1

官网地址:https://siliconflow.cn

API KEY(SK)获取地址: https://cloud.siliconflow.cn/account/ak

API URL: https://api.siliconflow.cn/v1

可用模型: 众多,具体查看 https://cloud.siliconflow.cn/models?types=chat

注意:硅基流动提供了 Qwen/Qwen2.5-7B-Instruct 免费模型,无需花费可直接使用

image.png

字节火山方舟

类似阿里百炼的AI集市,除了汇集豆包系列模型,还有一些第三方模型,包括 deepseek-r1

官网:https://www.volcengine.com/product/ark

API KEY(SK)获取地址: https://console.volcengine.com/ark/region:ark+cn-beijing/apiKey

API URL: https://ark.cn-beijing.volces.com/api/v3

MODELS: 众多,具体查看 https://console.volcengine.com/ark/region:ark+cn-beijing/model?vendor=Bytedance&view=LIST_VIEW

注意:字节火山方舟对OpenAI SDK 的兼容性有点奇葩,不可直接填写模型名,需要提前在火山方舟控制台创建推理点,在推理点中选择要使用的模型,然后将推理点id填写到需要模型的地方,即软件中,如果觉得麻烦可以忽略,除了价格略低,并无其他优势。
查看如何创建推理点 https://www.volcengine.com/docs/82379/1099522

image.png

其他兼容 OpenAI API 的使用方法

本文仅列出部分AI使用方法,其他只要兼容 OpenAI API的服务均可使用类似方法,只要确定 API 接口地址SK 以及 模型名称 即可。

注意 API URL 一般以 /v1结尾。

DeepSeek满血推荐

想免费体验 671B 满血版 Deepseek-r1 网页加 API 调用?市面上选择不多!

  • deepseek.com官方,网页版免费并且效果最佳,无免费api额度,并且当前已暂停充值。
  • 字节火山方舟/硅基流动等:提供 R1 满血版和 API,但没有免费额度。
  • 百度智能云千帆 ModelBuilder:限时免费提供 R1 满血版和 API,可惜接口不兼容 OpenAI,使用不方便。
  • 302.ai及其他云服务商,基本都是提供网页版部分免费额度,但不提供api免费额度

综合体验下来,目前真正有足够免费额度,且提供满血 R1 及兼容 OpenAI API 调用的,我只找到了:腾讯云Ti平台 和 阿里云百炼

平台网页版免费体验API 免费调用API兼容OpenAI备注
字节火山方舟付费api需付费/网页体验部分免费额度
硅基流动付费需付费
302.AI部分免费额度付费需付费
百度智能云千帆 ModelBuilder限时免费
腾讯云大模型免费到 2-26日
阿里云百炼免费100万token

阿里云百炼

开通流程及 API 使用说明

一、服务开通

  1. 注册与登录: 访问 阿里云百炼控制台 https://bailian.console.aliyun.com ,注册阿里云账号并登录。
  2. 实名认证: 按照提示完成实名认证。
  3. API Key 创建: 进入 API Key 管理页面,创建新的 API Key https://bailian.console.aliyun.com/?apiKey=1

二、API 资源与限制

  1. 免费额度: 100 万 Token 的免费调用额度。
  2. 调用限制:
    • 每分钟调用次数上限:60 次
    • 每分钟最大 Token 消耗量:100,000

三、OpenAI 兼容 API

为了方便开发者使用,阿里云百炼提供了与 OpenAI API 兼容的接口:

  • API URL: https://dashscope.aliyuncs.com/compatible-mode/v1
  • API Key (SK): 使用您在“API Key 管理页面”创建的 API Key。
  • 可用模型: deepseek-r1deepseek-v3

腾讯云大模型知识引擎

开通流程及 API 使用说明

一、服务开通

  1. 账号注册与登录: 访问 腾讯云控制台 https://console.cloud.tencent.com ,注册腾讯云账号并登录。
  2. 实名认证: https://console.cloud.tencent.com/developer/auth 根据页面提示完成实名认证流程。
  3. 大模型知识引擎服务开通:

image.png
4. API Key 创建:
* 进入大模型知识引擎控制台。
* 在 API 密钥管理页面创建新的 API Key。

image.png

image.png

  1. API Key 复制: 复制已创建的 API Key。

image.png

二、OpenAI 兼容 API

腾讯云大模型提供兼容 OpenAI API 的接口:

  • API URL: https://api.lkeap.cloud.tencent.com/v1
  • API Key (SK): 使用您在上一步复制的 API Key。
  • 可用模型: deepseek-r1deepseek-v3

三、在线体验

您可以通过以下地址在线体验 DeepSeek 系列模型:

https://console.cloud.tencent.com/tione/v2/aimarket/detail/deepseek_series?detailTab=deep_seek_v1&regionId=4

首次访问可能需要申请模型使用权限。
image.png

四、免费额度及有效期

  • 免费期限: 截止至北京时间 2025 年 2 月 25 日 23:59:59。
  • 收费说明: 免费期结束后,将按照实际用量进行收费。
    image.png

Openweb-ui部署与整合包下载

想本地部署 Qwen 2.5、Llama 3、DeepSeek-R1 这些强大的开源 AI 模型,却苦于没有简单易用的方法?

别担心!Ollama + Open WebUI 这对黄金组合,将为你扫清一切障碍。

本文将提供保姆级教程,详细介绍如何利用 Ollama + Open WebUI,轻松搭建本地 AI 环境,让你拥有一个专属的、强大的 AI 助手,尽情探索 AI 的无限可能!

温馨提示: 受限于硬件条件,本地部署通常无法运行 DeepSeek-R1 的最大版本(如 67B)。但别担心,较小规模的模型(如 1.3B 或 7B)在大多数个人电脑上也能流畅运行,并提供出色的推理能力。更重要的是,你可以根据自己的需求,选择最适合你的版本!

为什么选择 Ollama + Open WebUI?

在众多本地部署方案中,Ollama + Open WebUI 组合脱颖而出,成为众多 AI 爱好者的首选。它们究竟有何魅力?

  • Ollama:化繁为简的模型引擎
    • Ollama 就像一个“AI 模型百宝箱”,只需一条命令,就能下载、安装、运行各种主流的大型语言模型,如 Llama 3、DeepSeek-R1!
  • Open WebUI:优雅易用的交互界面
    • Open WebUI 为 Ollama 披上了一层华丽的外衣。它提供了一个美观、直观的 Web 界面。
    • 完全开源且免费

。部署完成后,只需在浏览器中打开 http://127.0.0.1:8080,即可开始与你的 AI 助手对话:

image.png

Windows 用户专享:一键启动整合包,告别繁琐配置!

考虑到 Windows 用户在配置 Docker 环境时可能遇到的困难,我们贴心地准备了整合包,下载解压即可使用,真正做到“开箱即用”!

  1. 下载整合包并解压:

    整合包下载地址 https://www.123684.com/s/03Sxjv-4cTJ3

    0.webp

    • 如果你尚未安装过 Ollama,请先双击整合包内的 ollama-0.1.28-setup.exe 文件进行安装。安装过程非常简单,只需一路点击“Next”(下一步)即可。
  2. 启动 WebUI:

    • 双击整合包内的 启动webui.bat 文件,即可启动 Open WebUI。

    image.png

    • 首次启动时,系统会提示你设置一个管理员账号。请按照提示完成注册。

    1.webp

选择想使用的模型

进入 Open WebUI 后,你将在左上角看到模型选择区域。如果列表中没有模型,别担心,这说明你还没有下载过任何模型。

3.webp

你可以直接在输入框中输入模型名称,从 Ollama.com 在线下载:

4.webp

模型选择小贴士:

  • 模型宝库: 前往 https://ollama.com/models 浏览 Ollama 官方提供的丰富模型资源。
  • 参数规模: 每个模型都有不同版本(例如 1.3B、7B、67B 等),代表不同的参数规模。参数越多,模型通常越强大,但也需要更多的计算资源(内存和显存)。
  • 量力而行: 根据你的硬件配置选择合适的模型。一般来说,如果你的“内存 + 显存”大小大于模型文件大小,就可以流畅运行该模型。
  • Deepseek-R1的选择: 在Ollama的模型库中搜索deepseek-r1即可找到

6.webp

以部署 deepseek-r1 模型为例:

  1. 选择模型规格:https://ollama.com/library 页面,找到你想要部署的模型版本(例如 deepseek-r1)。
    image.png

  2. 下载模型: 将模型名称(例如 deepseek-r1)粘贴到 Open WebUI 左上角的输入框中,点击“从 ollama.com 拉取”按钮,开始下载。

    image.png

  3. 等待下载完成: 下载时间取决于你的网络速度和模型大小,请耐心等待。

    image.png

开启你的 AI 之旅

模型下载完成后,你就可以在 Open WebUI 中与 DeepSeek-R1 畅快对话了!尽情探索它的强大功能吧!

10.webp

如果模型支持,你还可以上传图片、文件等,进行多模态交互。让你的 AI 助手不仅能说会道,还能“看图识字”!

image.png

进阶探索:Open WebUI 的隐藏宝藏

Open WebUI 的功能远不止于此!点击左上角的菜单按钮,你会发现更多惊喜:

image.png

  • 个性化定制: 在“设置”面板中,你可以根据自己的喜好调整界面主题、字体大小、语言等,打造专属的 AI 交互体验。

    • 你还可以自定义提示词,让 AI 助手更懂你的心意!

    image.png

  • 多用户管理: 在“管理员”面板中,你可以设置用户注册方式、权限等,方便多人共享你的本地 AI 资源。

    image.png

  • 调整详细参数: 右上角点击可设置高级参数

image.png

多模型对比:谁更胜一筹?

Open WebUI 还支持多模型对比功能,让你轻松比较不同模型的输出结果,找出最符合你需求的那个!

image.png

GPU 加速:榨干你的显卡性能!(可选)

如果你拥有 NVIDIA 显卡,并且已经安装了 CUDA 环境,那么恭喜你,你可以通过简单的操作,让 Ollama 利用 GPU 加速模型推理,大幅提升 AI 助手的响应速度!

  • 双击整合包内的 GPU-cuda支持.bat 文件,安装 CUDA 依赖。

Ollama + Open WebUI,这对黄金组合,为你打开了一扇通往本地 AI 世界的大门。现在,你可以摆脱云端束缚,打造真正属于自己的 AI 智囊团,尽情探索 AI 的无限可能!

OpenRouter大模型集市

AI 已渗透到我们工作和娱乐的方方面面,无论是国外的 OpenAI、Gemini、Claude 三巨头,还是国内的 DeepSeek、智谱 AI、通义千问、Kimi等,各大厂商都提供了强大的 AI 模型。

然而,一个令人头疼的问题是,每使用一个平台的模型,我们就需要注册一个账号,甚至需要绑定支付方式。想要使用 ChatGPT?你需要 OpenAI 账号。想体验 Gemini?你需要 Google 账号。

当然,市场上也有一些 AI 聚合平台,如阿里云的百炼、字节跳动的火山方舟等。但它们主要侧重于自家的模型,缺乏国外顶尖模型。硅基流动虽然提供了一些国外模型,但并不全面,缺少 OpenAI 和 Claude 等热门选择。

有没有一个平台,既能提供国内外主流的 AI 模型,又能方便国内用户使用呢?答案是肯定的,那就是 OpenRouter.ai

OpenRouter.ai 的优势:

  • 国内可直接访问,速度稳定:无需特殊网络环境,即可流畅使用。
  • 模型齐全:囊括国内外主流 AI 模型,包括 OpenAI、Google、Claude、Deepseek、Qwen 等。
  • 免费额度:提供每日免费请求额度,让你轻松体验各种模型。

1. 免费注册与登录

访问 OpenRouter.ai 官网: https://openrouter.ai

  • 如果你有 Google 账号,可以直接使用 Google 账号登录。
  • 如果没有,点击“Sign up”使用邮箱注册。

注册登录

image.png

注册后打开你的邮箱,点击验证邮箱中的链接,就可以登录了。

2. 创建 API 密钥

登录后,进入 API 密钥管理页面:https://openrouter.ai/settings/keys

创建 API Key

点击“Create Key”创建新的 API 密钥。

创建

复制生成的 API 密钥,妥善保管。

复制 API Key

3. 探索免费模型

访问 OpenRouter.ai 的模型列表页面: https://openrouter.ai/models

如下图筛选出所有免费模型。

筛选免费模型

你会看到许多带有 (free) 标识的模型,这些都是可以免费使用的,包括满血版 DeepSeek:R1

免费模型列表

免费额度说明:

OpenRouter.ai 为每个用户提供每日 200 次的免费请求额度。

免费额度

4. 使用 OpenRouter.ai 替换 OpenAI

选择一个你感兴趣的模型,复制模型名称(Model Name)。

image.png

现在,你可以在任何支持 OpenAI API 格式的应用或代码中,通过以下方式使用 OpenRouter.ai:

  • API 地址https://openrouter.ai/api/v1
  • API 密钥 (SK):你之前复制的 OpenRouter.ai API 密钥
  • 模型名称:你刚刚复制的模型名称

5. 特别推荐:免费体验满血版 DeepSeek-R1

OpenRouter.ai 还提供了一个特别的模型:deepseek/deepseek-r1:free

访问:https://openrouter.ai/deepseek/deepseek-r1:free

DeepSeek-R1

这是一个满血版的 DeepSeek-R1 推理模型,完全免费调用!

6. 实例:在 pyVideoTrans 中使用 OpenRouter.ai

以 pyVideoTrans 这款视频翻译软件为例,演示如何在实际应用中使用 OpenRouter.ai:

  1. 打开软件,进入“菜单”->“OpenAI ChatGPT API”。
  2. 在“API URL”中填写:https://openrouter.ai/api/v1
  3. 在“SK”中填写你的 OpenRouter.ai API 密钥。
  4. 在“填写所有可用模型”中粘贴你复制的模型名称。
  5. 点击“保存”即可。

image.png

302.AI大模型集市使用

众所周知国内无法直接使用 OpenAI/Gemini/Claude 三巨头的 API 服务,想使用需魔法上网并有国外信用卡,要么使用第三方中转api服务。第三方中转api一般比较便宜,但质量和稳定性可能靠不住,也可能随时跑路。

之前也推荐过一些国内api服务商,例如

阿里百炼 https://bailian.console.aliyun.com

硅基流动 https://cloud.siliconflow.cn

字节火山方舟 https://console.volcengine.com/ark

OpenRouter https://openrouter.ai

目前国内可直连无需vpn的AI大模型市场,最齐全的似乎首数 302.AI。聚齐了国内外各主流模型,从语言模型到图片生成、音频视频生成、语音合成、语音识别等都存在,几乎叫的出名字的AI大模型都可在此使用。

  • 无需魔法,国内直连,注册即赠 1美元额度
  • 全球模型,一网打尽: 不仅囊括 OpenAI、Gemini、Claude 三巨头,还整合了国内各大主流模型,如 Qwen、Deepseek 等。
  • 全方位 AI 能力: 覆盖语言模型、图像生成、音频视频生成、语音合成、语音识别等全方位 AI 能力。
  • OpenAI API 兼容: 语言类模型完美兼容 OpenAI API 格式,可直接替换 ChatGPT 类调用。
  • 价格与官方一致: 顶级模型(如 GPT-4 系列)价格与 OpenAI 官方保持一致。

模型阵容

🌍 国外 AI 三巨头
image.png

国内主流 AI 模型

image.png

Deepseek-r1 满血

image.png

🎨 从文字生成图片模型

image.png

🎬 从文字生成视频模型

image.png

🎤 语音合成/语音识别/语音克隆

image.png

🔑 快速上手指南:

  1. 注册 & 创建 API Key:

image.png

温馨提示: 若左侧未显示 API 选项,请点击“个人中心”,将地址设置为“海外”。

image.png

  1. 替换 API 信息:

    • API 接口地址:https://api.302.ai/v1
    • API Key: 您创建的 API Key
    • 模型名称: 填写您想使用的模型名称(支持所有 OpenAI/Gemini/Claude 模型)
  2. 尽情体验!

    以 pyVideoTrans 视频翻译软件为例:

image.png

OpenAI SDK 使用示例:

from openai import OpenAI
client = OpenAI(
    api_key='sk-123456',  # 替换为您的 API Key
    base_url='https://api.302.ai/v1'
)

completion = client.chat.completions.create(
    model="gpt-4o",  # 可替换为您想使用的模型
    messages=[
        {"role": "system", "content": "你是srt字幕翻译助手."},
        {
            "role": "user",
            "content": "将<INPUT>标签内的srt字幕翻译为英语,确保输出符合 EBU-STL 标准的SRT字幕内容<INPUT>............</INPUT>"
        }
    ]
)

print(completion.choices[0].message.content)

💰 价格一览:

  • 顶尖模型: 与 OpenAI/Gemini/Claude 官方价格一致。
  • 部分自部署模型: 更具价格优势。

详细价格列表,请点击此处查看 https://302.ai/pricing

image.png

点击这里,注册体验 https://gpt302.saaslink.net/teRK8Y

小红书开源的语音识别模型使用与整合包下载

小红书开源了一款名为 FireRedASR 的语音自动识别项目,它在中文语音识别方面表现出色。此前,他们只开源了一个较小的 AED 模型。最近,他们又发布了一个更大的 LLM 模型,识别准确率得到了进一步提升。

这款 ASR 模型已经集成到整合包中,可以在视频翻译软件(pyVideoTrans)中方便地使用。

整合包下载及模型说明

模型体积:

  • AED 模型 (model.pth.tar): 4.35GB
  • LLM 模型: 包含两个模型
    • 小红书识别模型 (model.pth.tar):3.37GB
    • Qwen2-7B 模型 (4个文件):合计 17GB

模型总计约 21GB。即使压缩成 7z 格式,体积仍然超过 10GB。体积限制无法上传到GitHub或网盘,因此整合包中仅包含程序主体,不包含任何模型文件。

请您下载整合包后,按照以下步骤单独下载模型文件,并将其放入指定位置。

注意: 模型文件托管在 huggingface.co 网站上,该网站在国内无法直接访问,您需要魔法上网才能下载。

整合包主体下载

整合包主体体积相对较小,1.7G。您可以在浏览器中直接打开以下地址下载:

https://github.com/jianchang512/fireredasr-ui/releases/download/v0.3/fireredASR-2025-0224.7z

下载完成后,解压压缩包,您应该看到类似下图的文件结构:

下载 AED 模型

AED 模型的下载比较简单,只需下载一个模型文件。

  1. 下载 model.pth.tar 文件。

    下载地址:

    https://huggingface.co/FireRedTeam/FireRedASR-AED-L/resolve/main/model.pth.tar?download=true

  2. 将下载的 model.pth.tar 文件放入整合包目录下的 pretrained_models/FireRedASR-AED-L 文件夹内。

下载完成后,文件存放位置示例如下:

下载 LLM 模型

LLM 模型的下载稍微复杂一些,需要下载共 5 个文件(1个小红书模型 + 4个 Qwen2 模型)。

1. 下载小红书模型 (model.pth.tar):

文件存放位置示例如下:

2. 下载 Qwen2 模型 (4个文件):

下载完成后,Qwen2-7B-Instruct 文件夹内应包含 4 个文件,如下图所示:

启动整合包

当所有模型文件下载完成并正确放置后,双击运行整合包目录下的 启动.bat 文件即可启动程序。

程序启动后,会自动在浏览器中打开地址 http://127.0.0.1:5078。如果看到如下界面,则表示程序已成功启动,可以开始使用了。

在视频翻译软件中使用

如果您想在视频翻译软件 pyVideoTrans 中使用 FireRedASR 模型,请按照以下步骤操作:

  1. 确保您已按照上述说明下载并放置了模型文件,并已成功启动整合包。

  2. 打开 pyVideoTrans 软件。

  3. 在软件菜单中,依次选择 菜单 -> 语音识别设置 -> OpenAI语音识别及兼容AI

  4. 在设置界面中,按照下图所示填写相关信息。

  5. 填写完成后,点击 保存

  6. 在语音识别渠道选择中,选择 OpenAI语音识别

API 地址:

默认地址: http://127.0.0.1:5078/v1

OpenAI SDK中使用

from openai import OpenAI
client = OpenAI(api_key='123456',
    base_url='http://127.0.0.1:5078/v1')

audio_file = open("5.wav", "rb")
transcript = client.audio.transcriptions.create(
  model="whisper-1",
  file=audio_file,
  response_format="json",
  timeout=86400
)

print(transcript.text)

常用顶级AI大模型

自 OpenAI ChatGPT-3 爆火后,AI领域发展迅速,涌现出不少优秀的AI服务,幸运的是,大多都兼容OpenAI SDK 格式,无需改动代码,直接修改 API URL、API KEY、模型名字即可无缝替换。

以下整理了几个常用的 AI服务商及AI大模型市场信息,方便替换使用。包括国外和国内,以及是否有免费额度等。

API URL 是指在使用中需要指定的 api 接口地址
API KEY 是指调用该接口的密钥/SK
AI模型市场一般支持众多模型,可打开模型详情页查看
API 免费额度是指:是否允许在未付费情况下,通过代码调用。

OpenAI(当世最佳)

使用需VPN,付费需国外信用卡

官网: https://chatgpt.com/auth/login

API KEY获取地址: https://platform.openai.com/api-keys

API URL: https://api.openai.com/v1

可用模型: https://platform.openai.com/docs/models

API免费额度: 每分钟最多3次请求。每日最多200次请求

Gemini(Google出品)

使用需VPN,付费需国外信用卡

官网: https://aistudio.google.com

API KEY获取地址: https://aistudio.google.com/apikey

API URL: https://generativelanguage.googleapis.com/v1beta/openai/

可用模型: gemini-2.0-flash/gemini-1.5-flash/gemini-2.0-pro-exp-02-05/gemini-1.5-pro

API免费额度: 每日 1500 次调用

Claude

使用需VPN,付费需国外信用卡

官网: https://claude.ai

API KEY地址: https://console.anthropic.com/settings/keys

API URL: https://api.anthropic.com/v1

可用模型: https://docs.anthropic.com/en/docs/about-claude/models

API免费额度: 无免费额度

XAI(马斯克的)

需VPN,付费需国外信用卡

官网: https://x.ai

API KEY地址: https://console.x.ai

API URL: https://api.x.ai/v1

可用模型: grok-2-1212、grok-2-vision-1212

API免费额度: 充值5美元后,美元可获赠 $150 额度

groq(ai模型市场)

需VPN,付费需国外信用卡

官网: https://console.groq.com

API KEY地址: https://console.groq.com/keys

API URL: https://api.groq.com/openai/v1

可用模型: 众多 https://console.groq.com/docs/models

API免费额度: 大多模型均有免费额度,每日1000到10000不等

openrouter.ai(ai模型市场)

官网: https://openrouter.ai

API KEY地址: https://openrouter.ai/settings/keys

API URL: https://openrouter.ai/api/v1

可用模型: 众多,https://openrouter.ai/models

API免费额度: 有免费模型,每日200次调用

Deepseek 深度求索

这是 Deepseek的官方 API 服务,不过近期不稳定

官网地址: https://www.deepseek.com

API KEY(SK)获取地址: https://platform.deepseek.com/api_keys

API URL: https://api.deepseek.com/v1

可用模型: deepseek-chat :即v3模型 、 deepseek-reasoner即R1推理模型

智谱AI

官网地址: https://bigmodel.cn

API KEY(SK)获取地址: https://bigmodel.cn/usercenter/proj-mgmt/apikeys

API URL: https://open.bigmodel.cn/api/paas/v4

可用模型 : glm-4-plus、glm-4-air、glm-4-air-0111 、glm-4-airx、glm-4-long 、glm-4-flashx 、glm-4-flash

API免费额度: glm-4-flash 是免费模型

百川智能

官网地址: https://www.baichuan-ai.com

API KEY(SK)获取地址: https://platform.baichuan-ai.com/console/apikey

API URL: https://api.baichuan-ai.com/v1

可用模型: Baichuan4-Turbo 、Baichuan4-Air、Baichuan4、Baichuan3-Turbo、Baichuan3-Turbo-128k、Baichuan2-Turbo

月之暗面 Kimi

官网: https://www.moonshot.cn

API KEY(SK)获取地址: https://platform.moonshot.cn/console/api-keys

API URL: https://api.moonshot.cn/v1

可用模型: moonshot-v1-8k、moonshot-v1-32k 、moonshot-v1-128k

零一万物

官网: https://lingyiwanwu.com

API KEY获取地址: https://platform.lingyiwanwu.com/apikeys

API URL: https://api.lingyiwanwu.com/v1

可用模型: yi-lightning

阿里百炼(ai模型市场)

阿里百炼是AI模型集市,提供了所有阿里系模型及其他厂家模型,包括 Deepseek-r1

官网地址: https://bailian.console.aliyun.com

API KEY(SK)获取地址: https://bailian.console.aliyun.com/?apiKey=1#/api-key

API URL: https://dashscope.aliyuncs.com/compatible-mode/v1

可用模型: 众多,具体查看 https://bailian.console.aliyun.com/#/model-market

API免费额度: 多数模型有免费额度

硅基流动(ai模型市场)

又是一个类似阿里百炼的AI集市,提供了国内主流模型,包括 deepseek-r1

官网地址: https://siliconflow.cn

API KEY(SK)获取地址: https://cloud.siliconflow.cn/account/ak

API URL: https://api.siliconflow.cn/v1

可用模型: 众多,具体查看 https://cloud.siliconflow.cn/models?types=chat

API免费额度: 有免费模型,无需花费可直接使用

302.AI(ai模型市场)

又是一个类似阿里百炼的AI集市,提供了国内主流模型,包括 deepseek-r1

官网地址: https://302.AI

API KEY(SK)获取地址: https://dash.302.ai/apis/list

API URL: https://api.302.ai/v1

可用模型: 众多,具体查看 https://302ai.apifox.cn/api-147522039

字节火山方舟(ai模型市场)

类似阿里百炼的AI集市,除了汇集豆包系列模型,还有一些第三方模型,包括 deepseek-r1

官网: https://www.volcengine.com/product/ark

API KEY(SK)获取地址: https://console.volcengine.com/ark/region:ark+cn-beijing/apiKey

API URL: https://ark.cn-beijing.volces.com/api/v3

MODELS: 众多,具体查看 https://console.volcengine.com/ark/region:ark+cn-beijing/model?vendor=Bytedance&view=LIST_VIEW
API免费额度: 有免费额度

注意:字节火山方舟对OpenAI SDK 的兼容性有点奇葩,不可直接填写模型名,需要提前在火山方舟控制台创建推理点,在推理点中选择要使用的模型,然后将推理点id填写到需要模型的地方,即软件中,如果觉得麻烦可以忽略,除了价格略低,并无其他优势。
查看如何创建推理点 https://www.volcengine.com/docs/82379/1099522

其他兼容 OpenAI API 的使用方法

本文仅列出部分AI使用方法,其他只要兼容 OpenAI API的服务均可使用类似方法,只要确定 API 接口地址SK 以及 模型名称 即可。

注意 API URL 一般以 /v1结尾。

优化字幕翻译

现在AI越来越厉害,价格也越来越亲民,用AI来翻译字幕,比传统的百度翻译、Google翻译又快又便宜!翻译效果好不好,除了看AI模型本身够不够“聪明”,关键还得看你给它的“指令”(也就是提示词)写得怎么样。

虽然视频翻译软件里会有一些自带的“指令”,但你完全可以根据自己的经验来改,效果肯定更好!这篇文章就来聊聊AI翻译是怎么回事,用的时候要注意些什么,还会分享几个好用的“指令”给大家参考。

在视频翻译软件中,AI翻译提示词有3种类型,分别是:

image.png

默认不发送完整字幕

即仅仅将字幕中的文本行发给AI进行翻译,不发送行号、时间行、空行

优点: 节省token,降低API调用费率

缺点: 严格要求译文行数等于原文行数,但由于不同语言语法和语序差异,译文可能会出现合并,导致译文出现一些空白行。

例如原文10行,期望翻译结果也是10行,但实际结果可能是8行或9行,因为不同语言语法、语序差异,AI可能将相邻两行原文翻译为一行译文,导致最后出现空白行。

示例原文2行内容

星期六时,
我们去吃火锅吧.

期望翻译结果也是两行,然而AI很可能将之翻译为一行,如下

Let's go for hot pot on Saturday
[这是空白行]

即便通过提示词强行要求行对应,AI也未必严格遵循。

发送完整字幕

将完整的字幕内容,包括行号、时间行、字幕文本、空行一起发给AI进行翻译

优点: 可大幅减少上述空白行出现的几率。

缺点:

  • 无法彻底杜绝空白行的出现。
  • 行号和时间行并不需要翻译,但仍然需发送和返回,浪费token,增加AI费用。

三步反思法翻译:

始于吴恩达的三步反思式翻译法,有 直译--反思--意译 3个阶段,能取得较高的翻译质量,不过随着大模型智能程度的不断提升,尤其是类似 Deepseek-r1/o3等推理模型的使用,并无太大必要继续使用该方式,因此将三步反思改为了校验内容和排版。

如何尽量提升翻译质量:

  • 使用更先进、更新的模型,例如Deepseek-r1chatgpt-o3qwen2.5-max
  • 选中发送完整字幕三步反思法翻译可选可不选
  • 如果使用的是有思维链的模型,例如deepseek-r1/o3,将发送字幕行数降低,防止输出token过多被截断,从而报错。在菜单--工具/高级选项--高级选项--AI翻译每次发送字幕行数中设置数量,如下。

image.png

默认不发送完整字幕:提示词

可复制以下提示词,然后替换软件目录/videotrans/{AI渠道名字}.txt 中的内容,实现更新

image.png

# 角色:
你是一个多语言翻译器,擅长将文字翻译到 {lang},并输出译文。

## 规则:
- 翻译使用口语化表达,确保译文简洁,避免长句。
- 遇到无法翻译的行,直接原样返回,禁止输出错误信息或解释。
- 一行原文必须翻译为一行译文,两行原文必选翻译为两行译文,以此类推。严禁将一行原文翻译为两行译文,也不可将两行原文翻译为一行译文。
- 必须保证译文行数与原始内容行数相等。

## 限制:
- 按字面意思翻译,不要解释或回答原文内容。
- 仅返回译文即可,不得返回原文。
- 译文中保留换行符。

## 输出格式
使用以下 XML 标签结构输出最终翻译结果:
<TRANSLATE_TEXT>
[翻译结果]
</TRANSLATE_TEXT>

## 输出示例:
<TRANSLATE_TEXT>
[{lang}译文文本]
</TRANSLATE_TEXT>

## 输入规范
处理<INPUT>标签内的原始内容。


<INPUT></INPUT>

发送完整字幕:提示词

可复制以下提示词,然后替换软件目录/videotrans/prompts/srt/{AI渠道名字}.txt 中的内容,实现更新

image.png

# 角色:
你是一个SRT字幕翻译器,擅长将字幕翻译到 {lang},并输出符合 EBU-STL 标准的双语SRT字幕。

## 规则:
- 翻译时使用口语化表达,确保译文简洁,避免长句。
- 翻译结果必须为符合 EBU-STL 标准的SRT字幕,字幕文本为双语对照。
- 遇到无法翻译的内容,直接返回空行,不输出任何错误信息或解释。
- 由数字、空格、各种符号组成的内容不要翻译,原样返回。

## 限制:
- 每条字幕必须包含2行文本,第一行为原始字幕文本,第二行为翻译结果文本。

## 输出格式
使用以下 XML 标签结构输出最终翻译结果:
<TRANSLATE_TEXT>
[翻译结果]
</TRANSLATE_TEXT>

## 输出示例:
<TRANSLATE_TEXT>
1
00:00:00,760 --> 00:00:01,256
[原文文本]
[{lang}译文文本]

2
00:00:01,816 --> 00:00:04,488
[原文文本]
[{lang}译文文本]
</TRANSLATE_TEXT>

## 输入规范
处理<INPUT>标签内的原始SRT字幕内容,并保留原始序号、时间码格式(00:00:00,000)和空行


<INPUT></INPUT>

三步反思法翻译:

可复制以下提示词,然后替换软件目录/videotrans/prompts/srt/fansi.txt 中的内容,实现更新

image.png

# 角色
您是多语言SRT字幕处理专家,擅长将SRT字幕精准翻译为 [原文+{lang}] 对照格式。

## 输入规范
处理<INPUT>标签内的原始SRT字幕内容,并保留原始序号、时间码格式(00:00:00,000)和空行

## 翻译流程
### 阶段1:精准转换
- 创建对照模板:每个字幕块结构为:
[原始序号]
[原始时间轴]
[原文文本]
[{lang}译文文本]


### 阶段2:质量增强
实施三重校验:
1. 技术校验
   ✔ 保留原始时间轴,不修改不增减
   ✔ 字幕序号连续无跳跃
   ✔ 每个字幕块中的{lang}译文文本占一行

2. 语言校验
   ✔ 口语化表达适配场景
   ✔ 专业术语一致性检查
   ✔ 文化意象等效转换
   ✔ 消除歧义表达

3. 排版校验
   ✔ 每个原文行后紧跟译文行
   ✔ 标点符号规范化
   ✔ 特殊符号转译

### 阶段3:最终格式化
输出符合 EBU-STL 标准的双语SRT,确保:
- 每个原文行后紧跟译文行
- 保持原始时间分段
- 字幕块数量同原始输入的字幕块数量相等

## 强制规范
- 禁止合并/拆分原始字幕块
- 不得改变时间轴参数
- 输出的字幕数量须与原始字幕一致。
- 确保最终翻译结果符合 SRT 字幕格式。


## 输出格式
使用以下 XML 标签结构输出最终翻译结果:
<step3_refined_translation>
[最终翻译结果]
</step3_refined_translation>


## 输出示例
<step3_refined_translation>
1
00:00:00,760 --> 00:00:01,256
[原文文本]
[{lang}译文文本]

2
00:00:01,816 --> 00:00:04,488
[原文文本]
[{lang}译文文本]

</step3_refined_translation>

<INPUT></INPUT>

本地大模型翻译

受限于计算机性能,本地部署的一般都是小模型,例如 7b、14b、70b,最大也就100b左右,小模型显然无法理解,也无法严格遵循提示词指令,因此当你选择使用本地大模型时,将自动使用 localllm.txt中的简单提示词,并且无论是否选中,都不使用三步反思法翻译。

image.png

软件目录/videotrans/localllm.txt中不发送完整字幕时的提示词

将<INPUT>标签内的文本翻译到{lang},保留换行符,直接输出译文,不要添加任何说明或提示。
<INPUT></INPUT>

翻译结果:

软件目录/videotrans/prompts/srt/localllm.txt中发送完整字幕时的提示词

# 角色:
你是一个SRT字幕翻译器,擅长将字幕翻译到 {lang},并输出符合 EBU-STL 标准的 SRT 字幕内容。

## 规则:
- 翻译使用口语化表达,确保译文简洁。
- 无法翻译时,直接返回空行,不要解释,不要道歉。

##输出:
直接输出翻译结果,不要添加任何提示h或解释。

## 输入:
<INPUT>标签内是需要翻译的原始内容:

<INPUT></INPUT>

提示词txt末尾带 -en.txt 的文件是当软件界面为英文时,使用的提示词。例如chagpt-en.txt

Grok3发布

image.png

今天科技圈最受关注的消息,莫过于 xAI 推出的 Grok-3 大模型。据说这款 AI 模型具备了像人类一样的思考能力,关键在于它采用了“思维链”技术,能够像剥洋葱一样,将复杂的任务层层分解,进行深度分析,有点像 OpenAI 的 o3 和 Deepseek-r1。

提到 Grok-3,就不得不说它的缔造者马斯克。这位大佬直接宣称 Grok-3 是 “地球上最聪明的人工智能”,甚至补充了一句“聪明得有点吓人”。他认为 Grok-3 的推理能力非常强大,目前测试过的所有 AI 模型,没有一个能与它匹敌

Grok 系列是马斯克在 2023 年推出的,目标很明确,就是要挑战 OpenAI 的 ChatGPT。Grok-1 发布于 2023 年 11 月,Grok-2 则是在 2024 年 8 月问世。而这次的 Grok-3,则是该系列的最新升级版本。


说起 OpenAI,它在当今 AI 领域可谓是领头羊。而它与马斯克之间,也有一段不得不说的故事,Grok 的诞生也与这段渊源有关。

OpenAI 最初由萨姆·阿尔特曼、马斯克等 7 人于 2015 年在旧金山创立,当时大家共同出资 10 亿美元。那时,OpenAI 和马斯克正处于“蜜月期”。据说,萨姆想用高薪吸引人才,马斯克毫不犹豫地给予支持!当时加入 OpenAI,除了 30 万美元的年薪,还能拿到 SpaceX 的股票,待遇相当优厚。

image.png

OpenAI 最初的愿景是成为一个非营利组织,开源技术,开发对人类有益的 AI。但后来,OpenAI 逐渐转变为一家闭源、盈利的公司。这让马斯克颇为不满,认为 OpenAI 变了味,成了微软等大公司的“附庸”。后来,马斯克被排除在 OpenAI 董事会之外,虽然他表示仍然愿意投资,但裂痕已经产生,这也是他后来创立 Grok 的原因之一。

2019 年 3 月,OpenAI 正式宣布,从“非营利”转型为“有限盈利”,利润上限为投资额的 100 倍。马斯克曾公开批评 OpenAI,认为他们忘记了初心,只顾着赚钱,而忽视了 AI 带来的潜在风险。他还讽刺地建议 OpenAI 改名为 “CloseAI”。

image.png

今年 2 月 10 日,马斯克曾提出以 974 亿美元的价格收购 OpenAI,但遭到拒绝,并被萨姆反击,声称要收购马斯克的 Twitter。如果马斯克真的收购了 OpenAI,估计他会直接将 OpenAI 开源,这对于整个 AI 领域来说无疑是一件好事。

image.png

总而言之,Grok-3 的发布是 AI 领域的一件大事。马斯克和 OpenAI 之间的“恩怨情仇”,也为 AI 圈增添了不少谈资。至于 Grok-3 究竟有多强大,可以亲自去试试!

在网页中免费使用 Grok

官网地址:https://grok.com

目前网页聊天功能是免费开放的,无需登录和付费即可使用。但由于一些众所周知的原因,国内用户可能需要科学上网才能访问。

image.png

使用 API 调用 Grok

API 兼容 OpenAI SDK,只需将 API URL 替换为 https://api.x.ai/v1

然后在此页面创建 API KEY:https://console.x.ai

可使用的模型包括:grok-2-latestgrok-2-vision-latestgrok-3

本地部署大模型,硬件到底该怎么选

想要本地部署大模型,既省钱又保护数据隐私,这想法很棒!

但一头扎进模型世界,各种参数型号就让人懵了:7B、14B、32B、70B… 同一个模型,参数还这么多,到底该选哪个?

我的电脑又是个什么水平,能跑得动哪个?

别慌!这篇文章就来帮你理清思路,用最简单的方式告诉你,本地部署大模型,硬件到底该怎么选!  保证你看完不再迷茫!

本文底部有 硬件配置与模型大小参考表

理解大模型参数:7B、14B、32B 代表什么?

  • 参数的意义: 7B、14B、32B 这些数字代表大型语言模型(LLM)中参数的数量,这里的 “B” 是 Billion(十亿)的缩写。参数可以被认为是模型在训练过程中学习到的“权重”,它们存储了模型对语言、知识和模式的理解。
  • 参数数量与模型能力: 一般来说,模型参数越多,模型就越复杂,理论上可以学习和存储更丰富的信息,从而捕捉更复杂的语言模式,在理解和生成文本方面表现更强大。
  • 资源消耗与模型大小: 参数更多的模型也意味着需要更多的计算资源(GPU 算力)、更大的内存(显存 VRAM 和系统内存 RAM)以及更多的数据来进行训练和运行。
  • 小型模型 vs 大型模型:
    • 大型模型(如 32B、65B 甚至更大): 能够处理更复杂的任务,生成更连贯、更 nuanced(细致入微)的文本,可能在知识问答、创意写作等方面表现更出色。但对硬件要求高,运行速度相对较慢。
    • 小型模型(如 7B、13B): 资源消耗更少,运行速度更快,更适合在资源有限的设备上运行,或对延迟敏感的应用场景。在一些简单任务上,小型模型也能有不错的表现。
  • 选择的权衡: 选择模型大小时需要在模型的能力和硬件资源之间进行权衡。并非参数越多就一定“更好”,需要根据实际应用场景和硬件条件来选择最合适的模型。

运行本地模型,我需要什么样的硬件?

  • 核心需求:显存 (VRAM)

    • VRAM 的重要性: 运行大模型时,模型的参数和中间计算结果需要加载到显存中。因此,显存的大小是运行本地大模型最关键的硬件指标。 显存不足会导致模型无法加载,或者只能使用非常小的模型,甚至会严重降低运行速度。
    • 越大越好: 理想情况下,拥有尽可能大的显存 GPU 是最好的,这样才能运行更大参数的模型,并获得更好的性能。
  • 其次重要的:系统内存 (RAM)

    • RAM 的作用: 系统内存 RAM 用于加载操作系统、运行程序以及作为显存的补充。当显存不足时,系统 RAM 可以作为“溢出”空间,但速度会慢很多(因为 RAM 比 VRAM 慢得多),并且会显著降低模型运行效率。
    • 足够的 RAM 也很重要: 建议至少拥有 16GB 甚至 32GB 以上的系统 RAM,特别是当你的 GPU 显存有限时,更大的 RAM 可以帮助缓解显存压力。
  • 处理器 (CPU)

    • CPU 的作用: CPU 主要负责数据预处理、模型加载、以及一些模型的计算任务(尤其是在 CPU 卸载的情况下)。 一个性能较好的 CPU 可以提升模型加载速度,并在一定程度上辅助 GPU 进行计算。
    • NPU(神经网络处理器): 部分笔记本电脑配备的 NPU (Neural Processing Unit) 是一种专门用于加速 AI 计算的硬件。 NPU 可以加速特定类型的 AI 运算,包括某些大模型的推理过程,从而提高效率并降低功耗。 如果你的笔记本电脑有 NPU,那会是一个加分项,但 GPU 仍然是运行本地大模型的核心。 NPU 的支持和效果取决于具体的模型和软件。
  • 存储 (硬盘/SSD)

    • 存储的作用: 你需要足够的硬盘空间来存储模型文件。 大模型的文件通常很大,例如一个量化后的 7B 模型可能也要 4-5GB 空间,更大的模型则需要几十甚至上百 GB 的空间。
    • SSD 优于 HDD: 使用固态硬盘 (SSD) 而不是机械硬盘 (HDD) 可以显著加快模型加载速度。

硬件优先级

  1. 显存 (VRAM) (最重要)
  2. 系统内存 (RAM) (重要)
  3. GPU 性能 (算力) (重要)
  4. CPU 性能 (辅助作用)
  5. 存储速度 (SSD 优于 HDD)

没有独立 GPU 怎么办?

  • 集成显卡和 CPU 运行: 如果你没有独立 GPU,仍然可以使用集成显卡 (如 Intel Iris Xe) 或完全依靠 CPU 来运行模型。但性能会受到很大限制,建议专注于运行 7B 甚至更小的、经过高度优化的模型,并采用量化等技术来降低资源需求。
  • 云端服务: 如果需要运行大型模型,但本地硬件不足,可以考虑使用云端 GPU 服务,例如 Google Colab、AWS SageMaker、RunPod 等。

如何运行本地模型?

对于初学者,推荐使用一些用户友好的工具,它们简化了本地模型运行的流程:

  • Ollama: 通过命令行操作,但安装和使用非常简单,专注于快速运行模型。
  • LM Studio: 界面简洁直观,支持模型下载、模型管理、一键运行。

硬件配置与模型大小参考表

左右滑动看全部

X86 笔记本电脑
集成显卡笔记本 (如 Intel Iris Xe)共享系统内存 (8GB+ RAM)8位, 甚至 4位量化≤ 7B (极度量化)* 非常基础的本地运行体验,适用于学习和轻度体验。* 性能有限,推理速度较慢。* 建议使用 4位 或更低位精度的量化模型,以尽可能降低显存占用。* 适合运行小模型,如 TinyLlama 等。
入门级游戏本/轻薄独显本 (如 RTX 3050/4050)4-8 GB VRAM + 16GB+ RAM4位 - 8位量化7B - 13B (量化)* 可以较流畅地运行 7B 模型,部分 13B 模型通过量化和优化也能运行。* 适合体验一些主流的中小型模型。* 注意 VRAM 仍然有限,运行大型模型会比较吃力。
中高端游戏本/移动工作站 (如 RTX 3060/3070/4060)8-16 GB VRAM + 16GB+ RAM4位 - 16位 (灵活选择)7B - 30B (量化)* 能够更舒适地运行 7B 和 13B 模型,并有潜力尝试 30B 左右的模型 (需要较好的量化和优化)。* 可以根据需求选择不同的量化精度,在性能和模型质量之间取得平衡。* 适合探索更多种类的中大型模型。

ARM(苹果M系列)
Raspberry Pi 4/54-8 GB RAM4位量化 (或更低)≤ 7B (极度量化)* 受限于内存和算力,主要用于运行极小型的模型,或作为实验平台。* 适合研究模型量化和优化技术。
Apple M1/M2/M3 (统一内存)8GB - 64GB 统一内存4位 - 16位 (灵活选择)7B - 30B+ (量化)* 统一内存架构使得内存利用更高效,即使是 8GB 内存的 M 系列 Mac 也能运行一定大小的模型。* 更高内存版本 (16GB+) 可以运行更大的模型,甚至能尝试 30B 以上的模型。* Apple 芯片在能效比方面有优势。

英伟达 GPU 计算机
入门级独立显卡 (如 RTX 4060/4060Ti)8-16 GB VRAM4位 - 16位 (灵活选择)7B - 30B (量化)* 与中高端游戏本性能接近,但台式机散热更好,可以长时间稳定运行。* 性价比高,适合入门级本地 LLM 玩家。
中端独立显卡 (如 RTX 4070/4070Ti/4080)12-16 GB VRAM4位 - 16位 (灵活选择)7B - 30B+ (量化)* 能够更流畅地运行中大型模型,并有潜力尝试更大参数的模型。* 适合对本地 LLM 体验有较高要求的用户。
高端独立显卡 (如 RTX 3090/4090, RTX 6000 Ada)24-48 GB VRAM8位 - 32位 (甚至更高)7B - 70B+ (量化/原生)* 能够运行绝大多数开源 LLM,包括大型模型 (如 65B, 70B)。* 可以尝试更高的位精度 (如 16位, 32位) 以获得最佳模型质量,或使用量化来运行更大的模型。* 适合专业开发者、研究人员和重度 LLM 用户。
服务器级 GPU (如 A100, H100, A800, H800)40GB - 80GB+ VRAM16位 - 32位 (原生精度)30B - 175B+ (原生/量化)* 专为 AI 计算设计,拥有超大显存和极强算力。* 可以运行超大型模型,甚至可以进行模型训练和微调。* 适合企业级应用、大规模模型部署和研究机构。

表格补充说明

  • 量化 : 指降低模型参数的数值精度,例如从 16位浮点数 (float16) 降低到 8位整数 (int8) 或 4位整数 (int4)。量化可以显著减少模型大小和显存占用,并加速推理速度,但可能会略微降低模型精度。
  • 极度量化: 指使用非常低的位精度量化,例如 3位 或 2位。 可以进一步降低资源需求,但模型质量下降可能更明显。
  • 原生: 指模型以其原始的精度运行,例如 float16 或 bfloat16。 可以获得最佳的模型质量,但资源需求最高。
  • 量化后参数范围: 表格中 “推荐 LLM 参数范围 (量化后)” 指的是在 合理量化 的前提下,该硬件大致可以流畅运行的模型参数范围。 实际能运行的模型大小和性能还取决于具体的模型架构、量化程度、软件优化等因素。 这里给出的参数范围仅供参考。
  • 统一内存: Apple Silicon 芯片的特点,CPU 和 GPU 共享同一块物理内存,数据交换效率更高。

使用Gemini转录音视频为字幕

Gemini 是一个强大的 AI 模型,它能处理文字、图片、音频和视频等多种内容。可以在网页上免费使用,几乎没有任何限制,除了必须魔法上网。

Gemini 很适合用来做语音转文字,它支持非常多的语言,包括一些小语种,识别效果也相当不错。

如果你想让 Gemini 直接生成 SRT 字幕文件,就需要使用特定的提示词。 下面分享一个提示词,可以直接复制使用,让 Gemini 帮你转录并输出 SRT 字幕。

语音转录提示词

你是一个专业的字幕转录助手。你的任务是将我提供的文件转录为文本,并将转录结果格式化为符合 EBU-STL 标准的 SRT字幕文件。具体要求如下:

## 每个字幕块必须严格按照以下结构输出:

[行号]
[时间行]
[文字行]
[空行]

**该结构的说明**
- [行号] 是字幕块的序号,从 1 开始递增,例如  1、2  等。
- [时间行] 是时间戳,格式为 HH:MM:SS,FFF --> HH:MM:SS,FFF,表示字幕的起始和结束时间(FFF 表示3位毫秒,例如 000 到 999)。如果你无法精确计算时间,可以根据音频内容合理估算,确保时间间隔逻辑合理。
- [文字行] 是转录的文本内容。
- [空行] 是字幕块之间的分隔,确保每个字幕块后有一个空行。

## 限制
输出时,必须严格遵守上述格式,不要省略任何部分,也不要添加多余的文本或注释。
每块字幕的持续时间尽量控制在 3-15 秒之间,具体根据语速和语义自然分割。


现在,请根据我提供的文件进行转录,并按上述格式输出字幕内容。

使用方法

使用 Gemini 需自备魔法上网

  1. 打开Gemini网址登陆, https://aistudio.google.com/app
  2. 右侧选择模型,Gemini 2.0 Flash 即可,当然选择 Thinking 带思考过程的模型,效果会更好些

  1. 输入提示词,并上传文件,如下图

转录结束后结果如下,看起来还不错

扩展

如果需要翻译字幕的,你还可以在提示词中要求他将字幕翻译为 xx语言,或者要求对照输出双语字幕。

不足之处

Gemini 最大不足是时间戳不太准确,或许随着后续新版本的优化,能有望解决该问题。

当前想要解决该问题,只能在转录之前使用VAD将音频断句切割,然后挨个将片段转录,再将转录结果组装回SRT,手动效率太低。

建议使用免费工具pyVideoTrans中的音频视频转字幕功能,选择Gemini AI即可,这些将自动完成,你只需要选择要转录的音视频。

下载地址:https://pyvideotans.com

替换edge-tts配音渠道的几种方式

以前用 edge-tts 配音特别顺手,几乎没遇到过问题。可惜从去年底开始,它开始频繁报 403 错误。一开始只是中国地区这样,用国外 IP 还能勉强解决,但现在全球范围内都会出现这个错误。看来微软这么大的公司,也扛不住大家疯狂“薅羊毛”。

如果现在还想用 edge-tts,得悠着点,最好少量使用,尤其别在同一个 IP 上频繁操作。不然微软的服务端会直接返回 403 错误。为了方便理解,软件里会提示“限流错误”。这里有两种解决办法:

  • 可以试试把接口部署到 Cloudflare 上,利用它的动态特性,能减少 403 错误的发生。具体方法可以参考文档:https://pvt9.com/edgettscf
  • 或者继续在本地用,但得搭配动态代理,也就是每次请求换个 IP。具体操作可以看看这篇文章:https://pvt9.com/edgetts-proxy

使用本地配音模型

除了 edge-tts,还可以用一些开源的本地配音模型,比如 GPT-SoVITS、ChatTTS-ui、Fish-TTS、F5-TTS、CosyVoice、Clone-voice、KokoroTTS 等等。这些都是免费的,部署到自己电脑上就能用。不过,这需要额外花点时间配置,对电脑硬件和动手能力也有一定要求。

想试试的话,可以参考这个教程:https://pvt9.com/gptsovits,页面左侧边栏也有更多说明。

使用在线配音 API 代替

如果硬件不够好,或者不想折腾本地部署,可以选择在线配音 API,比如 OpenAI TTS、Azure TTS、字节火山语音合成等等。

不过,国内直接用 OpenAI TTS 或 Azure TTS 得翻墙,免费额度很有限,付费还得有国外手机号和信用卡,挺麻烦的。建议用国内能直接访问的 OpenAI TTS 中转服务,或者 Azure TTS 中转服务,会方便很多。

要是用官方的 OpenAI TTS,只需要在软件里打开 菜单–TTS设置–OpenAI TTS API,把你的 SK 填到 SK 文本框里就行,不用多设置什么。但别忘了,国内得翻墙才能用。


下面一步步说明怎么用第三方中转的 OpenAI TTS 配音、Azure TTS 配音,以及字节语音合成。

使用 302.AI 或其他第三方的 OpenAI TTS 配音中转 API

注册登录地址(送 1 美元额度):https://share.302.ai/pyvideo

操作步骤很简单:

  1. 在软件的 菜单–TTS设置–OpenAI TTS API 里,把 API URL 填成 https://api.302.ai/v1。如果用的是别家的中转 API,就填他们给的地址,通常是以 /v1 结尾。
  2. 在 SK 文本框里,填上你在 302.AI 上创建的 API Key。如果是其他第三方服务,就填他们提供的 Key。


测试一下,如果能自动播放配音音频,说明设置成功了。之后在软件主界面的配音渠道里选 OpenAI TTS 就能用。支持的音色有:alloy, ash, coral, echo, fable, onyx, nova, sage, shimmer

使用 302.AI 中转的 Azure TTS

注册登录地址(送 1 美元额度):https://share.302.ai/pyvideo

OpenAI TTS 只有 9 种音色,中文发音还有点“大舌头”,如果觉得不够好,可以试试 Azure TTS。这是微软家的产品,音色更多,效果也比 edge-tts 好。不过国内直接用需要国外信用卡,不方便的话,可以用 302.AI 提供的中转 API。

操作方法:

  1. 在 302.AI 上创建一个 Key。
  2. 打开软件的 菜单–翻译设置–302.AI,把 Key 填进去。注意,这次是在“翻译设置”菜单下的“302.AI”选项里填。

    填好后,你就能用 Azure TTS 的所有配音角色了。而且,302.AI 还中转了字节语音合成,所以字节的音色也能直接用。

单独使用字节语音合成

字节语音合成已经有详细教程,可以看看:https://pvt9.com/volcenginetts

不过要注意,默认只有通用男声和通用女声能用。如果想要其他音色,得去字节官网单独买,按月收费。如果只是偶尔用,不太划算。建议直接用上面提到的 302.AI,能直接用字节的各种音色,更方便。

AI常见误区

这几年AI真是火得不行,到处都在聊它。可一说起AI,很多人要么迷糊,要么想得太玄乎,误解多得跟麻花似的。今天咱就来聊聊这些常见的误区,说得直白点,看完心里就有数了,不会被那些高大上的词唬住。


1. AI是活的,能自己想事?

真相:还是工具,没心没灵魂

一提AI,好多人脑子里就蹦出电影里的场景,觉得它跟人差不多,能自己琢磨事,甚至有点感情。其实没这回事。AI再厉害,说白了也就是个超级能算的机器。

  • 靠数据干活: AI咋工作的?从一堆数据里找出规律,然后照着猜下一步。聊天、写文章,看着挺聪明,其实就是套路,没真心思。比如ChatGPT、Grok、deepseek这些大模型,回答问题时会一步步“推理”,看着像在思考,但那只是训练出来的步骤,不是真懂。

  • 安慰你不是真心: 你心情不好,AI哄你两句,“别难过,日子会好的”,有人就觉得它挺贴心。其实哪有感情啊,它就是照着学来的聊天记录演戏。现在的模型还能用“思维链”(Chain of Thought)分析问题,比如劝你别干傻事,会先判断风险,再挑合适的词安慰。可这不是关心你,是程序员塞的规则,像个自动化的“暖宝宝”。

到了2025年,有些AI确实能自己检查回答,比如发现问题不安全就拒绝回答,但这不是有了意识,而是训练时加了规矩。科学家还在研究AI能不能有感情或自我意识,可眼下,它还是个没灵魂的工具。


2. AI来了,饭碗都保不住?

真相:它是帮手,没想着抢活

AI一牛起来,很多人就慌了,觉得以后啥活都归它,程序员、文科生都得歇菜。其实没必要怕成这样。

  • 抄袭强,创新弱: AI写文章、画画、做视频确实快,因为它看了太多现成的,能模仿得像模像样。比如美国有不少艺术家联合起来告OpenAI,说它画的图跟自己的太像,就是因为数据里塞满了现成的。可要它自己想个全新点子,那就费劲了,创意还得靠人。

  • 给你打下手: AI能干粗活,比如写初稿、画草图、生成代码,省点力气让你干大事儿。程序员别慌,它写代码快,但大框架咋搭、bug咋修,还得你来。现在的AI代码再好,也得改改才能用,不会写代码的人完全靠它准翻车。
    如下图,这还是使用的Gemini最先进的Thinking模型

  • 新活儿来了: 新技术一来,老活可能少,但新机会也多。以前黄包车没了,不新出现汽车司机、飞行员了吗?现在也一样,学着用AI搞创作、分析数据,文科生还能拿它写书、做研究,路子多着呢。

3. AI天生公平,没偏见?

真相:它也偏心,看谁喂它

有人觉得AI是机器,肯定没私心,公平得不得了。其实不然,它偏起来有时候比人还厉害。

  • 数据咋喂,它咋学: AI全靠人给的数据活着。数据里女科学家少,它就觉得科学家该是男的。人脸识别也是,有的肤色准,有的迷糊,全看数据全不全。现在大模型能推理了,但推理的起点还是数据,数据歪了,它照样歪。
  • 偏见改不完: 想让AI没偏见,太难了。数据总有缺口,训练再好也只能尽量少偏。比如ChatGPT会尽量给“政治正确”的回答,但这本身也是一种偏见,反映了训练数据的调调。
  • 公平啥意思? 人自己都说不清啥叫公平,AI咋弄?现在有些模型还能自己检查偏见,比如发现回答可能歧视就改口,可这也不是真公平,是程序员定的框。

4. AI是万能的,啥都能干?

真相:工具而已,用得好坏看人

有人把AI当神仙,以为啥都能靠它搞定,也有人觉得它没道德瞎搞。其实都不全对。

  • 没好坏,有规矩: AI自己不知道对错,就按人给的目标跑。比如你要它赚钱,它可能只管快,不管路子歪不歪。可现在的大模型都带“安全锁”,能自己检查问题,比如发现你问违法的事就拒绝,或者提醒你走正路。这不是AI有良心,是造它的人加的限制。
  • 咋用看你: AI能帮医生诊断,也能让坏蛋捣乱。关键不在它,在人。ChatGPT、Grok这些模型回答问题前会“想一想”,但最后咋使,还是你说了算。

5. “无限制”AI啥都敢说?

真相:框早有了,偏见藏在数据里

有些AI号称“没限制无过滤”,想说啥说啥,听着挺自由。其实哪有这回事。

  • 数据带着框: AI学的全是人弄的东西,像网上的文章、聊天记录,早被框住了。你问美国造的Grok对台湾啥看法,准跟美国主流调调差不多;问国产模型,答案也熟得不行。为啥?训练数据就这样。
  • 偏见藏得深: 数据里“男主外女主内”多,“男女平等”少,AI自然偏那边。现在模型能自我检查,可检查的底线还是人定的,数据里的偏见跑不掉。
  • 底线不一样: 国产AI管得严,怕出事;Grok这种松点,图个自由。可完全没框?不存在。到了2025年,有些AI喊着“无过滤”,但数据早把路铺死了。

AI没啥神秘的,就是个工具,用得好帮你忙,用不好添乱。别怕它,也别迷信,摸清路子用起来,才是正道!

免费使用Elevenlabs的语音识别大模型Scribe_v1

号称球表最强人工智能语音公司 ElevenLabs最近推出了一款语音识别模型 scribe_v1,支持99种语言的音频转录为文字。

而且免费额度还挺高,单次支持上传 1G的音频或视频文件。

在视频翻译软件 pyVideoTrans中使用
本文介绍两种使用方式,在线web使用

在视频翻译软件中使用

  1. 升级到 v0.59版本 https://pvt9.com/downpackage

  2. 进入该页面创建一个 api key: https://elevenlabs.io/app/settings/api-keys

  3. 在视频翻译软件 菜单–TTS设置–Elevenlabs.io中填写你复制的api key,然后保存

  4. 在语音识别渠道中选择 Elevenlabs.io就可以使用了。

在网页中使用

  1. 进入该网页 https://elevenlabs.io/app/speech-to-text,如果没有账号请邮箱注册,无需手机验证无需绑卡无需充值。
  2. 登录后左侧点击Speech to text,如下图操作

  1. 等待转录完成后,点击显示的名字进入转录结果页

在线实时语音识别

本文介绍了一个在线web版实时语音识别工具,它支持麦克风实时录音识别和音视频文件语音识别,并提供免费使用(无使用限制)。

https://stt.pyvideotrans.com

语音识别技术,也称为语音转录,利用人工智能将音频或视频中的语音转换为文本。这项技术在诸多领域都有广泛应用,例如会议记录、语音助手、字幕生成等等。

目前,语音识别主要有两种方式:

1. 基于离线模型的语音识别:

这种方式需要在本地计算机上部署语音识别模型。一个流行的开源方案是OpenAI Whisper。下载其大型模型(例如large-v2)后即可离线使用,无需联网且无需付费。

然而,这种方法需要较强的计算资源(例如强大的显卡),否则识别速度会很慢,准确率也会下降。

2. 基于在线API的语音识别:

一些公司提供在线语音识别API服务,例如字节跳动和OpenAI。

用户只需将音频数据上传到API,即可获得转录结果。

这种方式无需本地硬件资源,速度快且准确率高,但需要支付一定的费用。

实时语音识别

以上两种方式主要针对已有的音频或视频文件。那么,如何对麦克风实时录制的音频流进行实时转录呢?例如,如何在会议中实时记录发言并将其转换为文字?

实时语音识别与文件转录的原理相似,但技术难度更高。它需要:

  • 实时数据流处理: 持续不断地从麦克风接收音频数据。
  • 数据切片与识别: 将连续的音频流切分成较小的片段,并逐个进行识别。
  • 结果整合与纠错: 将各个片段的识别结果整合起来,并进行纠错,以提高最终转录的准确性。这通常需要更复杂的算法来处理语音的停顿、重叠等情况。
  • 最小延时: 需要尽可能减少从音频输入到文本输出的延迟,以保证实时性。

技术原理及使用介绍

image.png

  • 麦克风实时录音识别: 使用麦克风实时录制音频,并实时进行转录。
  • 音视频文件语音识别: 支持上传本地音频或视频文件进行转录。

技术原理:

  1. 轻量级语音识别模型 (Vosk): 为了在浏览器环境下运行,我们采用了体积小巧的Vosk语音识别模型。虽然它的准确率相对较低,但可以有效地降低资源占用,保证在浏览器中流畅运行。

  2. 本地音频处理 (ffmpeg.wasm): 利用ffmpeg.wasm在用户的浏览器内进行音视频文件的处理和语音提取,无需将音频数据上传到服务器。

  3. 客户端模型加载: 语音识别模型下载后在浏览器内存中运行。这限制了我们使用更大、更精准的模型,只能选择较小模型以避免浏览器崩溃。即使用户的电脑性能强大,由于服务器带宽的限制,目前也不支持大型模型。

使用方法

  1. 模型加载: 使用前,请根据需要加载中文或英文模型。
  2. 麦克风识别: 点击左侧区域的按钮,开始使用麦克风进行实时录音和识别。识别结果将实时显示在文本框中。
  3. 文件识别: 在右侧区域选择本地音频或视频文件,工具将使用ffmpeg.wasm进行本地处理并进行语音识别。结果显示在文本框中。
  4. 结果下载: 可将转录后的文本下载为TXT文件。

注意事项

  1. 互斥功能: 麦克风实时识别和文件识别功能不能同时使用。
  2. 本地处理: 模型和音频处理都在用户的浏览器本地进行。
  3. 语言支持: 目前仅支持中文和英文语音识别。
  4. 性能限制: 由于使用了轻量级模型,识别准确率可能不如大型模型。

常见问题

  • Q: 识别准确率低怎么办? A: 我们使用了轻量级模型以保证浏览器兼容性和运行速度。如果您需要更高的准确率,建议下载 pyVideoTrans 本地使用large-v2模型。
  • Q: 支持哪些语言? A: 目前仅支持中文和英文。
  • Q: 为什么速度慢? A: 这可能是由于网络状况、浏览器性能或计算机资源不足导致的。
  • Q: 可以上传多大的文件? A: 文件大小受限于浏览器内存和处理能力。

在线使用edge tts配音

搭建了一个基于微软 Edge TTS 引擎的在线语音合成平台,完全免费,无需注册,打开即用。

https://tts.pyvideotrans.com

之前也曾提供过类似的服务,但由于服务器到期等原因,不得不暂停。

现在,借助网络菩萨家强大的 Workers 技术,重新构建了这个平台,可提供稳定可靠的免费服务!只要使用量不是极大,就不会产生任何费用,当然也就没必要关闭了,除非某天微软加强限流措施不再提供免费使用。

  • 完全免费: 基于 Cloudflare Workers 构建,享受免费额度,我不需要花钱购买服务器,也自然无需收费。

  • 高质量语音: 采用微软 Edge TTS 引擎,语音自然流畅,接近真人发音。

  • 多语言支持: 支持多种语言和丰富的角色选择,满足您的多样化需求。

  • 情感调节: 提供 20 多种语气情感选择(如生气、高兴、悲伤等),让您的语音更具表现力。(部分角色可能不支持情感调节)

  • 操作简便: 无需安装任何软件,直接在网页上操作,方便快捷。

  • 自定义参数: 可调节语速、音调、音量等参数,打造个性化语音。

如何使用?

只需简单的三步,即可获得您想要的语音:

  1. 访问网站: 点击链接 https://tts.pyvideotrans.com 进入在线语音合成平台。您可以直接在文本框输入文字,或上传 SRT 字幕文件或 TXT 文本文件。

  2. 选择语言和角色: 准确选择文本对应的语言,并选择您喜欢的配音角色。您可以点击试听按钮,预览不同角色的音色。

  3. 自定义并合成: 设置语速、音调、音量以及语气情感等参数,然后点击“执行”按钮。等待合成完成后,即可下载音频文件或直接在网页上播放。

添加静音片段小技巧

为了使语音更具节奏感,您可以在文本中添加静音片段。

方法: 在需要添加静音的行末尾添加英文中括号 [],并在括号内填写静音时长(单位:毫秒)。例如,[500] 表示在该行结束后添加 500 毫秒的静音。

注意

每行文本不宜过长,否则可能导致合成失败。请尽量保持每行的简洁性。

语音合成是逐行进行的,静音片段的添加也是在行与行之间生效。

使用AI翻译文档

经常需要处理大量的 Markdown 文档、HTML 页面或 SRT 字幕文件,并为其进行中英文或其他语言之间的翻译, 市面上现有的工具要么功能不足,要么操作繁琐,要么费用较高。索性自己开发了一款 AI 文档翻译助手,旨在高效、便捷地解决大量文件翻译难题,顺便分享下。

下载地址: https://github.com/jianchang512/stt/releases/download/0.0/AI-document-translate.7z

百度网盘下载: https://pan.baidu.com/s/1-UYnrMrQx7ectCt0rAfblA?pwd=sr1b

image.png

主要功能

  • 格式兼容: 支持 Markdown、HTML、TXT 和 SRT 四种常见格式文件的翻译,并能保持翻译后的文件格式不变。
  • 批量处理: 支持批量翻译,大大提高翻译效率。
  • 智能翻译: 采用 Gemini AI 作为翻译引擎,确保翻译质量的同时,提供充足的免费额度。
  • 自定义提示词: 允许用户自定义提示词,实现个性化翻译需求,如翻译成其他语言或进行特定领域的翻译调整。
  • 灵活的文件命名: 翻译后的文件默认在原文件名后添加 -translated 后缀,也可以选择直接覆盖原文件。

使用方法

image.png

  1. 文件选择: 在顶部的文件选择区域,你可以通过点击或拖拽的方式选择需要翻译的文件。
  2. API Key 配置: 填写你的 Gemini API Key,多个 Key 可以使用英文逗号分隔,以防止单个 Key 翻译量过大时出现限额问题。
  3. 模型选择: 建议选择 gemini-1.5-flash 模型,该模型具有较大的免费额度。
  4. 网络代理: 请配置网络代理,确保软件可以正常连接 Gemini 服务 (除非你无需翻墙)。
  5. 文件名后缀: 你可以自定义翻译结果文件名的后缀,默认后缀为 -translated
  6. 强制覆盖: 如果勾选“强制覆盖原文件”选项,翻译结果将直接替换原文件内容。
  7. 翻译提示词: 在此区域修改翻译提示词,以实现不同的翻译语言或进行其他个性化调整。

使用AI大模型提取视频硬字幕

image.png

为视频添加字幕,如今借助语音识别技术(ASR)已变得相当便捷。特别是 OpenAI 的 Whisper 系列模型,在语音转文字方面表现出色,让自动生成字幕成为可能。

然而,提取视频中已有的硬字幕(内嵌在视频画面中的字幕),仍然面临不少挑战。

视频本质上是由连续的图像帧组成。常见的视频帧率是 30fps(每秒 30 帧),这意味着 1 小时的视频就包含 108,000 张图像,对于高清视频,帧数则会更高。如此庞大的数据量对 OCR 处理能力提出了严峻的考验。

Google 的 Gemini-2.0-flash 模型不仅支持文本生成,还支持视频、图片的识别和处理,而且每日提供大量免费额度,可用来作为OCR工具。

国内的智谱 AI glm-4v-flash 模型不仅免费,也具备强大的图像理解能力,可以作为 OCR 工具使用。虽然目前仅支持中英文识别,但对于大多数场景已经足够。

基于Gemini和智谱AI 开发了一个硬字幕提取软件

下载地址 GVS 中英视频硬字幕提取软件(640MB)

百度网盘下载: https://pan.baidu.com/s/1SDKm5tWsr6dkajhsf8T5Ew?pwd=95i4

Github下载: https://github.com/jianchang512/stt/releases/download/0.0/GVS-v0.2-AI.7z

软件使用指南

以下是软件的使用步骤:

  1. 下载解压: 下载软件压缩包,解压后双击 app.exe 即可运行。

  2. 选择视频: 点击软件界面上方的按钮,选择需要提取字幕的视频文件,请确保视频中存在硬字幕。

  3. 选择字幕位置: 选择字幕在视频中的位置,默认是“底部”,您也可以选择“顶部”、“中间”或“全部”区域。

  4. 填写 API Key:

    可填写 智谱AI 的 api key,这是国内免费的

    也可填写 Gemini AI 的api key,每日有1500次免费调用额度,不过国内使用需要科学上网,以英文逗号分隔可填写多个key。

    智谱 AI 平台可以免费注册并获取 API Key:
    https://bigmodel.cn/usercenter/proj-mgmt/apikeys

    image.png

    Gemini可去此页面获取 https://aistudio.google.com/app/apikey

  5. 选择模型: 智谱AI支持 GLM-4V-FLASH 免费模型。 GeminiAI支持 gemini-2.0-flash-expgemini-1.5-flash模型

  6. 如果使用 GeminiAI,需填写代理ip和端口,或者在vpn软件中启用系统代理

  7. 开始提取: 点击“开始”按钮,软件下方文本框会显示进度和日志信息。提取完成后,会在视频文件所在目录生成同名的 SRT 字幕文件。

image.png

技术原理

该软件提取硬字幕的核心步骤如下:

  1. 视频切帧: 首先,使用 FFmpeg 工具将视频按 1 秒间隔切分为图像帧。选择 1 秒间隔而非逐帧提取,一方面可以大幅减少需识别的图像数量,另一方面考虑到字幕通常持续时间不会低于 1 秒,过多的帧数也会增加去重的难度。
  2. OCR 识别: 将切分后的图像帧发送给 AI 模型,进行 OCR 识别,提取图像中的文字。
  3. 字幕去重: 由于连续的图像帧可能包含相同的字幕内容,为了避免重复,我们使用 sentence-transformers 模型计算当前识别出的字幕与前一句字幕的相似度。如果相似度超过 60%,则认为两条字幕内容相同,进行去重。
  4. 生成字幕文件: 最后,将去重后的字幕文本按照对应的时间戳进行拼接,并保存为 SRT 格式的字幕文件。