20240115如何在线识别俄语字幕?

20240115如何在线识别俄语字幕?
2024/1/15 21:25


百度搜索:俄罗斯语 音频 在线识别 字幕
Bilibili:俄语AI字幕识别

音视频转文字 字幕小工具V1.2

BING:音视频转文字 字幕小工具V1.2


https://www.bilibili.com/video/BV1d34y1F7qA
https://www.bilibili.com/video/BV1d34y1F7qA/?p=4&vd_source=4a6b675fa22dfa306da59f67b1f22616
音|视频转文字|字幕小工具V1.2,新增whisper-large-V3模型,支持100多种语言,自动翻译,解压即用!

万能君的软件库
主要分享自己做的一些有意思的原创工具,工具追求解压即用,希望对您有所帮助

解压即用的音|视频转文字|字幕小工具下载地址,关注 & 私信我:字幕,即可获取。
解压即用的音|视频转文字|字幕小工具下载地址,关注 & 私信我:字幕,即可获取。
软件制作不易,不用三连,有个免费的赞就行!!!!


音视频转文字字幕小工具V1.2下载
win10、win11
(1)夸克网盘链接:https://pan.quark.cn/s/82b36b6adfa7提取码:JsyQ
(2)百度网盘链接:https://pan.baidu.com/s/1UOV0orx6GhgMfoyETcNe0g?pwd=9p2x

开发不易,有条件的可以点击软件里的打赏按钮进行打赏O(∩_∩)O


https://github.com/openai/whisper
Whisper
[Blog] [Paper] [Model card] [Colab example]

Whisper is a general-purpose speech recognition model. It is trained on a large dataset of diverse audio and is also a multitasking model that can perform multilingual speech recognition, speech translation, and language identification.

Approach
Approach

A Transformer sequence-to-sequence model is trained on various speech processing tasks, including multilingual speech recognition, speech translation, spoken language identification, and voice activity detection. These tasks are jointly represented as a sequence of tokens to be predicted by the decoder, allowing a single model to replace many stages of a traditional speech-processing pipeline. The multitask training format uses a set of special tokens that serve as task specifiers or classification targets.

Setup
We used Python 3.9.9 and PyTorch 1.10.1 to train and test our models, but the codebase is expected to be compatible with Python 3.8-3.11 and recent PyTorch versions. The codebase also depends on a few Python packages, most notably OpenAI's tiktoken for their fast tokenizer implementation. You can download and install (or update to) the latest release of Whisper with the following command:

pip install -U openai-whisper
Alternatively, the following command will pull and install the latest commit from this repository, along with its Python dependencies:

pip install git+https://github.com/openai/whisper.git 
To update the package to the latest version of this repository, please run:

pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git
It also requires the command-line tool ffmpeg to be installed on your system, which is available from most package managers:

# on Ubuntu or Debian
sudo apt update && sudo apt install ffmpeg

# on Arch Linux
sudo pacman -S ffmpeg

# on MacOS using Homebrew (https://brew.sh/)
brew install ffmpeg

# on Windows using Chocolatey (https://chocolatey.org/)
choco install ffmpeg

# on Windows using Scoop (https://scoop.sh/)
scoop install ffmpeg
You may need rust installed as well, in case tiktoken does not provide a pre-built wheel for your platform. If you see installation errors during the pip install command above, please follow the Getting started page to install Rust development environment. Additionally, you may need to configure the PATH environment variable, e.g. export PATH="$HOME/.cargo/bin:$PATH". If the installation fails with No module named 'setuptools_rust', you need to install setuptools_rust, e.g. by running:

pip install setuptools-rust
Available models and languages
There are five model sizes, four with English-only versions, offering speed and accuracy tradeoffs. Below are the names of the available models and their approximate memory requirements and inference speed relative to the large model; actual speed may vary depending on many factors including the available hardware.

Size    Parameters    English-only model    Multilingual model    Required VRAM    Relative speed
tiny    39 M    tiny.en    tiny    ~1 GB    ~32x
base    74 M    base.en    base    ~1 GB    ~16x
small    244 M    small.en    small    ~2 GB    ~6x
medium    769 M    medium.en    medium    ~5 GB    ~2x
large    1550 M    N/A    large    ~10 GB    1x
The .en models for English-only applications tend to perform better, especially for the tiny.en and base.en models. We observed that the difference becomes less significant for the small.en and medium.en models.

Whisper's performance varies widely depending on the language. The figure below shows a performance breakdown of large-v3 and large-v2 models by language, using WERs (word error rates) or CER (character error rates, shown in Italic) evaluated on the Common Voice 15 and Fleurs datasets. Additional WER/CER metrics corresponding to the other models and datasets can be found in Appendix D.1, D.2, and D.4 of the paper, as well as the BLEU (Bilingual Evaluation Understudy) scores for translation in Appendix D.3.

WER breakdown by language

Command-line usage
The following command will transcribe speech in audio files, using the medium model:

whisper audio.flac audio.mp3 audio.wav --model medium
The default setting (which selects the small model) works well for transcribing English. To transcribe an audio file containing non-English speech, you can specify the language using the --language option:

whisper japanese.wav --language Japanese
Adding --task translate will translate the speech into English:

whisper japanese.wav --language Japanese --task translate
Run the following to view all available options:

whisper --help
See tokenizer.py for the list of all available languages.

Python usage
Transcription can also be performed within Python:

import whisper

model = whisper.load_model("base")
result = model.transcribe("audio.mp3")
print(result["text"])
Internally, the transcribe() method reads the entire file and processes the audio with a sliding 30-second window, performing autoregressive sequence-to-sequence predictions on each window.

Below is an example usage of whisper.detect_language() and whisper.decode() which provide lower-level access to the model.

import whisper

model = whisper.load_model("base")

# load audio and pad/trim it to fit 30 seconds
audio = whisper.load_audio("audio.mp3")
audio = whisper.pad_or_trim(audio)

# make log-Mel spectrogram and move to the same device as the model
mel = whisper.log_mel_spectrogram(audio).to(model.device)

# detect the spoken language
_, probs = model.detect_language(mel)
print(f"Detected language: {max(probs, key=probs.get)}")

# decode the audio
options = whisper.DecodingOptions()
result = whisper.decode(model, mel, options)

# print the recognized text
print(result.text)
More examples
Please use the 🙌 Show and tell category in Discussions for sharing more example usages of Whisper and third-party extensions such as web demos, integrations with other tools, ports for different platforms, etc.

License
Whisper's code and model weights are released under the MIT License. See LICENSE for further details.


百度搜索:whisper ubuntu
https://blog.csdn.net/huiguo_/article/details/133382558
ubuntu使用whisper和funASR-语者分离-二值化


https://blog.csdn.net/yangyi139926/article/details/135110390
ubuntu16.04安装语音识别whisper及whisper-ctranslate2工具(填坑篇)


https://zhuanlan.zhihu.com/p/664661510
基于arm架构图为智盒(T906G)ubuntu20.04搭建open-ai Whisper并实现语音转文字


https://www.ncnynl.com/archives/202310/6051.html
ROS2与语音交互教程-利用whisper实现ros2下发布语音转文字话题


参考资料:
https://www.bilibili.com/video/BV14C4y1F7YM
https://www.bilibili.com/video/BV14C4y1F7YM/?spm_id_from=333.337.search-card.all.click&vd_source=4a6b675fa22dfa306da59f67b1f22616
音频视频转换字幕,支持100多种语言识别与翻译,支持离线

这款音频视频转字幕工具支持100多种语言识别与翻译,翻译识别的语言支持英语、日语、韩语、德语、俄语等等,支持纯离线运行。
这款音频视频转字幕工具基于openAI的whisper的衍生项目faster whisper而做的,操作简单,转换完成后,输出目录会生成srt和TXT的字幕格式文本。


https://www.bilibili.com/video/BV1WR4y1e7Fh/?spm_id_from=333.337.search-card.all.click&vd_source=4a6b675fa22dfa306da59f67b1f22616
沙拉俄语·字幕插件如何在手机和电脑上使用?
俄语 音频 识别


https://www.bilibili.com/read/cv17827622/
俄语学习:俄语音视频转文字(vlc player +字幕专家)


【收费】
https://gglot.com/zh/russian-subtitles/
俄语字幕
准确的俄语字幕,轻松在线生成


【免费的工具额外收费了!】
https://www.98dw.com/102.html
https://www.bilibili.com/read/cv28458016/?jump_opus=1
音视频转字幕小工具V1.2,支持上百种语言,翻译神器

基于openAI的whisper的衍生项目faster whisper做成,支持100多种语言识别与翻译。
软件纯离线运行

1、软件的界面很简单,操作步骤也说的很清楚了:
2、转换完成后,输出目录会有srt字幕格式和txt纯文本格式。
3、测试一些视频语音翻译的字幕效果截图
翻译识别语言涉及到了日语、英语、韩语、俄语、德语等。 


 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/625884.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

<Linux> 进程间通信

目录 前言: 一、进程间通信 (一)进程间通信目的 (二)进程通信的要求 (三)进程间通信分类 二、管道 (一)什么是管道 (二)基本原理 &#…

会声会影2024什么时间发布呢?会声会影2024会有那些新功能

近年来,随着科技的不断进步,各种软件的功能越来越强大,其中最为常用的莫过于视频编辑软件。而会声会影作为一款颇受欢迎的视频编辑软件,备受用户关注。那么,会声会影2024什么时间发布呢? 首先,我…

Java 使用 EasyExcel 爬取数据

一、爬取数据的基本思路 分析要爬取数据的来源 1. 查找数据来源:浏览器按 F12 或右键单击“检查”打开开发者工具查看数据获取时的请求地址 2. 查看接口信息:复制请求地址直接到浏览器地址栏输入看能不能取到数据 3. 推荐安装插件:FeHelper&a…

搭建知识付费小程序平台:如何避免被坑,选择最佳方案?

随着知识经济的兴起,知识付费已经成为一种趋势。越来越多的人开始将自己的知识和技能进行变现,而知识付费小程序平台则成为了一个重要的渠道。然而,市面上的知识付费小程序平台琳琅满目,其中不乏一些不良平台,让老实人…

高可用架构去中心化重要?

1 背景 在互联网高可用架构设计中,应该避免将所有的控制权都集中到一个中心服务,即便这个中心服务是多副本模式。 对某个中心服务(组件)的过渡强依赖,那等同于把命脉掌握在依赖方手里,依赖方的任何问题都可…

个性化定制的知识付费小程序,为用户提供个性化的知识服务

明理信息科技知识付费saas租户平台 随着知识经济的兴起,越来越多的人开始重视知识付费,并希望通过打造自己的知识付费平台来实现自己的知识变现。本文将介绍如何打造自己的知识付费平台,并从定位、内容制作、渠道推广、运营维护四个方面进行…

如何保证Kafka不丢失消息

丢失消息有 3 种不同的情况,针对每一种情况有不同的解决方案。 生产者丢失消息的情况消费者丢失消息的情况Kafka 弄丢了消息 生产者丢失消息的情况 生产者(Producer) 调用send方法发送消息之后,消息可能因为网络问题并没有发送过去。所以,我们…

@Controller层自定义注解拦截request请求校验

一、背景 笔者工作中遇到一个需求,需要开发一个注解,放在controller层的类或者方法上,用以校验请求参数中(不管是url还是body体内,都要检查,有token参数,且符合校验规则就放行)是否传了一个token的参数&am…

从车联网到智慧城市:智慧交通的革新之路

一、引言 1、智慧城市的概念和发展背景 智慧城市(Smart City)是指以信息技术为基础,运用信息与通信等手段,对城市各个核心系统各项关键数据进行感测、分析、整合和利用,实现对城市生活环境的感知、资源的调控&#x…

Linux下的HTTPS配置:从证书到安全连接

在当今的互联网环境中,数据传输的安全性越来越受到重视。HTTPS,作为HTTP的安全版本,通过使用SSL/TLS协议来加密数据传输,确保了数据在传输过程中的安全。在Linux环境下,配置HTTPS需要从证书的生成到服务器的配置进行一…

用 YAML 文件配置 CI/CD 管道

MSBuild 参数: 在使用 MSBuild 命令行生成打包项目(就像在 Visual Studio 中使用向导生成项目一样)之前,生成过程可以通过编辑 Package.appxmanifest 文件中 Package 元素的 Version 属性,来对生成的 MSIX 包进行版本控制。 在 Azure Pipelines 中,可以使用某个表达式来…

内网yum仓库 ftp;http方式

ftp方式 服务端 客户端 vim /etc/yum.repos.d/ftp.repo http方式 服务端 yum install httpd -y systemctl start httpd cd /var/www/html/ mkdir centos7 mount /dev/sr0 /var/www/html/centos7 客户端

pip与pip3的区别

pip 和 pip3 都是 Python 的包管理工具,用于安装第三方库。它们的区别在于: pip 是 Python 2 和 Python 3 通用的包管理工具,它可以安装适用于 Python 2 和 Python 3 的库。pip3 是专门用于 Python 3 的包管理工具,它只能安装适用…

CAN-位填充

位填充定义(Bit Stuffing) 当CAN节点发送 逻辑电平(显性dominant或隐性recessive)为持续相同的5位时,它必须添加一位反向电平。 CAN接收 节点会自动删除这个新增的额外电平位。 位填充作用 1---位填充是为了防止突发…

【2024-01-15】某安居客验证码分析-滑块验证码

声明:该专栏涉及的所有案例均为学习使用,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关!如有侵权,请私信联系本人删帖! 文章目录 一、抓包分析二、参数分析1.请求getInfoTp2.校验checkInfoTp一、抓包分析 网址: aHR0cHM6Ly9hcGkuYW5qdWtlLmNvbS93ZWI…

任务15:使用Hive进行全国气象数据分析

任务描述 知识点: 使用Hive进行数据分析 重 点: 掌握Hive基本语句熟练使用Hive对天气数据进行分析 内 容: 使用Hive创建外部表使用Hive对数据进行统计分析 任务指导 1. 使用Hive创建基础表 将China_stn_city.csv文件上传到HDFS的/…

统计学之常见的分布介绍

统计学中常见的分布有: 1. 正态分布(Normal Distribution):也称为高斯分布,是最常见的分布之一,具有钟形曲线,对称且均值和标准差可以完全描述该分布。 2. 二项分布(Binomial Dist…

Unity3D学习之数据持久化——PlayerPrefs

文章目录 1. 概念2. 存储2.1 存到内存当中2.2 存到硬盘当中2.3 局限性2.4 相同键会覆盖 3.读取3.1 int型3.2 float型3.3 string型3.4 判断数据是否存在 4. 删除数据5. 存储位置6. 反射6.1 判断一个类型的对象是否可以让另一个类型为自己分配空间6.2 通过反射获得泛型类型 7 数据…

斯坦福 Stats60:21 世纪的统计学:第十五章到第十八章

第十五章:比较均值 原文:statsthinking21.github.io/statsthinking21-core-site/comparing-means.html 译者:飞龙 协议:CC BY-NC-SA 4.0 我们已经遇到了许多情况,我们想要询问样本均值的问题。在本章中,我们…

Keepalived 双机热备

本章主要内容: Keepalived 双机热备基础知识学会构建双机热备系统学会构建LVSHA 高可用群集 简介 在这个高度信息化的IT时代,企业的生产系统,业务运营,销售和支持,以及日常管理等环节越来越依赖于计算机和服务&#…