声纹识别(VPR) ,生物识别技术的一种,也称为说话人识别 ,是从说话人发出的语音信号中提取声纹信息,从应用上看,可分为:
- 说话人辨认(Speaker Identification):用以判断某段语音是若干人中的哪一个所说的,是“多选一”问题;
- 说话人确认(Speaker Verification):用以确认某段语音是否是指定的某个人所说的,是“一对一判别”问题。
本文主要是识别两个声音是否为同一个人。
应用场景:APP声纹验证登录、坐席辅助助手登录后坐席是否为原坐席、客户进行业务申请时验证是否为客户本人。
使用Titanet-L模型,不需要训练,即可以直接针对中文/英文声音进行识别验证。
1、环境安装
pip install -U nemo_toolkit[all] ASR-metrics fastapi python-multipart uvicorn -i https://pypi.tuna.tsinghua.edu.cn/simple
2、接口代码:
from fastapi import FastAPI, Request, File, UploadFile, Form
from fastapi.responses import HTMLResponse
from transformers import AutoTokenizer, AutoModel
import uvicorn, json, datetime
import torch
from fastapi.middleware.co