vadnetPreprocess

预处理音频语音活动检测(VAD)网络

自从R2023a

所有的页面崩溃

语法

特点= vadnetPreprocess (audioIn fs)

描述

例子

特性= vadnetPreprocess (audioIn,fs)返回梅尔声谱图的音频输入,您可以返回的提要pretrained网络vadnet。

例子

全部折叠

与Pretrained VAD检测语音模型

这个示例使用:

打开生活的脚本

读入一个音频信号,其中包含语音和音乐和听声音。

[audioIn, fs] = audioread (“MusicAndSpeech-16-mono-14secs.ogg”);声音(audioIn fs)

使用vadnetPreprocess音频通过计算梅尔谱图进行预处理。

特点= vadnetPreprocess (audioIn, fs);

调用vadnet获得pretrained VAD神经网络。

网= vadnet;

通过预处理音频通过网络获得演讲在每一帧的概率。

聚合氯化铝=预测(净、特点);

使用vadnetPosprocess后处理网络输出和确定演讲的边界地区的信号。

投资回报率= vadnetPostprocess (audioIn、fs、聚合氯化铝)

投资回报率=2×21 63120 83600 150000

情节的音频检测到演讲的地区。

vadnetPostprocess (audioIn fs,聚合氯化铝)

图包含一个坐标轴对象。坐标轴对象与标题发现演讲,包含时间(s), ylabel振幅包含8线类型的对象,constantline补丁。

使用和监督神经网络流媒体音频

这个示例使用:

打开生活的脚本

创建一个dsp.AudioFileReader对象播放一个音频文件进行处理。设置SamplesPerFrame属性读100 ms不重叠的块的信号。

误判率= dsp.AudioFileReader (“MaleVolumeUp-16-mono-6secs.ogg”);analysisDuration = 0.1;%秒误判率。SamplesPerFrame =地板(analysisDuration * afr.SampleRate);

的vadnet架构不调用之间保留状态和最好执行在分析更大量的音频信号。当你使用vadnet在流的情况下,特定的应用程序需求的准确性,计算效率和延迟决定,分析时间和是否重叠分析块。

创建一个timescope反对阴谋言论音频信号和相应的概率。创建一个audioDeviceWriter播放音频流。

范围= timescope (NumInputPorts = 2,…SampleRate = afr.SampleRate,…TimeSpanSource =“财产”时间间隔= 5,…YLimits = [-1.2, 1.2],…ShowLegend = true, ChannelNames = (“音频”,“语音概率”]);adw = audioDeviceWriter (afr.SampleRate);

调用vadnet获得pretrained VAD神经网络。

网= vadnet ();

流循环:

从音频文件读取女士在100年的一块。
使用音频预处理到梅尔声谱图vadnetPreprocess。
使用VAD网络言论的概率预测每一帧的光谱图。复制的概率中每个样本对应的音频信号。
画出音频信号和言论的概率。
播放的音频设备的作家。

跳= 0.01 * afr.SampleRate;而~结束(误判率)audioIn =误判率();特点= vadnetPreprocess (audioIn afr.SampleRate);聚合氯化铝=预测(净、特点);%复制聚合氯化铝在audioIn对应样本聚合氯化铝= repelem(聚合氯化铝,跳)';聚合氯化铝,聚合氯化铝((hop / 2) + 1: end-hop / 2);范围(audioIn,聚合氯化铝)adw (audioIn);结束

输入参数

全部折叠

`audioIn`- - - - - -音频输入
列向量

音频输入信号,指定为一个列向量(单通道)。

数据类型:单|双

`fs`- - - - - -采样率(赫兹)
积极的标量

采样率在赫兹,指定为一个积极的标量。

数据类型:单|双

输出参数

全部折叠

`特性`——梅尔光谱图
40×-T矩阵

梅尔·声谱图,作为一个40×——返回T矩阵,T的光谱谱图。

算法

的vadnetPreprocess使用以下步骤函数进行预处理的音频数据。

重新取样16 khz的声音。
计算为中心的短时傅里叶变换)使用25 ms周期性的汉明窗和10 ms跳长度。垫的信号,这样第一个窗口集中在0。
把STFT功率谱图。
应用与40个乐队获得梅尔梅尔滤波器组谱图。
梅尔·声谱图转换为对数尺度。
标准化的梅尔·乐队零均值和标准偏差为1。

vadnetPreprocess

语法

描述

例子

与Pretrained VAD检测语音模型

使用和监督神经网络流媒体音频

输入参数

`audioIn`- - - - - -音频输入
列向量

`fs`- - - - - -采样率(赫兹)
积极的标量

输出参数

`特性`——梅尔光谱图
40×-T矩阵

算法

版本历史

另请参阅

功能

对象

块

主题

vadnetPreprocess

语法

描述

例子

与Pretrained VAD检测语音模型

使用和监督神经网络流媒体音频

输入参数

audioIn- - - - - -音频输入列向量

fs- - - - - -采样率(赫兹)积极的标量

输出参数

特性——梅尔光谱图40×-T矩阵

算法

版本历史

另请参阅

功能

对象

块

主题

`audioIn`- - - - - -音频输入
列向量

`fs`- - - - - -采样率(赫兹)
积极的标量

`特性`——梅尔光谱图
40×-T矩阵