主要内容

vadnetPostprocess

后处理框架和监督概率

自从R2023a

    描述

    例子

    roi= vadnetPostprocess (audioIn,fs,聚合氯化铝)后处理演讲概率输出的语音活动检测(VAD)网络和回报指数对应的起始和结束演讲中的音频信号。

    例子

    投资回报率= vadnetPostprocess (___,名称=值)使用一个或多个名称参数指定选项。例如,vadnetPostprocess (fs, audioIn MergeThreshold = 0.5)合并演讲区域由0.5秒或更少。

    例子

    vadnetPostprocess (___)没有输出参数块输入信号和探测到演讲的地方。

    例子

    全部折叠

    读入一个音频信号,其中包含语音和音乐和听声音。

    [audioIn, fs] = audioread (“MusicAndSpeech-16-mono-14secs.ogg”);声音(audioIn fs)

    使用vadnetPreprocess音频通过计算梅尔谱图进行预处理。

    特点= vadnetPreprocess (audioIn, fs);

    调用vadnet获得pretrained VAD神经网络。

    网= vadnet;

    通过预处理音频通过网络获得演讲在每一帧的概率。

    聚合氯化铝=预测(净、特点);

    使用vadnetPosprocess后处理网络输出和确定演讲的边界地区的信号。

    投资回报率= vadnetPostprocess (audioIn、fs、聚合氯化铝)
    投资回报率=2×21 63120 83600 150000

    情节的音频检测到演讲的地区。

    vadnetPostprocess (audioIn fs,聚合氯化铝)

    图包含一个坐标轴对象。坐标轴对象与标题发现演讲,包含时间(s), ylabel振幅包含8线类型的对象,constantline补丁。

    读入一个音频信号,其中包含语音和音乐和听声音。

    [audioIn, fs] = audioread (“MusicAndSpeech-16-mono-14secs.ogg”);声音(audioIn fs)

    预处理pretrained音频和通过vadnet模型。

    特点= vadnetPreprocess (audioIn, fs);网= vadnet;聚合氯化铝=预测(净、特点);

    调用vadnetPostprocess与合并阈值设置为1合并发现演讲区域隔开1秒或更少。

    vadnetPostprocess (audioIn fs,聚合氯化铝,MergeThreshold = 1)

    图包含一个坐标轴对象。坐标轴对象与标题发现演讲,包含时间(s), ylabel振幅包含8线类型的对象,constantline补丁。

    输入参数

    全部折叠

    音频输入信号,指定为一个列向量(单通道)。

    数据类型:|

    采样率在赫兹,指定为一个积极的标量。

    数据类型:|

    每个音频帧的言论和监督概率,指定为一个向量。这些概率的输出vadnet模型。

    数据类型:|

    名称-值参数

    指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

    R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

    例子:vadnetPostprocess (audioIn fs,聚合氯化铝,ApplyEnergyVAD = true)

    合并阈值在几秒钟内,指定为负的标量。函数合并演讲区域隔开时间小于或等于指定的阈值。设置阈值不要合并任何检测区域。

    数据类型:||int8|int16|int32|int64|uint8|uint16|uint32|uint64

    长度阈值在几秒钟内,指定为负的标量。函数不返回演讲地区持续时间小于或等于指定的阈值。

    数据类型:||int8|int16|int32|int64|uint8|uint16|uint32|uint64

    概率阈值开始段的一次演讲中,指定为一个标量在区间[0,1]。

    数据类型:|

    结束段的一次演讲中,概率阈值指定为一个标量范围[0,1]。

    数据类型:|

    应用能源VAD演讲地区检测到神经网络,指定为真正的

    数据类型:逻辑

    输出参数

    全部折叠

    演讲地区,作为一个返回N2矩阵指数的输入信号,N是个别演讲地区发现的数量。第一列包含的索引开始演讲,第二列包含索引的一个区域的终结。

    算法

    vadnetPostprocess函数后处理和监督网络的输出使用以下步骤。

    1. 应用的激活和解除激活阈值后验概率来确定候选人演讲区域。

    2. 可选,应用能源和监督来完善检测到演讲的地区。

    3. 合并演讲区域根据合并阈值接近对方。

    4. 删除演讲区域长度短于或等于阈值。

    版本历史

    介绍了R2023a