主要内容

深音高估计量

估计绉深学习神经网络

自从R2023a

库:
音频工具箱/深度学习

描述

深音高估计量块使用绉pretrained神经网络估计球场从音频信号。块结合必要的音频预处理,网络推理和后处理的网络输出返回球场估计在赫兹。这一块需要深度学习工具箱™。

例子

全部展开

这个例子展示了如何使用深音高估计块估计模型的音频信号的音高®。万博1manbetx看到估计使用绉块使用的一个例子绉预处理,,绉后处理块来执行相同的任务。

加快调整块参数计算和实时看到音高估计音频播放。

  • 设置重叠的百分比(%)参数50。重叠比例较低,音高估计块计算和输出的频率更低。

  • 设置缓冲距估计的数量参数5。为这个参数高值允许块提高计算效率并行操作多个音频帧。然而,更高的价值也会增加延迟因为批次的块返回音高估计,而不是一次一个。

  • 设置模型的能力参数。这个模型比全尺寸模型参数较少,导致更快的计算精度略低的成本。

运行模型听歌声并查看实时估计。

港口

输入

全部展开

音频输入,指定为一个一个频道的信号(向量)。如果输入信号的采样率(Hz)是16 e3,没有任何限制输入帧长度。如果输入信号的采样率(Hz)不同于16 e3,然后输入帧长度必须大量毁灭的多个因素的重采样操作块执行。如果输入框长度不满足这个条件,阻止生成一个错误消息与信息大量毁灭的因素。

数据类型:|

输出

全部展开

在赫兹基本频率估计,作为一个返回N1的向量,N规定是音高估计的数量吗缓冲距估计的数量

数据类型:

参数

全部展开

输入信号的采样率Hz,指定为一个积极的标量。

指定重叠之间的比例连续输入帧作为标量范围在[0,100)。

输出的音高估计数量,指定为一个正整数。

更高的值允许块提高计算效率并行操作多个音频帧。然而,这也会增加延迟,因为块缓冲区指定数量的音高估计之前返回。

信心阈值,指定为一个标量范围在[0,1)。在后处理中,块抑制基本频率的网络信心低于阈值。

请注意

如果网络输出的最大值小于阈值的信心,块的回报

模型能力,指定为完整的,,媒介,,或。较小的大小对应于模型中的参数较少,导致更快的计算但精度较低。

块特征

数据类型

|

直接引线

没有

多维信号

没有

适应信号

没有

讨论二阶导数过零检测

没有

引用

[1]Kim Jong钟旭,贾斯汀班子,彼得·李和胡安-帕布鲁贝罗。“绉:卷积表示音高估计。“在2018年IEEE国际会议音响、演讲和信号处理(ICASSP),161 - 65。卡尔加里,阿瑟:IEEE 2018。https://doi.org/10.1109/ICASSP.2018.8461329。

扩展功能

版本历史

介绍了R2023a