深音高估计量

估计绉深学习神经网络

自从R2023a

扩展所有的页面

库:
音频工具箱/深度学习

描述

的深音高估计量块使用绉pretrained神经网络估计球场从音频信号。块结合必要的音频预处理,网络推理和后处理的网络输出返回球场估计在赫兹。这一块需要深度学习工具箱™。

例子

全部展开

估计使用深音高估计块

开放模式

这个例子展示了如何使用深音高估计块估计模型的音频信号的音高®。万博1manbetx看到估计使用绉块使用的一个例子绉预处理,绉,绉后处理块来执行相同的任务。

加快调整块参数计算和实时看到音高估计音频播放。

设置重叠的百分比(%)参数50。重叠比例较低,音高估计块计算和输出的频率更低。
设置缓冲距估计的数量参数5。为这个参数高值允许块提高计算效率并行操作多个音频帧。然而,更高的价值也会增加延迟因为批次的块返回音高估计,而不是一次一个。
设置模型的能力参数大。这个模型比全尺寸模型参数较少,导致更快的计算精度略低的成本。

运行模型听歌声并查看实时估计。

港口

输入

全部展开

Port_1- - - - - -音频输入
向量

音频输入,指定为一个一个频道的信号(向量)。如果输入信号的采样率(Hz)是16 e3,没有任何限制输入帧长度。如果输入信号的采样率(Hz)不同于16 e3,然后输入帧长度必须大量毁灭的多个因素的重采样操作块执行。如果输入框长度不满足这个条件,阻止生成一个错误消息与信息大量毁灭的因素。

数据类型:单|双

输出

全部展开

Port_1- - - - - -基本频率估计
列向量

在赫兹基本频率估计,作为一个返回N1的向量,N规定是音高估计的数量吗缓冲距估计的数量。

数据类型:单

参数

全部展开

输入信号的采样率(Hz)- - - - - -输入信号的采样率赫兹
`16 e3`(默认)|积极的标量

输入信号的采样率Hz,指定为一个积极的标量。

重叠的百分比(%)- - - - - -连续帧之间的重叠部分
`85年`(默认)| [0,100)

指定重叠之间的比例连续输入帧作为标量范围在[0,100)。

缓冲距估计的数量- - - - - -的音高估计输出
`1`(默认)|正整数

输出的音高估计数量,指定为一个正整数。

更高的值允许块提高计算效率并行操作多个音频帧。然而,这也会增加延迟,因为块缓冲区指定数量的音高估计之前返回。

信心阈值- - - - - -距信心阈值
`0.5`(默认)|标量范围在[0,1)

信心阈值,指定为一个标量范围在[0,1)。在后处理中,块抑制基本频率的网络信心低于阈值。

请注意

如果网络输出的最大值小于阈值的信心,块的回报南。

模型的能力- - - - - -训练神经网络的大小
`完整的`(默认)|`大`|`媒介`|`小`|`小`

模型能力,指定为完整的,大,媒介,小,或小。较小的大小对应于模型中的参数较少,导致更快的计算但精度较低。

块特征

数据类型	`双`\|`单`
直接引线	`没有`
多维信号	`没有`
适应信号	`没有`
讨论二阶导数过零检测	`没有`

引用

[1]Kim Jong钟旭,贾斯汀班子,彼得·李和胡安-帕布鲁贝罗。“绉:卷积表示音高估计。“在2018年IEEE国际会议音响、演讲和信号处理(ICASSP),161 - 65。卡尔加里,阿瑟:IEEE 2018。https://doi.org/10.1109/ICASSP.2018.8461329。

扩展功能

C / c++代码生成
使用仿真软件生成C和c++代码®编码器™。万博1manbetx

使用笔记和限制:

生成通用的C代码不依赖于第三方库,配置参数>代码生成一般分类,设置语言参数C。
生成c++代码,配置参数>代码生成一般分类,设置语言参数c++。指定目标库的代码生成代码生成>接口类别,设置目标库参数。设置这个参数没有一个生成通用的c++代码,不依赖于第三方库。
ERT-based目标的万博1manbetx支持:适应信号参数代码生成>接口必须启用窗格。
的网络层支持代码生成,明白了万博1manbetx网络层支持代码生成万博1manbetx(MATLAB编码器)。

版本历史

介绍了R2023a

另请参阅

块

绉|绉预处理|绉后处理

功能

pitchnn|绉|crepePreprocess|crepePostprocess|球场

深音高估计量

描述

例子

估计使用深音高估计块

港口

输入

Port_1- - - - - -音频输入向量

输出

Port_1- - - - - -基本频率估计列向量

参数

输入信号的采样率(Hz)- - - - - -输入信号的采样率赫兹16 e3(默认)|积极的标量

重叠的百分比(%)- - - - - -连续帧之间的重叠部分85年(默认)| [0,100)

缓冲距估计的数量- - - - - -的音高估计输出1(默认)|正整数

信心阈值- - - - - -距信心阈值0.5(默认)|标量范围在[0,1)

模型的能力- - - - - -训练神经网络的大小完整的(默认)|大|媒介|小|小

块特征

引用

扩展功能

C / c++代码生成使用仿真软件生成C和c++代码®编码器™。万博1manbetx

版本历史

另请参阅

块

功能

Port_1- - - - - -音频输入
向量

Port_1- - - - - -基本频率估计
列向量

输入信号的采样率(Hz)- - - - - -输入信号的采样率赫兹
`16 e3`(默认)|积极的标量

重叠的百分比(%)- - - - - -连续帧之间的重叠部分
`85年`(默认)| [0,100)

缓冲距估计的数量- - - - - -的音高估计输出
`1`(默认)|正整数

信心阈值- - - - - -距信心阈值
`0.5`(默认)|标量范围在[0,1)

模型的能力- - - - - -训练神经网络的大小
`完整的`(默认)|`大`|`媒介`|`小`|`小`

C / c++代码生成
使用仿真软件生成C和c++代码®编码器™。万博1manbetx