主要内容

OpenL3嵌入

提取OpenL3嵌入

自从R2022b

  • OpenL3嵌入块

库:
音频工具箱/深度学习

描述

OpenL3嵌入阻止使用OpenL3提取特性嵌入的音频信号。的OpenL3嵌入块结合必要的音频预处理和OpenL3网络推理和返回功能嵌入的音频数据的一个紧凑的表示。这一块需要深度学习工具箱™。

港口

输入

全部展开

声音数据,指定为一个一个频道的信号(列向量)。如果输入信号的采样率(Hz)是48 e3,没有任何限制输入帧长度。如果输入信号的采样率(Hz)不同于48 e3,然后输入帧长度必须大量毁灭的多个因素的重采样操作执行。如果输入帧长度不满足这个条件,块抛出一个错误消息与信息大量毁灭的因素。

数据类型:|

输出

全部展开

输出嵌入,返回一个行向量的长度是指定的嵌入长度参数。

数据类型:

参数

全部展开

输入信号的采样率Hz,指定为一个积极的标量。

连续谱图之间的重叠比例指定为一个标量范围在[0 100)。

类型的光谱产生的音频和作为神经网络的输入,指定为梅尔(128乐队),梅尔(256乐队),或线性

  • 梅尔(128乐队)——神经网络与128年接受梅尔谱图产生的输入音频梅尔·乐队。

  • 梅尔(256乐队)——神经网络与256年接受梅尔谱图产生的输入音频梅尔·乐队。

  • 线性——神经网络接受积极的片面的谱图产生的输入音频FFT长度为257。

神经网络训练的音频内容类型,指定为环境声音音乐听起来。设置这个参数环境声音使用神经网络pretrained环境音频数据,并设置它音乐听起来使用一个网络pretrained音乐数据。

输出嵌入长度指定为512年6144年

块特征

数据类型

|

直接引线

没有

多维信号

没有

适应信号

没有

讨论二阶导数过零检测

没有

引用

[1]克莱默,杰森,et al。“看,听,和了解更多:设计选择音频嵌入的深处。”InICASSP 2019年IEEE国际会议音响、演讲和信号处理(ICASSP),2019岁的IEEE 3852 - 56页。DOI.org (Crossref),doi: 10.1109 / / ICASSP.2019.8682475。

扩展功能

版本历史

介绍了R2022b