OpenL3嵌入

提取OpenL3嵌入

自从R2022b

扩展所有的页面

库:
音频工具箱/深度学习

描述

的OpenL3嵌入阻止使用OpenL3提取特性嵌入的音频信号。的OpenL3嵌入块结合必要的音频预处理和OpenL3网络推理和返回功能嵌入的音频数据的一个紧凑的表示。这一块需要深度学习工具箱™。

港口

输入

全部展开

Port_1- - - - - -声音数据
列向量

声音数据,指定为一个一个频道的信号(列向量)。如果输入信号的采样率(Hz)是48 e3,没有任何限制输入帧长度。如果输入信号的采样率(Hz)不同于48 e3,然后输入帧长度必须大量毁灭的多个因素的重采样操作执行。如果输入帧长度不满足这个条件,块抛出一个错误消息与信息大量毁灭的因素。

数据类型:单|双

输出

全部展开

Port_1- - - - - -嵌入
行向量

输出嵌入,返回一个行向量的长度是指定的嵌入长度参数。

数据类型:单

参数

全部展开

输入信号的采样率(Hz)- - - - - -输入信号的采样率赫兹
`48 e3`(默认)|积极的标量

输入信号的采样率Hz,指定为一个积极的标量。

重叠的百分比(%)- - - - - -重叠连续谱图之间的比例
`90年`0(默认)| (100)

连续谱图之间的重叠比例指定为一个标量范围在[0 100)。

光谱类型- - - - - -类型的光谱
`梅尔(128乐队)`(默认)|`梅尔(256乐队)`|`线性`

类型的光谱产生的音频和作为神经网络的输入,指定为梅尔(128乐队),梅尔(256乐队),或线性。

梅尔(128乐队)——神经网络与128年接受梅尔谱图产生的输入音频梅尔·乐队。
梅尔(256乐队)——神经网络与256年接受梅尔谱图产生的输入音频梅尔·乐队。
线性——神经网络接受积极的片面的谱图产生的输入音频FFT长度为257。

内容类型- - - - - -类型的音频内容
`环境声音`(默认)|`音乐听起来`

神经网络训练的音频内容类型,指定为环境声音或音乐听起来。设置这个参数环境声音使用神经网络pretrained环境音频数据,并设置它音乐听起来使用一个网络pretrained音乐数据。

嵌入长度- - - - - -输出嵌入长度
`512年`(默认)|`6144年`

输出嵌入长度指定为512年或6144年。

块特征

数据类型	`双`\|`单`
直接引线	`没有`
多维信号	`没有`
适应信号	`没有`
讨论二阶导数过零检测	`没有`

引用

[1]克莱默,杰森,et al。“看,听,和了解更多:设计选择音频嵌入的深处。”InICASSP 2019年IEEE国际会议音响、演讲和信号处理(ICASSP),2019岁的IEEE 3852 - 56页。DOI.org (Crossref),doi: 10.1109 / / ICASSP.2019.8682475。

扩展功能

C / c++代码生成
使用仿真软件生成C和c++代码®编码器™。万博1manbetx

使用笔记和限制:

生成通用的C代码不依赖于第三方库,配置参数>代码生成一般分类,设置语言参数C。
生成c++代码,配置参数>代码生成一般分类,设置语言参数c++。指定目标库的代码生成代码生成>接口类别,设置目标库参数。设置这个参数没有一个生成通用的c++代码,不依赖于第三方库。
ERT-based目标的万博1manbetx支持:适应信号参数代码生成>接口必须启用窗格。
的网络层支持代码生成,明白了万博1manbetx网络层支持代码生成万博1manbetx(MATLAB编码器)。

版本历史

介绍了R2022b

另请参阅

块

OpenL3|OpenL3预处理|VGGish嵌入|声音分类器

功能

openl3|openl3Embeddings|openl3Preprocess|vggishEmbeddings|classifySound

OpenL3嵌入

描述

港口

输入

Port_1- - - - - -声音数据列向量

输出

Port_1- - - - - -嵌入行向量

参数

输入信号的采样率(Hz)- - - - - -输入信号的采样率赫兹48 e3(默认)|积极的标量

重叠的百分比(%)- - - - - -重叠连续谱图之间的比例90年0(默认)| (100)

光谱类型- - - - - -类型的光谱梅尔(128乐队)(默认)|梅尔(256乐队)|线性

内容类型- - - - - -类型的音频内容环境声音(默认)|音乐听起来

嵌入长度- - - - - -输出嵌入长度512年(默认)|6144年

块特征

引用

扩展功能

C / c++代码生成使用仿真软件生成C和c++代码®编码器™。万博1manbetx

版本历史

另请参阅

块

功能

Port_1- - - - - -声音数据
列向量

Port_1- - - - - -嵌入
行向量

输入信号的采样率(Hz)- - - - - -输入信号的采样率赫兹
`48 e3`(默认)|积极的标量

重叠的百分比(%)- - - - - -重叠连续谱图之间的比例
`90年`0(默认)| (100)

光谱类型- - - - - -类型的光谱
`梅尔(128乐队)`(默认)|`梅尔(256乐队)`|`线性`

内容类型- - - - - -类型的音频内容
`环境声音`(默认)|`音乐听起来`

嵌入长度- - - - - -输出嵌入长度
`512年`(默认)|`6144年`

C / c++代码生成
使用仿真软件生成C和c++代码®编码器™。万博1manbetx