OpenL3预处理

预处理OpenL3嵌入提取的音频

自从R2022b

扩展所有的页面

库:
音频工具箱/深度学习

描述

的OpenL3预处理阻止生成声音(音频输入。你可以养活声音OpenL3 pretrained网络或网络,接受OpenL3一样的输入。

港口

输入

全部展开

Port_1- - - - - -声音数据
列向量

声音数据,指定为一个一个频道的信号(列向量)。如果输入信号的采样率(Hz)是48 e3,没有任何限制输入帧长度。如果输入信号的采样率(Hz)不同于48 e3,然后输入帧长度必须大量毁灭的多个因素的重采样操作执行。如果输入帧长度不满足这个条件,块抛出一个错误消息与信息大量毁灭的因素。

数据类型:单|双

输出

全部展开

Port_1- - - - - -光谱图
矩阵

谱图产生输入音频,作为一个矩阵,其大小取决于返回的值光谱类型参数。

梅尔(128乐队)——大小的块返回梅尔谱图由- 199,128 - 128是梅尔乐队的数量,和199年是时间跳数。
梅尔(256乐队)——大小的块返回梅尔谱图由- 199,256 - 256是梅尔乐队的数量,和199年是时间跳数。
线性——大小的块返回一个积极的片面的声谱图257 - 197,其中257是FFT长度和197年时间跳的数量。

您可以使用此谱图作为一个输入OpenL3相同的块光谱类型。

数据类型:单

参数

全部展开

输入信号的采样率(Hz)- - - - - -输入信号的采样率赫兹
`48 e3`(默认)|积极的标量

输入信号的采样率Hz,指定为一个积极的标量。

重叠的百分比(%)- - - - - -重叠连续谱图之间的比例
`90年`0(默认)| (100)

连续谱图之间的重叠比例指定为一个标量范围在[0 100)。

光谱类型- - - - - -类型的光谱
`梅尔(128乐队)`(默认)|`梅尔(256乐队)`|`线性`

类型的光谱产生输入音频、指定为梅尔(128乐队),梅尔(256乐队),或线性。

块特征

数据类型	`双`\|`单`
直接引线	`没有`
多维信号	`没有`
适应信号	`没有`
讨论二阶导数过零检测	`没有`

引用

[1]克莱默,杰森,et al。“看,听,和了解更多:设计选择音频嵌入的深处。”InICASSP 2019年IEEE国际会议音响、演讲和信号处理(ICASSP),2019岁的IEEE 3852 - 56页。DOI.org (Crossref),doi: 10.1109 / / ICASSP.2019.8682475。

扩展功能

C / c++代码生成
使用仿真软件生成C和c++代码®编码器™。万博1manbetx

版本历史

介绍了R2022b

另请参阅

块

OpenL3|OpenL3嵌入|YAMNet|VGGish

功能

openl3|openl3Embeddings|openl3Preprocess|vggish|yamnet

OpenL3预处理

描述

港口

输入

Port_1- - - - - -声音数据列向量

输出

Port_1- - - - - -光谱图矩阵

参数

输入信号的采样率(Hz)- - - - - -输入信号的采样率赫兹48 e3(默认)|积极的标量

重叠的百分比(%)- - - - - -重叠连续谱图之间的比例90年0(默认)| (100)

光谱类型- - - - - -类型的光谱梅尔(128乐队)(默认)|梅尔(256乐队)|线性

块特征

引用

扩展功能

C / c++代码生成使用仿真软件生成C和c++代码®编码器™。万博1manbetx

版本历史

另请参阅

块

功能

Port_1- - - - - -声音数据
列向量

Port_1- - - - - -光谱图
矩阵

输入信号的采样率(Hz)- - - - - -输入信号的采样率赫兹
`48 e3`(默认)|积极的标量

重叠的百分比(%)- - - - - -重叠连续谱图之间的比例
`90年`0(默认)| (100)

光谱类型- - - - - -类型的光谱
`梅尔(128乐队)`(默认)|`梅尔(256乐队)`|`线性`

C / c++代码生成
使用仿真软件生成C和c++代码®编码器™。万博1manbetx