主要内容

正常化

标准化数据

描述

例子

N=标准化(一个返回矢量图z-core.数据中的数据一个具有中心0和标准偏差1。

  • 如果一个是一个矢量,然后正常化在整个矢量上运行。

  • 如果一个是矩阵,表格或时间表,然后正常化分别对每一列数据进行操作。

  • 如果一个那是一个多维数组正常化沿着第一个阵列维度运行,其大小不等于1。

例子

N=标准化(一个昏暗的返回z沿着维度得分昏暗的.例如,正常化(A,2)每行标准化。

例子

N=标准化(___方法指定具有以前的任何语法的常规方法。例如,规范化(A,'Norm')标准化数据一个通过Euclidean规范(2-Norm)。

例子

N=标准化(___方法方法型指定给定方法的归一化类型。例如,规范化(A,'Norm',INF)标准化数据一个使用Infinity Norm。

N=标准化(___,'中心',centertype,'scale',标准型号用来'中心'“规模”方法。这些是唯一可以一起使用的方法。如果没有指定centertype或者标准型号,然后标准化使用该方法的默认方法类型(中心为0,并按标准偏差进行缩放)。

使用此语法与任何中心和比例类型一起执行这两种方法。例如,N =正常化(A,“中心”,“中等”,“规模”,“疯狂”).您还可以使用此语法来指定中心和比例值C年代从先前计算的归一化。例如,归一化一个数据集并保存参数[n1,c,s] =标准化(a1).然后,在不同的数据集上重用这些参数n2 =正常化(A2,'Center',C,'Scale',S)

例子

N=标准化(___,'datavariables',Datavars.可选地指定当输入数据处于表格或时间表时运行的变量。您可以使用此选项使用任何先前的语法。

NC年代) =正常化(___另外,返回定心和缩放值C年代用于执行规范化。然后,可以使用中的值对不同的输入数据进行规范化C年代使用命令n =标准化(A2,'Center',C,'Scale',S)

例子

崩溃

通过计算z-score将矢量和矩阵中的数据归一化。

创建矢量v并计算Z分数,归一化数据具有平均值0和标准偏差1。

v = 1:5;N =正常化(v)
N =1×5-1.2649 -0.6325 0.6325 1.2649

创建矩阵B并计算每列的z分数。然后,每行标准化。

B =魔法(3)
B =3×38 1 6 3 5 7 4 9 2
n1 =标准化(b)
n1 =3×31.1339 -1.0000 0.3780 -0.7559 0 0.7559 -0.3780 1.0000 -1.1339
n2 =标准化(b,2)
N2 =3×30.1021 -1.1094 0.2774 -1.0000 0 1.0000 -0.2774 1.1094 -0.8321

规模一个向量一个通过标准偏差。

a = 1:5;ns =标准化(a,“规模”
Ns =1×50.6325 1.2649 1.8974 2.5298 3.1623

规模一个因此其范围在间隔[0,1]。

nr =标准化(a,'范围'
nr =1×50 0.2500 0.5000 0.7500 1.0000

创建矢量一个并通过其1常态将其标准化。

a = 1:5;np =标准化(a,“规范”1)
NP =1×50.0667 0.1333 0.2000 0.2667 0.3333

中心一个所以均值是0。

nc =标准化(a,'中心'“意思”
数控=1×5-2 -1 0 1 2

创建一个包含五个人的高度信息的表。

lastName = {'桑切斯'“约翰逊”'lee''迪亚兹''棕色'};高度= [71; 69; 64; 67; 64];t =表(LastName,Height)
t =5×2表LastName Height _________ ______'Sanchez'71'Johnson'69'Lee'64'Diaz'67'Brown'64

通过最大高度归一化高度数据。

n =标准化(t,“规范”正,“DataVariables”'高度'
n =5×2表姓氏高度_________ _______ 'Sanchez' 1 'Johnson' 0.97183 'Lee' 0.90141 'Diaz' 0.94366 'Brown' 0.90141

归一化数据集,返回计算的参数值,并重复使用参数以将相同的归一化应用于另一个数据集。

使用两个变量创建时间表:温度风速.然后使用相同的变量创建第二个时间表,但是使用样本稍后拍摄。

RNG.默认time1 =(DateTime(2019,1,1):天(1):Datetime(2019,1,10))';温度= RANDI([10 40],10,1);Windspeed = Randi([020],10,1);T1 =时间表(温度,风速,'rowtimes'Time1)
t1 =10×2时间表时间温度风速___________ ___________ _________ 01-一月-2019 35 3 02-一月-2019 38 20 03-一月-2019 13 20 04-一月-2019 38 10 05-一月-2019 29 16 06-一月-2019 13 2 07-一月-2019 18 8 08-一月-2019 26 19 09-一月-2019 39 16 10-一月-2019 39 20
time2 =(DateTime(2020,1,1):天(1):Datetime(2020,1,10))';温度= RANDI([10 40],10,1);Windspeed = Randi([020],10,1);T2 =时间表(温度,风速,'rowtimes',time2)
t2 =10×2时间表时间温度风速___________ ___________ _________ 01-Jan-2020 30 14 02-Jan-2020 11 0 03-JAN-2020 36 5 04-JAN-2020 3月05-JAN-2020 31 2 06-JAN-2020 33 17 07-Jan-2020 33 14 08-Jan-2020 22 6 09-Jan-2020 30 19 10-Jan-2020 15 0

标准化第一个时间表。指定三个输出:归一化表,以及居中和缩放参数值C年代函数用来执行标准化。

[T1_norm C S] =正常化(T1)
t1_norm =10×2时间表时间温度风速___________ ___________ _________ _______________________ 2019-2019 0.57687 -1.4636 02-JAN-2019 0.856 02-1N-2019 0.856 0.99885 03-JAN-2019 -1.4701 0.92885 04-JAN-2019 0.856-2019 0.36591 0.36591 0.36591 0.36591 0.36591 06-2019  -1.4701 -1.6044 07-JAN-2019 -1.0049 -0.75997 08-JAN-2019 -0.26052 0.78812 09-JAN-2019 0.94905 0.36591 10-JAN-2019 0.94905 0.94905 0.92880
C =1×2表温度风速___________ _________ 28.8 13.4
S =1×2表温度风速_____________________ 10.748 7.1056

现在将第二个时间表标准化T2.使用来自第一个归一化的参数值。这种技术确保了数据T2.以与此相同的方式居中和缩放T1.

t2_norm = normalize(t2,“中心”,c,“规模”,s)
t2_norm =.10×2时间表时间温度风速___________ ___________ ______________________________1月2020 0.11165 0.08441 02-JAN-2020 -1.6562 -1.8858 03-JAN-2020 0.66992 -1.822 04-JAN-2020 0.856 -1.8858 05-JAN-2020 0.2047 -1.6044 06-JAN-2020 0.2047 -1.6044 06-JAN-2020 0.39078 0.50665 07-JAN-2020 0.39078 0.084441 08-JAN-2020 -0.6327 -1.0414 09-JAN-2020 0.11165 0.78812 10-JAN-2020 -1.284 -1.8858

默认情况下,正常化在任何变量上运行T2.也存在C年代.归一化变量的子集T2.,指定要对其进行操作的变量“DataVariables”名称值参数。您指定的变量子集必须存在C年代

指定风速作为要进行操作的数据变量。正常化对该变量进行操作并返回温度不变。

T2_partial =正常化(T2,“中心”,c,“规模”,s,“datavariables”“风速”
t2_partial =10×2时间表时间温度风速___________ ___________ _________ 01-1月2020 30 0.084441 02-JAN-2020 11 -1.8858 03-JAN-2020 36 -1.1822 04-JAN-2020 38 -1.8858 05-JAN-2020 31 -1.6044 06-1N-202033 0.50665 07-JAN-2020 33 0.084441 08-JAN-2020 22 -1.0414 09-JAN-2020 30 0.78812 10-JAN-2020 15 -1.8858

输入参数

崩溃

输入数据,指定为标量,矢量,矩阵,多维数组,表或时间表。

如果一个是一个数字数组和有类型单身,然后输出也有类型单身.否则,输出有类型双人间

正常化忽略了价值一个

数据类型:双人间|单身|表格|时间表
复数的支持:万博1manbetx是的

维度运行,指定为正整数标量。

数据类型:双人间|单身|INT8.|int16|INT32.|INT64.|uint8.|uint16|UINT32|UINT64

归一化方法,指定为以下选项之一:

方法

描述

“zscore”

z-core.均值为0,标准差为1

“规范”

2-norm

“规模”

标准差异

'范围'

rescale.数据范围到[0,1]

'中心'

中心数据均值为0

'medianiqr'

中心和尺度数据以获得中位数0和狭窄的范围1

要返回参数,函数用于标准化数据,请指定C年代输出参数。

方法类型,指定为阵列,表,2元素行向量或类型名称,具体取决于指定的方法:

方法

方法类型选项

描述

“zscore”

'std'(默认)

中心和尺度具有平均值0和标准偏差1

'鲁棒'

中位数为0和平均绝对偏差1

“规范”

正值标量(默认为2)

p-norm.

INF.

无限常态

“规模”

'std'(默认)

标准差异

疯狂'

缩放平均绝对偏差

'第一'

通过数据的第一个元素缩放。

'IQR'

缩放数据狭窄的范围

数字数组

按数字值缩放数据。数组必须有兼容的大小与输入一个

表格

使用表中的变量进行缩放数据。每个表变量在输入数据中一个使用缩放表中同名变量中的值进行缩放。

'范围'

2元素行向量(默认为[0 1])

rescale.数据到窗体的一个间隔的范围[A B],在哪里< b

'中心'

“意思”(默认)

中心有意思0。

'中位'

中心有中位数0。

数字数组

按数值移动中心。数组必须有兼容的大小与输入一个

表格

使用表中的变量的转换中心。每个表变量在输入数据中一个使用居中表中名称类似的变量中的值居中。

要返回参数,函数用于标准化数据,请指定C年代输出参数。

中心和比例方法类型,指定为任何有效方法型选择'中心'或者“规模”方法分别。看看方法型每个方法的可用选项列表的参数描述。

示例:n =标准化(A,'Center',C,'Scale',S)

表变量要操作,指定为此表中的选项之一。Datavars.表示要标准化的输入表的哪些变量。未指定的表中的其他变量Datavars.通过到输出而不被操作。

选项 描述 例子
变量名称

指定单表变量名称的字符向量或标量标题

“Var1”

“var1”

变量名称矢量

字符向量或字符串数​​组的单元格数组,其中每个元素是表变量名称

{'var1''var2'}

[“var1”“var2”]

标量或可变指数的矢量

表变量指数的标量或向量

1

[1 3 5]

逻辑矢量

逻辑向量,其元素每个元素对应于表变量,其中真实包含相应的变量和不包括它

(真的假的真的)

功能手柄

函数句柄,将表变量作为输入返回逻辑标量

@Isnumeric.

vartype下标

由此生成的表格下标vartype功能

vartype(数字)

示例:正常化(t,'norm','datavariables',[“var1”“var2”“var4”])

输出参数

崩溃

标准化值,作为阵列,表或时间表返回。N是否与输入数据大小相同一个

正常化一般对输入表和时间表的所有变量起作用,但以下情况除外:

  • 如果您指定“DataVariables”,然后正常化只对指定的变量进行操作,而将数据中的其他变量返回N未改性。

  • 如果使用语法正常化(t,'中心',c,'scale',s)使标准化使一张桌子或时间表正常化T使用先前计算的参数C年代,然后正常化中的变量名自动使用C年代确定数据变量T操作。其他变量T被归还了N未改性。

居中值,作为数组或表返回。

什么时候一个是一个数组,正常化返回C年代作为阵列这样N = (a - c) ./ s.每个价值C是用于沿指定维度执行归一化的居中值。例如,如果一个是一个10×10的数据矩阵正常化那么,作用于第一维C是一个1×10矢量,其中每个列的居中值一个

什么时候一个是一个表或时间表,正常化返回C年代作为包含每个标准化表格变量的中心和比例的表格,n.var =(a.var - c.var)./ s.var.表变量名称C年代匹配输入中的相应表变量。每个变量C包含用于标准化类似指数的居中值一个

可缩放的值,作为数组或表返回。

什么时候一个是一个数组,正常化返回C年代作为阵列这样N = (a - c) ./ s.每个价值年代是用于沿指定维度执行归一化的缩放值。例如,如果一个是一个10×10的数据矩阵正常化那么,作用于第一维年代一个1乘10的向量是否包含每个列的比例值一个

什么时候一个是一个表或时间表,正常化返回C年代作为包含每个标准化表格变量的中心和比例的表格,n.var =(a.var - c.var)./ s.var.表变量名称C年代匹配输入中的相应表变量。每个变量年代包含缩放值,用于归一化类似于类似命名的变量一个

更多关于

崩溃

Z-core.

对于随机变量X用平均μ和标准差σ表示z-Score值x z x - μ. σ. 对于具有均值的样本数据 X ¯ 和标准偏差年代,z-Score的数据点x z x - X ¯ 年代

z-scores用标准偏差来衡量一个数据点到平均值的距离。标准化数据集的均值为0,标准差为1,并且保留了原始数据集的形状属性(同样的偏度和峰度)。

P-norm.

一般定义p-normv那有N元素

v p σ. k 1 N | v k | p 1 / p

在哪里p是任何积极的真实价值,INF.或者.一些常见的价值p是:

  • 如果p作为1,然后得到的1-NOM是矢量元素的绝对值的总和。

  • 如果p是2,所得到的2-Norm给出了载体的矢量幅度或欧几里德长度。

  • 如果pINF.,然后 v 最大 | v |

重新扫视

重新缩放通过沿数字线拉伸或挤压点来改变MIN和MAX值之间的距离。的z保留数据的-Scores,因此分配的形状保持不变。

重新定义数据的等式X任意间隔[A B]

X r e 年代 c 一个 l e d 一个 + X - X 最大 X - X b - 一个

虽然这一点正常化rescale.功能可以将数据重新归类为任何任意间隔,rescale.还允许输入数据限幅到指定的最小和最大值。

狭窄的范围

数据集的四分位数范围(IQR)描述了在对值进行排序时中间50%值的范围。如果数据的中位数是Q2,数据下半部分的中位数是Q1,数据的上半部分的中位数是Q3,然后 IQR = Q3 - Q1

当数据包含异常值(非常大或非常小的值)时,通常首选IQR,而不是查看整个数据范围,因为IQR排除了数据中最大的25%和最小的25%的值。

平均绝对偏差

数据集的绝对偏差(Mad)是中位数绝对偏差的中位数值 X 数据: 中位数 | x - X | .因此,疯狂地描述了与中位数相关的数据的可变性。

当数据包含异常值(非常大或非常小的值)时,通常优先考虑数据的标准偏差,因为标准偏差方块与平均值的偏差,给出异常值过度的影响。相反,少数异常值的偏差不会影响疯狂的价值。

扩展能力

另请参阅

||

介绍了R2018a