·1、协方差与散布矩阵的意义
【】http://blog.csdn.net/guyuealian/article/details/68922981
1)散布矩阵(散度矩阵/scatter matrix)前乘以系数1/(n-1)就可以得到协方差矩阵了,样本的协方差矩阵乘以n-1倍即为散布矩阵,n表示样本的个数,散布矩阵的大小由特征维数d决定,是一个为d×d 的半正定矩阵。
2) 关系:散度矩阵=类内离散度矩阵=类内离差阵=协方差矩阵×(n-1) n表示样本个数
3) 标准差和方差一般是用来描述一维数据的;对于多维情况,而协方差是用于描述任意两维数据之间的关系,一般用协方差矩阵来表示。因此协方差矩阵计算的是不同维度之间的协方差,而不是不同样本之间的。
2、归一化:标准差和方差一般是用来描述一维数据的;对于多维情况,而协方差是用于描述任意两维数据之间的关系,一般用协方差矩阵来表示。因此协方差矩阵计算的是不同维度之间的协方差,而不是不同样本之间的。
3、dot product:(即数量积、点积、点乘积)
在数学中,数量积(dot product; scalar product,也称为点积)是接受在实数R上的两个 并返回一个实数值 的 。它是 的标准 。
两个向量a = [a1, a2,…, an]和b = [b1, b2,…, bn]的点积定义为:a·b=a1b1+a2b2+……+anbn。
使用 并把(纵列)向量当作n×1 ,点积还可以写为:a·b=a^T*b,这里的a^T指示 a的 。
-----------------------------------------------------------------以下介绍KNN算法---------------------------------------------
KNN:通过测量不同特征值之间的距离进行分类
思路:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。(噪声对其影响大)