1. 数据对象与属性类型
数据集由数据对象
组成。一个数据对象代表一个实体,如:学校数据库中对象可以是学生、老师。
属性
来描述。 1.1 什么是属性
属性是一个数据字段,表示数据对象的一个特征。
属性可以是标称的
、二元的
、序数的
或数值的
。 1.2 标称属性
标称属性的值是一些符号
或事物的名称
,这些值不必具有有意义的序(无序
)。每个值代表某种类别、编码或状态,因此标称属性又被看做是分类的
。例如:头发颜色:黑色、黄色、棕色和白色。
众数
。 1.3 二元属性
二元属性是一种标称属性
,只有两个类别或状态:0或1。
布尔属性
,当两种状态对应于true和false时。二元属性是对称的
,当它的两种状态具有同等价值
并携带相同权重
,例如:性别属性。二元属性是非对称的
,当它的状态或结果不是同等重要的,例如:HIV化验的阳性结果和阴性结果。 1.4 序数属性
序数属性是一种属性,其可能的值之间具有有意义的序或秩评定
,但相继值之间的差是未知的。例如:小、中、大或成绩:A+、A、A-、B+。
等级评定调查
。序数属性的中心趋势
可以用它的众数
和中位数
表示,但不能定义均值。 注意:标称、二元和序数属性都是定性的
,即描述对象特征,但不给出实际大小。
1.5 数据属性
数据属性是定量的
,可以是区间标度
的或比率标度
的。
- 区间标度属性:区间标度属性用
相等的单位尺度
度量。区间属性的值有序
,可以为正、0、负。因此,除了值的秩评定外,这种属性允许我们比较和定量评估值之间的差。例如:温度属性。 - 比率标度属性:比率标度属性具有
固定零点
(即,可以说一个值是另一个值的倍数
或比率
)。这些值都是有序的
,例如:开式温度(K)具有绝对零点(0°K = -273.15℃),在该点构成物质的粒子具有零动能。
区间标度属性除了中心趋势度量中位数和众数外,还可以计算均值
。
1.6 离散属性和连续属性
离散属性是有有限
或无限可数
个值,可以用或不用整数表示。
2. 数据的基本统计描述
2.1 中心趋势度量:均值、中位数、众数
- 均值:$x_{mean} = \frac{\sum_{i=1}^N x_i}{N}$
- 加权均值:$x_{mean} = \frac{\sum_{i=1}^N w_{i}x_{i}}{\sum_{i=1}^N w_i}$
- 截尾均值:为抵消少数极端值的影响,丢弃高低极端值后的均值
对于倾斜(非对称)数据,数据中心的更好度量是中位数
。
插值
计算整个数据集的中位数的近似值: $ median = L_{1} + (\frac{\frac{N}{2} - (\sum freq)_{l}}{freq_{median}})*width $$L_1$:中位数区间的下界, N:整个数据集中值的个数,$(\sum freq)_l$:低于中位数区间的所有频数和,$freq_{median}$:中位数区间的频数,$width$:中位数区间的宽度 一个数据集和能有多个众数,当最高频率对应多个不同的值,具有一个、两个、三个众数的数据集合分别称为单峰的
、双峰的
和三峰的
,具有两个及以上称为多峰的
。
中列数
是数据集的最大值和最小值的平均值。 2.2 度量数据分布:极差、四分位数、方差、标准差和四分位数极差
- 极差、四分位数和四分位数极差 极差:
最大值
与最小值
之差分位数是取自数据分布的每隔一定间隔上的点,把数据划分成基本上
大小相等的连贯集合。四分位数:三个数据点把数据划分成四个相等部分四分位数极差(IQR
): $IQR = Q_3 - Q_1$ (其中,$Q_3$是第三个分位数,$Q_1$是第一个分位数) - 五数概括、盒图与离群点
识别离群点的通用规则
:挑选落在第三个四分位数之上或第一个四分位数之下至少$1.5*IQR$处的值。五数概括由中位数
($Q_2$)、四分位数
$Q_1$和$Q_3$、最小
和最大观测值
组成,按次序是$Minimum,Q_1,Median,Q_3,Maximum$盒图(箱线图)体现了五数概括:$a$.盒的端点一般在四分位数上,使得盒的长度是四分位数极差$IQR$$b$.中位数用盒内的线标记$c$.盒外的两条线延申到最小和最大观测值 - 方差和标准差方差:$\sigma^{2} = \frac{1}{N} \sum(x_i-x_{mean})^{2} = \frac{1}{N} \sum_{i=1}^{N} x_i^2 - x_{mean}^{2}$标准差:$\sigma$作为发散性的度量,标准差$\sigma$的性质是:$a$.$\sigma$度量关于均值的发散,仅当选择
均值
作为中心度量时使用。$b$.仅当不存在发散时,$\sigma=0$,否则$\sigma > 0$
2.3 数据的基本统计描述的图形显示
包括分位数图
、分位数-分位数图(q-q图)
、直方图
和散点图
,前三种图显示一元分布
,散点图显示二元分布
。
3. 数据可视化
通过图形表示清晰有效地表达数据。
- 基于像素的可视化技术
- 几何投影可视化技术
- 基于图符的可视化技术
- 层次可视化技术
4. 度量数据的相似性和相异性
相似性和相异性都称邻近性
。
不相似
,则它们的相似性度量为0
。 4.1 数据矩阵与相异性矩阵
数据矩阵(对象-属性
结构):这种数据结构用关系表
的形式或$n*p$($n$个对象 x $p$个属性)矩阵存放几个数据对象:
$$ \left[ \begin{matrix} x_{11} & ... & x_{1f} & ... & x_{1p} \\ ... & ... & ... & ... & ... \\ x_{i1} & ... & x_{if} & ... & x_{ip}\\ ... & ... & ... & ... & ... \\ x_{n1} & ... & x_{nf} & ... & x_{np}\\ \end{matrix} \right] $$
相异性矩阵(对象-对象
结构):存放几个对象两两之间的邻近度
,通常用一个$n*n$矩阵表示:
$$ \left[ \begin{matrix} 0 & & & & \\ d(2,1) & 0 & & & \\ d(3,1) & d(3,2) & 0 & & \\ ... & ... & ... & ... & \\ d(n,1) & d(n,2) & ... & ... & 0 \\ \end{matrix} \right] $$
其中$d(i,j)$是对象$i$和对象$j$之间的相异性。一般$d(i,j)$是非负的
,$d(i,j)=d(j,i)$
相似性度量可以表示成相异性度量的函数:
$sim(i,j) = 1- d(i,j)$, 其中$sim(i,j)$是对象$i$和$j$之间的相似性数据矩阵经常被称为二模矩阵
,由两种实体组成,即行和列。
单模矩阵
。 4.2 标称属性的邻近性度量
两个对象$i$和$j$之间的相异性可以根据不匹配率
来计算:
匹配数目
(即$i$和$j$取值相同状态的属性数),$p$是刻画对象的属性总数
。相似性计算:$sim(i,j)=\frac{m}{p}$ 4.3 二元属性的邻近性度量
二元属性列联表
对象$j$ | ||||
---|---|---|---|---|
1 | 0 | sum | ||
对象$j$ | 1 | $q$ | $r$ | $q+r$ |
0 | $s$ | $t$ | $s+t$ | |
sum | $q+s$ | $r+t$ | $p$ |
如果$i$和$j$都用对称
的二元属性刻画,则$i$和$j$的相异性为:
非对称
的二元相异性:$d(i,j)=\frac{r+s}{q+r+s} $非对称的二元相似性:$sim(i,j)=\frac{q}{q+r+s} = 1-d(i,j) $ ,这被称为$Jaccard$系数当对称与非对称的二元属性同时出现时,使用混合属性
方法。 4.4 数值属性的相异性:闵可夫斯基距离
欧几里得距离
(即,直线):
曼哈顿(或城市块)距离
:城市两点之间的街区距离$d(i,j)=\mid x_{i1}-x_{j1}\mid + \mid x_{i2}-x_{j2} \mid +...+ \mid x_{ip}-x_{jp} \mid$
-
非负性
:$d(i,j)≥0$ -
同一性
:$d(i,i)=0$ -
对称性
:$d(i,j)=d(j,i)$ -
三角不等式
:$d(i,j)≤d(i,k)+d(k,j)$
满足这些条件的测度称作度量
。
闵可夫斯基距离
是欧式距离和曼哈顿距离的推广(又称$L_p$范数):
曼哈顿距离
($L_1$范数)当$h=2$时,表示欧式距离
($L_2$范数)上确界距离
(又称$L_{max}$, $L_∞$范数和切比雪夫距离)是$h\rightarrow ∞$时闵氏距离的推广:$d(i,j)=lim_{h\rightarrow∞} (\sum_{f=1}^p (\mid x_{if}-x_{jf} \mid)^{h})^{\frac{1}{h}} = max_{f}^p \mid x_{if}-x_{jf}\mid$$L_∞$范数又称一致范数
。加权欧式距离:$d(i,j)=\sqrt{w_1*(x_{i1}-x_{j1})^2 + w_2*(x_{i2}-x_{j2})^2 + ... + w_p*(x_{ip}-x_{jp})^2} $ 4.5 序数属性的邻近性度量
假设$f$是用于描述$n$个对象的一组序数属性之一。
- 第$i$个对象的$f$值为$x_{if}$,属性$f$有$M_f$个有序的状态,表示排位$1,...,M_f$。用对应的排位$r_{if}\in \lbrace1,...,M_f\rbrace$ 取代$x_{if}$。
- 由于每个序数属性都可以有不同的状态数,所以通常需要将每个属性的值域映射到$[0.0, 1.0]$ 上,以便每个属性都有相同的权重。我们通过用$z_{if}$代替第$i$个对象的$r_{if}$ 来实现数据规格化,其中:$z_{if} = \frac{r_{if}-1}{M_f - 1}$
- 相异性可以用任意一种数值属性距离度量计算。
4.6 混合类型属性的相异性
将不同的属性组合在单个
相异性矩阵中,把所有有意义的属性转换到共同的区间$[0.0, 1.0]$ 上。
非对称二元属性
;否则,指示符$ \sigma_{ij}^{(f)} = 1$ 。属性$f$对$i$和$j$之间相异性的贡献$ d_{ij}^{(f)}$根据类型计算: - $f$是
数值
的:$d_{ij}^{(f)}=\frac{\mid x_{if}-x_{jf}\mid}{max_hx_{hf} - min_hx_{hf}}$ ,其中$h$遍取$f$中所有非缺失值对象。 - $f$是
标称或二元
的:如果$x_{if}=x_{jf}$,则$d_{ij}^{(f)}=0$;否则$d_{ij}^{(f)}=1$。 - $f$是
序数
的:计算排位$r_{if}$和$z_{if}=\frac{r_{if}-1}{M_f-1}$,并将$z_{if}$作为数值属性
对待。
4.7 余弦相似性
余弦相似性
可以用来比较文档
,或针对给定的查询词向量对文档排序
。
余弦度量
作为相似性函数:$sim(x,y)=\frac{x*y}{\mid\mid x\mid\mid \mid\mid y\mid\mid}$余弦测量属于非度量测度
。当属性是二值
属性时,余弦相似性函数可以用共享特征或属性
解释,于是$sim(x,y)$是公共属性相对拥有
的一种度量:$sim(x,y)=\frac{x*y}{x*x+y*y-x*y}$ ,(称为$Tanimoto$系数/距离)