典型应用——文本分类

1）文本信息的表示，从原始的文本转化为结构化的可处理信息；

2）目前常采用向量空间模型来描述文本向量，通常文本向量维度较高，使得分类效率低下；

3）必须对特征向量进行降维处理，最有效的方法是特征选择。

文本特征向量提取

1）空间向量模型：将文本内容转化为向量空间中的向量运算，以空间上的相似度表示语义上的相似度。

2）文本处理中常用的相似性度量方式是余弦距离。

3）设D为一个包含m个文档的文档集合,Di为第i个文档的特征向量,则有：

D={D1,D2,…,Dm},　其中 Di=(di1,di2,…,din),i=1,2,…,m，dij(i=1,2,…,m;j=1,2,…,n)为

文档Di中第j个词条tj的权值,它一般被定义为tj在Di中出现的频率tij的函数,例如采用TF－IDF函数,

即dij=tij*log(N/nj)其中,N是文档数据库中文档总数,nj是文档数据库含有词条tj的文档数目。

4）通过上述的空间向量模型，文本数据转化成了计算机可处理的结构化数据，文本之间的相似性问题也转化成了向量之间的相似性问题。

文本特征向量选择

1. TF-IDF的局限性

TF-IDF可以有效评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。因为它综合表征了该词在文档中的重要程度和文档区分度。但在文本分类中单纯使用TF-IDF来判断一个特征是否有区分度是不够的。

1）它没有考虑特征词在类间的分布。也就是说该选择的特征应该在某类出现多，而其它类出现少，即考察各类的文档频率的差异。如果一个特征词，在各个类间分布比较均匀，这样的词对分类基本没有贡献；但是如果一个特征词比较集中的分布在某个类中，而在其它类中几乎不出现，这样的词却能够很好代表这个类的特征，而TF-IDF不能区分这两种情况。

2）没有考虑特征词在类内部文档中的分布情况。在类内部的文档中，如果特征词均匀分布在其中，则这个特征词能够很好的代表这个类的特征，如果只在几篇文档中出现，而在此类的其它文档中不出现，显然这样的特征词不能够代表这个类的特征。

特征提取的目的在于降维。即使随机选取一部分词，分类效果也不会差到惊人的地步。采用了TF-IDF方法的分类效果当然也能有不错的效果。当然，TF-IDF用于向量空间模型，进行文档相似度计算是相当有效的。

2.卡方检验（Chi-square）

卡方检验最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否。具体做的时候常常先假设两个变量确实是独立的（“原假设”），然后观察实际值（观察值）与理论值（这个理论值是指“如果两者确实独立”的情况下应该有的值）的偏差程度，如果偏差足够小，我们就认为误差是很自然的样本误差，是测量手段不够精确导致或者偶然发生的，两者确确实实是独立的，此时就接受原假设；如果偏差大到一定程度，使得这样的误差不太可能是偶然产生或者测量不精确所致，我们就认为两者实际上是相关的，即否定原假设，而接受备择假设。理论值为E，实际值为x，偏差程度的计算公式为：