您的当前位置：首页基于概率潜在语义分析的中文文本分类研究

基于概率潜在语义分析的中文文本分类研究

来源：世旅网

第25卷第4期2011年7月甘肃联合大学学报(自然科学版)

JournalofGansuLianheUniversity(NaturalSciences)Vol.25No.4

Jul.2011

󰀁󰀁文章编号:1672󰀁691X(2011)04󰀁0075󰀁04

基于概率潜在语义分析的中文文本分类研究

王󰀁奕

(甘肃联合大学电子信息工程学院,甘肃兰州730000)

摘󰀁要:概率潜在语义模型使用统计的方法描述󰀁文档󰀁潜在语义󰀁词󰀁之间的概率分布关系,其实质是模拟了潜在的概率语义空间,并将文档和词映射到同一个语义空间.该文将概率潜在语义分析模型用于中文文本分类,一方面较好地处理了自然语言中的同义、多义问题;另一方面通过计算概率潜在语义空间中向量的距离来获得文档间的类别信息从而达到文本分类的目的.实验结果表明,该分类器具有良好的分类性能.关键词:中文文本分类;概率潜在语义分析;语义空间中图分类号:TP391󰀁󰀁󰀁文献标识码:A

0󰀁引言

近十年来,基于人工智能的自动文本分类技术获得了长足的发展,这主要是因为以数字形式存储的电子文档的数目急剧增长,特别是随着互联网络和计算机的快速普及,海量的文本信息引起了人们将它们进行合理组织以便有效利用的迫切需求.

简单地说,自动文本分类就是在给定的分类体系下,根据文本的内容自动地确定文本关联的类别,通常包括文本表示、特征抽取和分类模型的构建等过程.其中,文本表示是形成文本分类器的首要过程,其作用是从文本中提取能够代表文本特点的特征.现在广泛采用的是60年代末由G.Salton等人提出的向量空间模型(VectorSpaceModel,VSM)

[1]

不同概念被划归为同一个类别,另一种是两篇文档的某特征项分别为两个词但表达了同一概念被划归为不同的类别.因此,发现󰀁暗含󰀁在应用文本词语之间潜在的语义关系是提高分类系统性能的

一条有效途径.

在这种思想的指导下,S.T.Dumais等人提出了潜在语义分析(LatentSemanticAnalysis,LSA)[2],LSA认为词语在文本中的使用模式内存在着潜在的语义结构,同义词之间应该具有基本相同语义结构,多义词必定具有不同的语义结构.LSA通过数学中的奇异值分解(SingularVal󰀁ueDecomposition,SVD)来提取并量化这些潜在的语义结构,进而消除同义词、多义词的不利影响,提高文本表示的准确性.LSA最初应用在文本信息检索领域,并取得了令人满意的效果,随后又在信息过滤、跨语言检索、认知科学和数据挖掘中的信息理解、判断和预测等众多领域中得到了拓展.但是,LSA存在几个缺陷:LSA的奇异值分解的物理意义不够明确,较难控制词义聚类的效果;缺乏先验信息的植入而使其显得过分机械;LSA语义空间的维数和答案选择的正确性之间存在着非单调相关,通常这个最佳维数主要由经验式法则去确定;LSA算法的空间和时间复杂度太大,在目前的硬件条件下很难实际应用.

1999年,ThomasHofmann提出了概率潜在语义分析(ProbabilisticLatentSemanticAnaly󰀁sis,PLSA)[3~5],对LSA进行了统计学极大似然估计的重新解释,有效地克服了LSA的缺陷.该

,VSM的基本思想是将文本离散

化,处理为某种特征项表示的向量,常用的特征项有字、词和短语等,也有采用句子或段落作为特征项的.根据前人实验结果,普遍认为选取词作为特征项要优于字和短语.VSM具有表达简明、处理容易、一致性好等特点.

但是,VSM是基于词间相互的假设下,而自然语言中的词语之间在语义上有着千丝万缕的联系,一个词可以表达多个概念,一个概念也可以由多个词来表达,大量的多义词和同义词现象,使得以关键词表示文本特征的分类模型在精确率和召回率上打了折扣,可能出现的两种情况:一种是两篇文档的某特征项为同一个词但分别表达了

收稿日期:2011󰀁03󰀁23.

作者简介:王奕(1966󰀁),男,黑龙江拜泉人,甘肃联合大学讲师,主要从事计算机网络技术方面的研究工作.

󰀁76󰀁󰀁󰀁󰀁󰀁󰀁󰀁󰀁󰀁󰀁󰀁󰀁󰀁󰀁󰀁甘肃联合大学学报(自然科学版)󰀁󰀁󰀁󰀁󰀁󰀁󰀁󰀁󰀁󰀁󰀁󰀁󰀁󰀁󰀁󰀁第25卷

方法使用概率模型模拟潜在的语义空间,将文档和词映射到同一语义空间,一方面同义词和多义词均可以得到合理表示,另一方面通过计算语义空间中向量的距离使得许多文本信息处理的应用得到了量化解决.

在M步骤中,利用E步中得到的期望,使用式(4)来最大化当前的参数估计.

P(wj|zk)=

󰀁

󰀁Ni=1

n(di,wj)P(zk|di,wj)

Ni=1

m=1

󰀁

n(di,wm)P(zk|di,wm)

Mj=1

1󰀁概率潜在语义分析模型简介

PLSA概率潜在语义分析的核心思想是示象模型(aspectmodel),该模型的变量包括:可观测得到的文档di󰀁D={d1,d2,󰀁,dN},和词wj󰀁W={w1,w2,󰀁,wM},以及非观测所能得到隐含类别主题变量zk󰀁Z={z1,z2,󰀁,zK},并定义选取一篇文档di的概率为P(di);文档di取潜在类别主题zk的概率为P(zk|di);在类别zk的条件下,产生词wj的概率为P(wj|zk).由此得到一组观测点的组合(di,wj),而潜在类别变量zk可以忽略,生成一个联合概率模型

P(di,wj)=P(di)P(wj|di),(1)

P(wj|di)=

k=1

P(zk|di)=

󰀁n(di,wj)P(zk|di,wj)

n(di)

(4)

󰀁󰀁算法不停迭代于式(3)和式(4)之间,直到满足收敛条件时停止,收敛条件为变量L的期望值E(L)增加量小于某一阈值.

E(L)=

󰀁

Ni=1

󰀁

j=1n(d,w)

󰀁

Kk=1

P(zk|di,wj)log[P(wj|zk)P(zk|di)].(5)

󰀁󰀁为了避免过度拟合,本文实验采用了回火期望最大(TemperedExpectationMaximization,TEM)算法,该算法保持M步骤不变,E步骤使用式(6)计算.

P󰀁(zk|di,wj)=[P(wj|zk)P(zk|di)]󰀁

,(6)K󰀁

[P(wj|zl)P(zl|di)]󰀁l=1式中󰀁(0<󰀁<1)为控制参数.该算法的复杂度为O(nmk),其中n是文档总数,m为关键词总数,k

表示潜在语义空间维数.

󰀁

P(wj|zk)P(zk|di).(2)

󰀁󰀁显然,上式须用所有可能的zk去模拟示象模型,基于这样一种假设:在相关潜在变量的条件下di和wj是的.深入分析P(wj|zk),可以发现该条件概率分布是K个类条件概率平面P(wj|zk)的凸组合.于是示象模型的思想可以直观地理解为利用概率群分布函数的凸组合去尽可能如实地逼近特定的󰀁文档󰀁词󰀁分布,其原理如图1所示.

2󰀁基于PLSA的中文文本分类

2.1󰀁文本预处理

对于中文文本的预处理首先是分词问题,中文分词所要解决的关键问题主要包括通用词表和切分规范、切分歧义和未登录词识别.目前,国内有多家单位进行了中文分词方面的研究,并开发出了一些较为成熟的中文分词系统.经过比较,本

图1󰀁󰀁文档-潜在语义-词󰀁的关系

文实验的中文分词处理部分,采用了分词效果比较好的中科院计算所开源项目󰀁汉语词法分析系统ICTCLAS󰀁.2.2󰀁构造󰀁文档󰀁词󰀁矩阵

通过统计文本集中每个词在各个文档中的出现的频率便可以得到N󰀁M维的󰀁文档󰀁词󰀁矩阵N(d,w),并使用󰀁归一化󰀁的TF󰀁IDF公式对矩阵进行标准化处理.

log(fij+1.0)*log(N/ni)aij=,Mp=1

为了能解释这一组观察点,我们需要对参数

P(wj|zk),P(zk|di)进行估计.PLSA模型使用期望最大(ExpectationMaximization,EM)算法对潜在语义模型进行拟合.在使用随机数初始化后,交替实施E步骤和M步骤进行迭代计算.

在E步骤中计算每一个(di,wj)对潜在语义zk的先验概率

(3)

󰀁[log(f

+1.0)*log(N/np)]2

(7)

第4期王奕:基于概率潜在语义分析的中文文本分类研究

󰀁󰀁其中,aij表示词i在文档j中的权重,fij表示词i在文档j中的出现频数,N表示文本集的文档总数,M表示文本集的词总数,ni表示词i的文档频数.TF󰀁IDF公式有多种表达方式,但其含义都表达了以下实事:一是文本集中包含某个特征词的文档越多,说明这个特征词所含信息量越少,区别文档类别的能力越低,其权值越小;二是某个特征值出现在文本集中一个文档中的频率越高,说明这个特征值所含信息量越,区分文档类别的能力越高,其权值越大.󰀁归一化󰀁的目的是消除文档长度不同带来的影响.2.3󰀁构造潜在语义模型

构造K维的语义空间Z,对训练集中的每一类文本集使用PLSA模型,计算各类别文本在潜在语义空间上的概率分布,具体算法如下:

Step1󰀁采用矩阵表示法构建潜在概率语义模型,矩阵U=(P(zk|di))k,i表示文档在语义空间中分布的概率矩阵,矩阵V=(P(wj|zk))j,k表示潜在语义在关键词上分布的概率矩阵.初始化概率矩阵,使得矩阵中的每一个元素为随机产生的非负值,并满足:在U矩阵中󰀁iP(zk|di)=1,(k=0,1,󰀁,K);在V矩阵中,󰀁jP(wj|zk)=1,(k=0,1,󰀁,K);

Step2󰀁采用TEM算法对模型进行拟合.在E步骤中,用式(2)计算每一个(di,wj)对潜在语义zk的先验概率P(zk|di,wj),在M步骤中对式(6)分别对概率矩阵U和V进行重新估计,交替进行E步骤和M步骤,直至式(5)收敛时停止,得到概率潜在语义模型.

P(zk|ci)=2.4󰀁文本分类

对于每一个待分类文档t,使用类似的过程进行处理,首先对文档进行分词,提取关键词,构造文档关键词向量n(t,wj)并进行权重计算.然后,对P(zk|t)实施TEM算法得到潜在语义在待分类文档的上概率分布向量P(z|t).分别计算向量P(z|t)和各类文本集的概率中心向量P(z|c)

[6]

的相似度,即在语义空间中向量的距离,根据距离的大小将文档划分到相应的类别中去.相似度采用计算两个的向量的夹角余弦获得,如下式

sim(Zt,Zc)=

󰀁󰀁k

P(zk|t)P(zk|c)

[P(zk|t)]

󰀁k

[P(zk|c)]

.(9)

󰀁󰀁需要指出的是,传统的基于向量空间模型的简单向量距离分类法[7]与本文提到的计算概率中心向量距离进行文本分类的方法有本质的不同.前者是在以词为特征项的表层的特征向量空间中进行,后者是在文档所具有共同的深层概率语义空间中进行,概率语义空间的向量距离更能贴近地反映出文档之间的类别信息.

3󰀁测度数据及实验结果

对分类器性能的评价通常使用精确率和召回率作为评估指标[8],数学计算公式如下

精确率(precision)=分类正确的文本数,

实际分类的文本数

(10)召回率(recall)=分类正确的文本数,(11)

应有的文本数

󰀁󰀁本文采用了宏平均的精确率、召回率对分类器进行评价,即先求出每个类别的精确率、召回率,然后算术平均.

本文测试语料分别来自因特网上的新闻语料和复旦大学分类语料库,包括政治、经济、军事、环境、交通、教育、体育、医药、计算机、艺术、哲学、法律等12个类别.手工将语料库分为A、B两个子集,语料子集A共2260篇,以新闻语料为主,单篇语料控制在400~1000字之间;语料子集B共1358篇,除新闻语料外,还包括科技文献、评论文章等,单篇语料长度在500~5000字之间.测试的目的包括分类器的基本性能以及受语料的影响.在A、B两个语料子集上分别进行封闭测试和开放测试,开放测试中90%作为训练集,另外10%作为测试集,分类器的测试表现如表1所示.

󰀁

Category(d)=c

P(zk|ds)

.(8)

4󰀁结束语

用数学的方法挖掘󰀁隐藏󰀁在文本背后的潜在语义空间,把表象上不同的事物和问题,映射到相同的语义空间中去量化解决,是文本信息处理的一个好的思路.概率潜在语义分析模型具有坚实的数学理论基础,较好模拟了一个概率潜在语义

󰀁78󰀁󰀁󰀁󰀁󰀁󰀁󰀁󰀁󰀁󰀁󰀁󰀁󰀁󰀁󰀁甘肃联合大学学报(自然科学版)󰀁󰀁󰀁󰀁󰀁󰀁󰀁󰀁󰀁󰀁󰀁󰀁󰀁󰀁󰀁󰀁第25卷

表1󰀁分类器的测试表现

语料及测试类型语料A语料B

封闭测试开放测试封闭测试开放测试

精确率(%).0982.5787.4378.92

召回率(%).6383.4587.1977.94

(6):391󰀁407.

[3]THOMASHOFMANN.Probabilisticlatentsemantic

indexing[C]//Proceedingsofthe22ndinternationalconferenceonresearchanddevelopmentininforma󰀁tionretrieval.Berkeley,California:[s.n.],1999:50󰀁57.

[4]THOMASHOFMANN.Probabilisticlatentsemantic

analysis[C]//Proceedingsofthe15thconferenceonuncertaintyinartificialintelligence.Stockholm:[s.n.],1999:2󰀁296.

[5]THOMASHOFMANN.Unsupervisedlearningby

probabilisticlatentsemanticanalysis[J].MachineLearning,2001,42(1):177󰀁196.

[6]SUDARSUNS,VENKATESWARLUM.Unsuper󰀁

visedcontextualkeywordrelevancelearningandmeasurementusingPLSA[C]//Annualindiaconfer󰀁ence.Delhi:[s.n.],2006:1󰀁6.

[7]庞剑锋,卜东波.基于向量空模型的文本自动分类系

统的研究与实现[J].计算机应用研究,2001,18(9):23󰀁26.

[8]宋枫溪,高林.文本分类器性能评估指标[J].计算机

工程,2004,30(13):107󰀁109,127.

空间.现在,概率潜在语义分析模型以其优势受到越来越多研究人员的关注.本文将概率潜在语义分析模型应用于中文文本分类,目前应用这一方法进行文本分类的研究还较少,实验结果表明,基于概率潜在语义分析的文本分类模型具有良好的分类表现.

在下一步的研究中,扩大语料规模以及尝试不同的机器学习算法以改善分类器性能是研究工作的重点.参考文献:

[1]SALTONG,LESKME.Computerevaluationofin󰀁

dexingandtextprocessing[J].JournaloftheACM,1968,15(1):8󰀁36.

[2]DEERWESTERS,DUMAISST,FurnasCW,etal.

Indexingbylatentsemanticanalysis[J].JournaloftheAmericanSocietyofInformationScience,1990,41

ChineseTextClassificationBasedonProbabilisticLatentSemanticAnalysis

WANGYi

(SchoolofScienceandEngineering,GansuLianheUniversity,Lanzhou730000,China)

Abstract:Themodelofprobabilitylatentsemanticanalysisbasedonstatisticalmethodsdescribestheprobabilitydistributionbetweenlatentsemanticsanddocumentsorwords,bywhichaprobabilisticla󰀁tentsemanticspaceisactuallysimulated.Thewordsanddocumentsaremappedintothesamesemanticspace.Inthispaper,themodelisappliedtoChinesetextclassification.Ononehand,itdealswiththesynonymsandpolysemyinnaturallanguagebetter.Ontheotherhand,theclassinformationamongdocumentsisobtainedbycalculatingthevectordistanceinprobabilisticlatentsemanticspace,soastoachievethepurposeoftextclassification.Theresultsshowthattheclassifierhasagoodperformance.Keywords:Chinesetextclassification;probabilisticlatentsemanticanalysis(PLSA);semanticspace

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文