收藏本站
《北京理工大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

局部光滑保持流形正则化自编码文本表示方法研究

魏超  
【摘要】:随着信息技术的发展,形成了海量的非结构化文本数据,文本挖掘的重要性日益凸显。文本表示是将文本中大量非结构化或半结构化的字符信息转换为简洁统一的结构化形式,广泛应用于文本分类、聚类、检索等领域,是文本挖掘中关键且重要的环节。文本数据的高维、稀疏和词义相关等特性影响了文本表示理论与技术的研究发展,已有方法大多假定文本词语的分布是全局欧式词袋空间,即任意词语间相互独立,忽略了词义间的相关性,因而未能充分利用文本的语义特征。实际上,如果能够提取更为丰富的文本语义信息,特别是利用近邻文本的局部欧式特性,保持近邻文本低维流形空间的特征光滑性,可以更有效地提升文本表示的效果。论文基于流形学习理论,以保持文本表示向量的局部光滑性为突破点研究低维稠密向量的文本表示方法。首先,结合词语分布式语义特征提出基于词嵌入的文本相似性度量方法,并以此为基础构建文本近邻图用于局部近邻文本判定,再利用局部近邻文本话题加权嵌入自编码网络构建参数化文本话题编码函数(文本话题建模),融合局部近邻文本话题概率生成结构建立文本仿射映射函数(文本嵌入表示)。论文的主要成果和创新点包括:1.提出了一种结合文本集词聚合、词组合分布式语义特征的文本相似性度量方法,该方法充分利用了词语间语义联系,提升了低共现词汇文本的相似性度量准确性。针对文本相似性度量割裂词义联系,使得低共现词汇文本相似性度量效果不理想的问题,提出了一种结合词聚合、词组合分布式语义特征的文本相似性度量方法。该方法首先联合文本集中词聚合、词组合分布式语义特征进行自编码填词预测,通过自编码的训练过程建立词嵌入编码网络;然后采用词嵌入的最大加权匹配距离计算文本相似性。基于维基百科、20 newsgroups和RCV1语料库分别对词嵌入和文本相似性进行实验。在词嵌入实验中,词类比的正确率达到73.95%,词义辨析的斯皮尔曼等级相关性达到74.12,结果表明,联合词聚合与词组合分布式语义特征构建词嵌入编码网络能表达更丰富的分布式语义信息。在文本相似性实验中,利用词嵌入最大加权匹配距离的文本聚类NMI达到63.1%,利用词嵌入最大加权匹配距离的文本分类?达到71.59%,结果表明,利用词嵌入编码网络所构建的词嵌入向量计算词嵌入最大加权匹配距离,可有效利用词语间语义联系,进一步提升文本相似性度量的准确性。2.提出了一种局部近邻文本话题加权嵌入自编码网络的文本话题建模方法,该方法可建立参数化的文本话题编码网络进行样本外话题建模,并通过利用局部近邻文本话题几何结构的光滑性,进一步提高了文本分类、聚类等应用的效果。针对流形文本话题建模方法无法提供一个参数化话题编码函数进行样本外话题建模和现有样本外扩展的流形学习方法没有利用局部近邻文本话题几何结构的光滑性的问题,提出了一种局部加权嵌入正则化自编码文本话题建模方法(LWE-TM)。该方法利用低秩近似随机游走结构的条件访问概率计算局部近邻文本的加权系数,并将局部近邻文本话题加权嵌入自编码网络,进而保持局部近邻文本话题几何结构光滑性,建立参数化的文本话题编码网络。基于20 newsgroups和RCV1两种文本集的样本外话题编码进行了文本建模、聚类和分类实验。在文本建模实验中,困惑度分别达到679和1800;在文本聚类试验中,LWE-TM的NMI效果提升至接近74%,在文本分类实验中,LWE-TM的达到86.59%,结果表明,LWE-TM利用建立的参数化文本话题编码网络可有效地进行样本外话题建模,拓展用于文本分类、聚类问题;通过保持局部近邻文本话题几何结构的光滑性,增强了文本话题编码的光滑性,提升样本外话题建模的准确性。3.提出了一种融合局部近邻文本话题概率生成结构的自编码网络文本嵌入表示方法,该方法通过保持局部近邻文本话题概率生成结构的光滑性,进一步提高了文本分类、聚类等应用的效果。针对现有文本嵌入表示方法无法有效保持局部近邻文本话题概率生成结构光滑性的问题,提出了一种融合局部近邻文本话题概率生成结构的文本嵌入表示方法(Disc-LDE)。该方法首先基于文本相似性度量构建文本近邻图;然后通过执行近邻图直推式多代理随机游走,构建了具有高重叠比例的子空间;最后利用子空间近邻文本的LDA模型生成伪文本,将其作为流形正则项与真实文本一起进行自编码网络的优化重构,构建光滑的仿射映射函数,执行样本外文本嵌入。基于20 newsgroups、RCV1和Amazon reviews三个文本集对样本外文本嵌入表示进行了聚类和分类实验。Disc-LDE的聚类NMI效果提升到近71%,分类?效果提升达到83.91%,结果表明,具有较高重叠比例的子空间可以有效保持局部近邻文本话题概率生成结构的光滑性,从而构建光滑的仿射映射,进一步提高了文本分类、聚类等应用的效果。
【学位授予单位】:北京理工大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:TP391.1

【参考文献】
中国博士学位论文全文数据库 前2条
1 杨杰明;文本分类中文本表示模型和特征选择算法研究[D];吉林大学;2013年
2 周华;基于流形感知的图像距离度量研究[D];华中科技大学;2011年
【共引文献】
中国博士学位论文全文数据库 前7条
1 魏超;局部光滑保持流形正则化自编码文本表示方法研究[D];北京理工大学;2017年
2 张庆庆;基于机器学习的文本情感分类研究[D];西北工业大学;2016年
3 闫琰;基于深度学习的文本表示与分类方法研究[D];北京科技大学;2016年
4 佟旭;基于复杂网络理论的糖尿病肾病辨证建模研究[D];北京中医药大学;2016年
5 贾隆嘉;文本分类中特征加权算法和文本表示策略研究[D];东北师范大学;2016年
6 凤丽洲;文本分类关键技术及应用研究[D];吉林大学;2015年
7 谢江宁;高校科研数据可视化关键技术研究[D];山东大学;2014年
【二级参考文献】
中国博士学位论文全文数据库 前10条
1 肖洁;视觉注意模型及其在目标感知中的应用研究[D];华中科技大学;2010年
2 陈韶斌;基于知识推理和视觉机理的遥感图像目标识别方法研究[D];华中科技大学;2010年
3 窦燕;基于空间和物体的视觉注意计算方法及实验研究[D];燕山大学;2010年
4 罗磊;基于流形学习的毫米波探测器目标识别方法研究[D];南京理工大学;2010年
5 王慧;空间和目标注意协同工作的视觉注意计算机模型研究[D];吉林大学;2010年
6 李作进;基于视觉认知的自然图像目标识别研究[D];重庆大学;2010年
7 邵纪东;非线性过程监测中的数据降维及相关问题研究[D];浙江大学;2010年
8 王建中;基于流形学习的数据降维方法及其在人脸识别中的应用[D];东北师范大学;2010年
9 余磊;Gabor小波变换在人脸识别中的应用研究[D];重庆大学;2009年
10 刘赫;文本分类中若干问题研究[D];吉林大学;2009年
【相似文献】
中国期刊全文数据库 前10条
1 霍亮;杨柳;霍烽;;谈文本分类中的相关技术[J];合作经济与科技;2012年13期
2 刘冬明;杨尔弘;;话题内相关文本的内容计算[J];中文信息学报;2015年05期
3 骆梅柳;;文本表示模型在文本挖掘中的应用[J];现代信息科技;2019年07期
4 翟文洁;闫琰;张博文;殷绪成;;基于混合深度信念网络的多类文本表示与分类方法[J];情报工程;2016年05期
5 陈功;黄瑞章;钟文良;;基于社交特征的多维度文本表示方法[J];计算机工程与科学;2016年11期
6 刘建毅;王菁华;王枞;;文本网络表示研究与应用[J];中国科技论文在线;2007年10期
7 马蓉;秦晓晴;;学术写作中文本借用与写作质量之间的关系[J];现代外语;2014年04期
8 陈桂鑫;;在Windows中看繁体文本[J];电脑迷;2006年21期
9 周昭涛,卜东波,程学旗;文本的图表示初探[J];中文信息学报;2005年02期
10 李均明;趙桂芳;;清華簡文本復原——以《清華大學藏戰國竹簡》第一、二輯為例[J];出土文献;2012年00期
中国重要会议论文全文数据库 前10条
1 周昭涛;卜东波;程学旗;;文本的图表示初探[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
2 岑艺明;;内外合璧,让非连续性文本阅读教学锦上添花——浅谈小学语文非连续性文本教学的现状及策略[A];教育理论研究(第六辑)[C];2019年
3 李长松;;引导学生走进文本的天地——阅读方法指导例谈[A];国家教师科研基金“十一五”成果集(中国名校卷)(五)[C];2009年
4 张智军;沈昉;朱伟;;文本组织方式对介绍性文章搜索绩效的影响研究[A];中国人类工效学学会第六次学术交流会论文摘要汇编[C];2003年
5 石志伟;吴功宜;;改善朴素贝叶斯在文本分类中的稳定性[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
6 热依玛依·买买提;维尼拉·木沙江;;基于文本的图片检索中图片相关文本提取技术的研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
7 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
8 刘顺利;;在“元文本”与“文本”之间[A];东方丛刊(2004年第1辑 总第四十七辑)[C];2004年
9 易绵竹;南振兴;李绍哲;薛恩奎;;文本生成与理解的语言学模拟——伊戈尔·梅里丘克《意思(?)文本》模型评介[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
10 王树西;白硕;姜吉发;;基于自由文本的模式推理[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国重要报纸全文数据库 前10条
1 何建明;应当充分自信中国自己的文本书写[N];文艺报;2019年
2 周宪;数字时代,回归文本更需要[N];中国石化报;2019年
3 ;中美走到谈协议文本,双方更需理性[N];环球时报;2019年
4 何建明;应当对中国的文本书写充分自信[N];太原日报;2019年
5 记者 林嫔;完善申报历史文化名城文本[N];湄洲日报;2018年
6 本报记者 王婷婷;写好申遗文本 讲好梵净故事[N];铜仁日报;2018年
7 桫椤;文本位移和审美转场[N];文艺报;2018年
8 本报记者 袁欢;立一个自足于文本的“深度时间”[N];文学报;2018年
9 荣新江;《马可·波罗与元代中国:文本与礼俗》序[N];中华读书报;2018年
10 中央党校马克思主义学院 牛先锋;吃透文本 面向现实 弘扬正气[N];学习时报;2017年
中国博士学位论文全文数据库 前10条
1 魏超;局部光滑保持流形正则化自编码文本表示方法研究[D];北京理工大学;2017年
2 闫琰;基于深度学习的文本表示与分类方法研究[D];北京科技大学;2016年
3 刘晓佩;自然场景文本信息提取关键技术研究[D];西安电子科技大学;2014年
4 宋胜利;文本语义表示及多层分类关键技术研究[D];西安电子科技大学;2012年
5 王中卿;基于文本信息的社会关系分析与研究[D];苏州大学;2016年
6 李岩;基于深度学习的短文本分析与计算方法研究[D];北京科技大学;2016年
7 廖涛;面向事件的文本表示及其应用研究[D];上海大学;2014年
8 张妍;自我指涉与表演:柯马丁解释《诗经》等文本的策略[D];浙江大学;2014年
9 李丽洁;视频中文本信息提取技术研究[D];哈尔滨工程大学;2012年
10 孙巧榆;复杂背景图像的文本信息提取研究[D];华东师范大学;2012年
中国硕士学位论文全文数据库 前10条
1 范继利;流形学习及其在文本分类中的应用[D];合肥工业大学;2012年
2 邱芸;小学英语教材整合中的文本再构实践研究[D];上海师范大学;2016年
3 黄志锋;中职语文教学“反文本”倾向探究[D];宁波大学;2015年
4 王珺瑶;面向微博文本的分类技术应用研究[D];广西大学;2015年
5 卢虹贝;木心文学创作中的“文本再生”现象研究[D];南京大学;2014年
6 韩霜;古代辞赋类文本教学探索[D];山东师范大学;2014年
7 胡晓平;新课程背景下阅读教学中的文本教学资源研究[D];陕西师范大学;2013年
8 东雪;论沃尔夫冈·伊瑟尔的文本观[D];湘潭大学;2011年
9 郭超;高校思想政治教育文本载体研究[D];浙江理工大学;2012年
10 王伟贻;文本背景在阅读教学中的作用及运用[D];山东师范大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026


男人都来的每日更新...