第一章 绪论
1.1 研究背景与意义
截止 2019 年 6 月,我国网民规模达到 8.54 亿,其中手机网民规模达到 8.47亿,互联网普及率达到了 61.2%,其中近年来使用率最高、增长最快的即时通信、网络新闻、网络视频三大领域的用户数分别为 8.24 亿、6.68 亿、7.59 亿,网民使用率分别达到 96.5%、80.3%、88.8%[1],它们的近年发展趋势如图 1-1 所示。
.......................
1.2 国内外研究现状
国内外学者针对短文本特征稀疏、具有不规范性的问题,提出了众多的短文本分类方法,对于特征稀疏的问题,通过对短文本的特征进行拓展加以解决,本节将介绍两类主要的特征拓展方法:基于内容的特征拓展方法和引入外部知识的特征拓展方法。对于短文本不规范性的问题,通过理解文本的深层语义,减少噪声的影响,本节将介绍近年来较流行的基于深度学习的文本分类方法。
1.2.1 基于内容的特征拓展方法
基于内容的短文本特征拓展方法是将短文本自身内容的词频、主题分布、语义信息等作为特征拓展项,通过构建关联词集、高频词集、主题分布等实现对短文本特征的拓展。 基于关联规则的特征拓展方法将语料中的共现关系作为特征拓展项。Fan 等人[15]通过对训练文本语料中的词汇关联规则进行提取,建立了词汇间的关联规则库,用于文本的特征拓展。王细薇等人[16]利用 FP-Growth 算法挖掘短文本语料中特征项的共现关系,抽取关联规则,用于对短文本中概念词的特征拓展。曹叶盛[17]在获取短文本共现关联规则的基础上,利用词语的类别分布情况,对关联规则进行筛选,得到更高质量的词语共现关联规则,用于短文本特征拓展。
基于词频的特征拓展方法将语料中特征的出现频率作为特征拓展项。胡勇军等人[14]将高频词作为短文本特征的拓展项,首先对短文本中的词集按照主题分类,再筛选出语料中概率大于指定阈值的隐主题,将该隐主题下的高频词拓展到文本中,拓展短文本特征。付学敏等人[18]提出一种基于高频词拓展的短文本分类方法,首先统计语料中每个类别的高频词构成拓展特征空间,然后将拓展空间中与短文本具有高共现性的特征作为短文本的特征拓展项,丰富短文本的特征。袁满等人[19]提出了一种基于频繁词集的短文本特征拓展方法,通过计算词集的置信度和支持度,获得类别倾向相同的频繁词集,作为短文本特征拓展项。马慧芳等人[20]对频繁词集短文本特征提取方法进行了改进,在 TF-IDF 的基础上,引入信息增益加强词语的权重表示,还对频繁词集进行改进,构造带权词语相似性矩阵,然后用于短文本的特征拓展。此外,还有学者将词频和关联规则结合进行特征拓展,靳一凡等人[21]提出了基于频繁项特征拓展的短文本分类方法(Short Text Classification Based on Frequent Item Feature Extension,STCFIFE),该方法利用 FP-Growth 算法提取语料的频繁项集,利用上下文关联计算出拓展特征权重,将频繁项集中的特征作为拓展特征,加入原有短文本中以丰富其特征。
.........................
第二章 短文本分类相关技术分析
2.1 文本表示
2.1.1 Word2Vec
Word2Vec 是一种分布式词向量模型,即根据大规模语料中某个词的上下文信息,将该词表示为一个静态的定长低维稠密向量。Word2Vec 可以表示词语的全局上下文语义信息,同时减少特征空间的维度,便于计算。
........................
2.2 文本特征提取
在文本分类问题中,文本特征提取是指对文本分词结果进行筛选,获得具有区分性的信息。文本特征提取可以提高文本分类模型的预测精度,缩短模型的训练时间,减小模型训练时的运算复杂度。常用的特征提取方法及其优缺点的优缺点,见表 2-1 所示:
.......................
3.1 问题描述与定义 ........................................ 24
3.2 基于 TextRank 的短文本关键词提取 ............................. 24
第四章 融合知识图谱与深层语义的短文本分类模型 ...................... 41
4.1 问题描述与定义 .................................. 41
4.2 基于 BERT 模型的短文本分类方法 ............................. 42
第五章 基于知识图谱的短文本分类的应用 .............................. 59
5.1 系统概述 .................................... 59
5.2 系统总体设计 ............................. 60
第五章 基于知识图谱的短文本分类的应用
5.1 系统概述
本章基于 UGC 平台的短文本敏感内容分类系统是项目课题《文本数据脱敏保护技术研究》的数据采集和数据分析的部分,系统的目标是:利用大规模语料,并从知识图谱中引入外部知识,训练融合知识图谱与深层语义的短文本分类模型,用于用户生成短文本敏感内容分类,最终对分类结果进行可视化结果。除此之外,本章原型系统还需要将短文本分类功能封装为接口,便于和项目课题后续功能的集成。 根据以上目标,本章的原型系统构建主要分为以下五个步骤:
1. 常见敏感内容类别的调研与分析。对微博、BiliBili、微信公众平台等用户数量多、影响力大的 UGC 平台进行调研,分析其用户管理制度、内容规范条例中的对敏感内容的类别定义,整理出常见的包含敏感内容的短文本分类类别;
2. 原始数据的预处理。对课题项目提供的原始数据进行预处理,过滤原始数据中的无效数据和冗余数据,将多源数据的数据格式进行统一,并将原始数据中的分类标记映射转换为本章构建的常见敏感内容分类类别中,最后将预处理后的数据划分为训练集和测试集,用于短文本分类模型的训练;
3. 短文本敏感内容分类模型训练与应用。利用 2 中得到的数据集,基于STCMTA 算法训练一个短文本敏感内容分类模型,并用于未标记短文本的分类预测;
4. 短文本分类结果可视化。将 3 中得到的分类结果的按照类别分布进行可视化,便于系统用户对后续趋势进行预测;
5. 短文本分类分类接口设计。为了方便项目课题在后续功能中直接集成本系统的核心功能,将本章中的短文本向量表示、分类结果输出两个部分封装为接口。
以上流程如图 5-1 所示:
............................
第六章 总结与展望
6.1 全文总结
随着互联网技术的迅速发展,短文本以其简短、直观、传播快速的特点,大量应用于各类互联网应用中,由此,网络上产生了海量的短文本数据,而目前很多短文本数据没有充分得到利用,大量有价值的隐含信息有待挖掘。利用短文本分类技术,可以快速挖掘网络海量短文本中的隐含信息,应用于内容推荐、舆情监控、辅助决策等领域。但是,网络中的短文本篇幅短小、表达不严谨,导致特征稀疏、不规范性问题,使用传统的文本分类方法得到的分类结果较差。本文针对短文本分类中,特征稀疏和不规范性问题进行了研究,主要的研究工作和创新点总结如下:
(1)分析归纳了现有的短文本分类方法和研究现状。本文首先对短文本分类中的问题进行定义和阐述,然后介绍了针对短文本特征稀疏性问题和不规范性问题的现有方法,说明了方法的基本原理,同时归纳整理了文本分类中近年来相关研究成果。
(2)提出了一种基于知识图谱的短文本特征拓展方法。针对短文本的特征稀疏问题和传统的引入外部知识的特征拓展的方法中,获取知识的难度大、获取的知识质量较低的问题,本文提出了一种基于知识图谱的短文本特征拓展方法。该方法将短文本中的关键词与百科通用知识图谱 CN-DBpedia 中的实体进行映射,通过实体链接技术将短文本关键词映射到目标实体,获取高质量的短文本背景知识,作为特征拓展项丰富短文本的特征。
(3)提出了一种融合知识图谱与深层语义的短文本分类模型。针对短文本的不规范性问题,本文提出了一种融合知识图谱与深层语义的短文本分类模型BERT-KG。该模型在原 BERT 模型的基础上,对其输入层和 Transformer 结构进行改进,从知识图谱引入外部知识,减少了短文本不规范部分带来的噪声影响,增强了对不规范短文本语义的理解。实验结果表明,该方法的分类结果明显优于基于浅层语义的短文本分类方法。
参考文献(略)