金融领域文本分类算法的优化之软件工程分析

论文价格:0元/篇 论文用途:仅供参考 编辑:论文网 点击次数:0
论文字数:**** 论文编号:lw202329974 日期:2023-07-22 来源:论文网
本文是一篇软件工程论文,本文主要的目的是研究如何通过机器学习和深度学习的方法来判断文本的金融领域相关性,致力于通过算法过滤掉金融领域不相关的文本,给用户一个极佳的阅读体验。

1 绪论

1.1 研究背景和意义
随着互联网的兴起与发展,人们的生活也随之发生了巨大的变化。互联网是众多信息的载体,从互联网中可以获取到我们想要的任何的信息。现如今,中国经济的发展势头正猛,伴随着经济的高速发展,股票、基金等逐渐成为人们业余聊天的话题。人们可以通过互联网查阅金融相关的一些资讯信息,通过这些信息了解自己关注的某只股票或者是某个公司股票的股价走势,从而帮助自己更有益的进行股票相关的交易。
互联网上信息多而且杂乱,当我们查看金融领域相关资讯的时候,出现的文本并不总是金融领域相关的,通常还会包含一些广告类文本、宣传某种产品或者某个公司的软文类文本、一些纯技术类的教学文本、以及一些看盘荐股类文本。这些文本的金融领域相关性通常不是很高,阅读这些领域不相关的文本往往耗费大量的时间,同时还得不到有益的信息,非常影响用户的阅读体验。针对这个诉求,我们希望过滤掉这些领域不相关的文本,通常的方法是人工删除,一篇文章的长度一般都在 500 字以上,人工过滤费时费力,所需要的成本非常大,这就需要我们借助更快捷的方法来达到这样的目的。
随着人工智能的发展,机器学习、深度学习成为热门学科,不仅学校设立了此类热门学科的课程供学生们进行探究;公司的各大产品也逐渐应用了人工智能的知识,这样不仅能够减少大量的人工,还能尽快获得收益。近些年,人工智能与金融领域的结合越来越紧密,人工智能服务于金融产业,金融科技飞速发展。针对上述提到的过滤金融领域不相关的文本,我们考虑借助机器学习和深度学习的方法,用机器学习和深度学习的模型判断文本的金融领域相关性,即判断文本是金融领域相关还是金融领域不相关的。
..........................

1.2项目需求描述

本项目做的工作是资讯质量分析,是腾讯自选股 App 下资讯文本展示功能的一个基础性技术支撑,App 文本展示如图 1.1 所示。所有资讯都要进行资讯质量分析,分析完成后只有高质量的资讯文本才会展示出来。

本文所涉及的工作是资讯质量分析下的一个小模块,即资讯文章的金融领域相关性判别。
所谓的资讯质量分析,就是给每一篇资讯打上质量分,分数从一分到五分,质量分数与文章的质量成正比关系,即质量分数越高,文章的质量越好。质量分的判断依据来自多个方面:资讯媒体账号的质量如何,是黑名单账号还是白名单账号;资讯文章是金融领域相关的,还是金融领域不相关的;资讯文章是不是广告文章;资讯文章的字数如何,过多还是过少等等。这些方面综合起来给资讯文章定一个最终的分数。

......................

2 文本分类简介

2.1 文本分类理论
2.1.1 文本分类定义
文本分类是一个预定义的过程,需要事先定义好明确的类别,对文本信息进行特征工程的工作从中抽取特征,根据抽取出来的特征结构化表示文本,最后对结构化表示后的文本预测其所属类别的过程。文本分类是自然语言处理中的一个重要任务,它的输入是需要进行分类的文本,它的输出是文本的类别标签。
文本分类的一个问题就是类别标签多少的问题。类别标签可以是两个也可以是多个:类别标签为两个时对应的是文本二分类问题,类别标签为多个时对应的是文本多分类问题。
文本分类的另一个问题就是类别标签是否互斥的问题。在一个文本涉及多个类别标签的时候会有这样的问题。如果类别标签不是互斥的,一个文本可以同时被打上这几个标签;如果类别标签是互斥的,一个文本不能同时被打上这几个标签。
本文涉及的分类类别为金融领域相关和金融领域不相关这两类,一条资讯文本同时只能属于这两类中的一个类别,因此本项目中的文本分类是一个二类,且类别互斥的文本分类。
.........................

2.2 文本分类技术
2.2.1 文本预处理
文本预处理是进行文本分类的关键性步骤。一般情况下,需要交给分类系统处理的文本,必须经过文本预处理这一阶段。这样做的目的是可以将文本进行统一的结构化表示,可以去除文本的冗余信息,过滤文本中的噪声信息,便于分类系统的处理,保证文本分类系统快速、高效和稳定的运行。文本预处理操作一般包括以下几个方面:
1)格式化处理
文本分类中的数据大多都是网络爬虫爬取下来的,爬取下来的大多是带有 html标签的数据,或者是带有 json 样式的数据。对文本分类这个任务来说,格式是没有意义的,我们需要的是格式里面包含的纯文本信息,所以我们需要对带标签的文本进行解析。
2)繁简、全角半角转换
训练数据和测试数据中的文本由中文字符、数字、英文字符、标点符号和特殊字符组成。对于中文字符来说,存在的问题是繁体简体混在一起的情况,繁体和简体混在一起不仅会导致分词错误,还会导致数据变得稀疏,此时必须将其转成统一的简体形式;对于数字、英文字符和标点的问题是全角和半角混在一起的情形,该情形特别容易造成分词的错误,此时必须将全角和半角统一成半角的形式。
3)中文分词和词性标注
(1)中文分词
词语是能够独立应用的最小的语言单位,英文词与词之间有空格隔开,而中文是一长串连续的文本,因此自动分词成为了处理中文文本的一个基础性工作,是处理中文文本的一个重要环节。

中文分词就是为一长串连续文本中的不同词之间自动加上分隔符号的过程。多年来,经过国内外学者对中文分词领域的大量研究,提出了很多中文分词的方法,取得了一定的成果。第一种方法是基于词表的分词方法:这些分词方法都要基于词表,如正向最大匹配法(FMM)、逆向最大匹配法(BMM)、双向扫描法等[17];第二种方法是基于统计学习的分词方法[18]:随着统计学习方法的发展,国内外学者经过研究又提出了基于,计学习的分词方法,如基于最大熵(maxent)的分词[19],基于 n 元语法的分词[20],基于条件随机场(CRF)的分词[21],和基于隐马尔科夫模型(HMM)的分词等[22];第三种方法是基于规则和统计学习方法相结合的分词方法。

..............................

3 文本分类基础策略................14
3.1 训练数据准备 .......................14
3.2 基于 xgboost 的文本分类 .............14
3.3 文本分类实验 ..............................20
4 文本分类策略的优化................20
4.1 训练语料扩充 .......................23
4.2 训练语料清洗 ..............................31
5 总结与展望.................48
5.1 全文总结 .........................48
5.2 展望 ....................................48

4 文本分类策略的优化

4.1 训练语料扩充
4.1.1 基于规则的语料召回
目前,金融领域相关文本识别的主要问题是将纯技术类文章,例如讲解 Python,java 之类的文章,和一些软文类文章,例如宣传某公司的文章,误判为金融领域相关的。为了解决这类问题,考虑扩充纯技术类文章和软文类文章作为金融领域不相关的样本加入训练语料。

1)基于账号的召回
(1)召回的策略
基于账号的召回的主要目的是为了从历史数据中召回纯技术类的资讯文章,该部分的召回主要是从账号的维度扩充数据,需要一个爱发纯技术类文章的媒体黑名单账号词典,要求历史数据的账号只要匹配设定的黑名单账号词典,就认为数据是纯技术类资讯文章。当前,我们已经有了一小部分黑名单的账号集合,因此,主要工作是如何快速高效根据已有黑名单媒体账号扩充新的黑名单媒体账号,扩充的流程如图 4.1 所示。

........................

5 总结与展望

5.1 全文总结
随着互联网和金融产业的发展,越来越多的人对金融产业感兴趣,并希望通过互联网了解更多金融产业的资讯。然而互联网信息多而杂,如何过滤这些多而杂的文本保留下金融领域相关的文本是本文的一个主要目的。
本论文涉及的项目是腾讯自选股 App 下资讯文本展示功能的一个基础性技术支撑,所有要展示的资讯都要进行资讯质量分析,分析完成后只有高质量的资讯文本才会展示出来。自己负责的部分是质量分析下的一个小模块,即资讯文本金融领域相关性的判别,也就是一个二类文本分类问题。在已经上线的版本中已经有一个 base 版本的金融领域相关性文本分类功能,但是该功能存在一些误判问题,比如将纯技术类文本误判为金融领域相关性文本。所以,我的主要工作就是对现有的 base 版本进行优化。
本论文中介绍的主要优化点有以下几个方向:
(1)训练数据的扩充,本文介绍了两种扩充训练数据的方法:第一种是基于规则的方法,该方法是通过现有的案例总结规则,从历史文本中再次召回,本项目中采用的是基于关键词和 pattern 识别等规则的方法召回文本生成训练语料;第二种方法是基于模型的方法,一个是聚类算法,一个是主动学习,两者的目的都是为了缩短人工标注的周期、减少人工标注的成本。此外在获得训练语料后,也介绍了如何对训练语料进行清洗,本项目中采用基于文本内容和媒体账号两个维度对训练语料进行清洗挑选出高质量的训练文本。
(2)文本分类方法上的改进,原始的分类器采用 xgboost 模型,只采用分词特征,忽略了语义信息,因此准确率和召回率都不是很高。改进的版本中,在文本分类的特征中引入带有语义信息的词向量特征对文本建模,此外在改进的版本中还采用深度学习的方法,使得最终准确率和召回率都有了很大的提升。
参考文献(略)

如果您有论文相关需求,可以通过下面的方式联系我们
客服微信:371975100
QQ 909091757 微信 371975100