第一章 绪论
1.1当今社交媒体对电影行业的影响
互联网上基于用户关系的内容生产与交换平台称为社交媒体[1]。现实生活中的社交网络是一个广义的概念。社交网站映射了人们交流互动的生活规律和行为。就历史来说,早在 1994年,中国就出现了第一个 BBS 论坛(曙光),这是社交媒体发展的起始产物。逐步发展到 2008年,互联网开始出现社交媒体的热潮,以 2009 年新浪微博的推出,标志着成熟的社交媒体平台技术走向人们的生活。当今的娱乐社交例如抖音、快手等以及微信息社交媒体诸如微信,twitter 已经遍布每一个人的生活轨迹当中[2]。社交媒体的作用逐渐渗透到各行各业中。随着互联网的发展,社交媒体用户数量不断攀升,本文研究社交网络对于这些行业在互联网时代的发展也具有重大意义。
如果一部电影在投资的初期就能遇见到将来的票房,那么对于规避风险和提高盈利都是具有积极作用的。电影行业首要的难题是投资回报率难以预测[3,9]。大数据时代制作与出品电影的投资公司不得不考虑演员选角,电影类型,分镜导演等等因素,以确保电影在上映期不会以惨淡的票房收官。结合相对科学的预测数据,可以及时对电影发行、营销等各个环节进行合理的决策修正,规避电影运作过程中的各种危险因素和不利影响[9]。大投资的鸿篇巨制观众不一定喜欢,小投资的黑马电影到是层出不穷。举例来说,最终票房有望破 4 亿小成本喜剧片《无名之辈》无疑是 2018 年中国电影国产片中最大的黑马,从数据来看,该片以超低排片量超高评分(豆瓣评分高达 8.4 分)超越了投资近 2 亿美金的超级大片《神奇动物 2》,上座率也远大于同期的漫威巨制《毒液》。可以说,票房预测是挖掘电影行业潜在价值的主要研究问题和难点。
票房预测的作用主要体现在两个方面,一是对投资的指导意义,选材不对路的电影在项目立项之前就能提醒投资人潜在的风险。二是营销和发行决策的科学性。定档是一个技术活,扎堆的炮灰电影明显就没有为自己挑选正确的对手。选择最佳的档期对有些影片来说可以有一倍以上的票房增长。票房体量较大和较小的电影应该采用不同的电影宣发模式。走口碑长线应尽可能多提前点映,散发口碑。如果是明星投资阵容都大,那么应该造势而不是点映和提前观影,确保票房由观众的兴趣带动。
............................
1.2 国内外研究现状
本文在调研众多分析研究之后决定将票房预测任务分为三部分。第一部分是利用文本技术对影评文本进行分析,第二部分是挖掘影响票房成绩的情感特征因素,第三部分根据所挖掘的特征构建票房模型。这三部分在本文中分别称为短文本分析,情感分析,票房预测。之所以用“短”是因为大部分社交影评都很短,人们在交流互动的过程中不偏向与发表长篇大论,所以对这些短评的关键点要素的提取就需要短文本的主题模型。以此为基础,再进行文本的情感分析,分析人们对不同电影关键要素的情感态度。得知观众的喜好和厌恶的细节,
就能为下次投资新电影提供经验。另外,本文量化情感要素,将其转换为正负面情感占比,加入到票房测模型中,用以增强票房预测的准确性和可信度。目前,针对票房预测的研究主要集中在对预测模型的本质,票房收入的模式,口碑等因素的影响方面。本文考察最近的研究发现深度学习模型在提取特征表达这方面作用明显。大部分的研究开始将着眼点放在如何利用深度学习从有限的数据中提取更多的票房特征,利用情感分析或者社交网络在这个问题上都是可行且有效的切入点。
1.2.1票房预测的研究现状
票房预测问题由来已久,也有过多次积极的研究并尝试。最早的预测模型追溯到 20 世纪80 年代,美国电影学家 Barry Litman 曾提出层次化的回归模型用以解释电影发行、营销与租金收入之间的关系。揭示了票房预测上本质上是一个线性影响因素权重的学习过程。其认为观众个人爱好以及观点推动了电影的传播间接影响票房,而上映制度、电影发行成本等因素则构成了票房的经济学结构。问题在于如何定量确定电影预测所需的影响因素,这是目前研究的关注点。Sharda 等[10]将电影票房的票房模式分为飙升和猛跌两种形态,从而在一定范围内区分地评估票房的趋势和变化范围,这种方法将回归型问题转化为分类问题,主要问题在于其准确度较低,不能精确的评估将来的票房变化。Liu 等[11]研究口碑的动态变化和其对票房的影响,指出在电影上映前宣发手段能有效地增加观众对电影的期望,是实际意义上提升票房的保证。Google 在 2013 年其研究白皮书1中提出过其所用的票房预测模型,该模型主要利用搜索、广告点击以及院线拍片量来预测票房,不仅考虑了宣传、口碑等传播学因素还同时结合了同类电影历史的票房成绩来提高预测准确性。此后,百度,搜狗等互联网搜索公司也纷纷效仿,推出自家的票房预测功能。如猫眼专业版可以实时预测票房,搜狗的“深思”预测系统可以分析票房走向,百度大数据平台提供概览性的票房市场分析等。一些具有潜力的电影工作室也依靠内部的分析团队,在票房预测的基础上,给出一些辅助投资电影市场的策略。
...........................
第二章 影评文本预处理以及情感模型介绍
2.1中文分词技术
中文分词技术[37]大体可以分为三大类,分别是基于字符串匹配的分词方法[38]、基于语义的分词方法[39]和基于统计的分词方法[15]。基于字符串匹配的分词容易受到歧义的影响,因此通常准确率不高,但是其分词的速度相当快,适合进行海量文本数据的分词试验。基于统计的分词方法旨在减少分词过程中的歧义问题,这种方法基于词由字共同出现产生的思想,将高概率的共现字作为词的待选节点,通过路径图组织这些词然后以概率确定最佳切分。基于语义理解的分词方法是通过人工智能理解句子的方法进行分词,模拟人类理解句子的过程来消除歧义现象。这种分词手段需要大量的领域语法或者语言知识。对于汉语言来说,规则太过复杂一直,以至于目前基于语义理解的分词还处在初期阶段。由于本文使用的是基于统计的分析方法,下面着重介绍一下此种分词方法。
2.1.1 基于统计的分词方法
基于统计的分词模型的使用的优化目标函数,都是根据贝叶斯公式,该方法常见的模型有隐马尔科夫模型,最大熵模型和 N-gram 模型。首先将带分词句子??全分割,即将全部的分割方法都穷尽,构造一个有向无环图。以“南京青奥会”为例,分词算法将会组成如下图 2.1所示的分词图。对相邻共现的各个字的组合(如“南京”,“京青”,“奥会”等) 的频度进行统计计算概率,然后从开始节点到结束节点计算每条路径上的概率,以最大概率的那条路径作为分词结果。
............................
2.2命名实体识别技术
电影评论中往往包含了观影用户对于这部电影的看法,如果能从评论文本中得到观众对于演员或者主创的想法,就能了解到观众对这部电影的情感倾向根源是否来自于电影主创(包括主演)的影响。这一任务的关键是首先识别一位演员在众多评论中来自电影或者其他方面的称呼、别名等,然后在相关断句中识别观众情感。这里的识别技术称为命名实体识别[40] (Named Entity Recognition)。狭义上,任务对象包括人名,地名和组织名这三类最重要的命名实体。图2.2 展示了具体命名实体识别的例子,可以看出歧义现象仍然存在并且是技术难点。
2.2.1基于匹配的命名实体识别
基于匹配的识别技术主要是利用人工编写的规则,将文本与规则匹配,从而识别出具体的命名实体。对于中文来说,某些字隐含了上下文是人名地名等特殊词素。例如“说”,“先生”,“老师”等词的上下文一般是人名;“在”,“广场”等词的上下文一般是地名等等。但是构建汉语言的命名实体的规则很难很复杂,需要处理不同规则之间复杂的交互逻辑导致这种匹配手段不是很有效。尽管如此,目前的研究仍然有大部分集中在规则匹配上,原因在于很难获取到实际意义上标准准确且适合训练命名实体识别训练集。大部分场景下,领域内容对识别的准确率有很大的影响。即时通过一个通用的训练集能训练出模型使用在领域场景中其识别率依然很低。所以很多研究集中在利用领域知识构建知识库,例如知识图谱。在这些知识库的基础上进行基于匹配的命名实体识别即能保证效率,又能有优秀的结果。
.................................
第三章 多关系主题模型的原理与构建 ..................................... 20
3.1短文本主题建模的问题描述 ...................................... 20
3.2多关系的主题模型构建 ........................................ 21
第四章 基于 LSTM 的影评的情感分析 ................................ 27
4.1情感分析的问题描述 ................................ 27
4.2情感分类的模型构建 ................................. 27
第五章 融入情感的阶段性电影票房预测模型........................................ 33
5.1影评中主创的识别和影响力判定算法设计........................................... 33
5.1.1 人名识别算法 ............................. 34
5.1.2 量化主创影响力 .................................. 35
第五章 融入情感的阶段性电影票房预测模型
5.1影评中主创的识别和影响力判定算法设计
电影评论中往往包含了观影用户对于这部电影的看法,如果能从评论文本中得到观众对于演员或者主创的想法,就能了解到观众对这部电影的情感倾向根源是否来自于电影主创(包括主演)的影响。这一任务的关键是首先识别一位演员在众多评论中来自电影或者其他方面的称呼、别名等,然后在相关断句中识别观众情感。举例来说,有如下的影评分析场景:
1) 特效很棒,部分场景很惊艳,打斗场景很壮观。杨洋的夜华(角色名)扮相特别帅。
2) 哪有那些人说的那么尴尬,我们唐唐(昵称)除了开头的确演技生涩了一点,这个没什么不承认的,继续努力呗,加油支持~但也没有出戏啊,明明(昵称)萌萌哒帅帅哒
这两个句子中都有明显的部分提及主创,这些句子的情感是分析该主创影响力的最直接证据,如果能从评论中提取这些主创的主观性评价,将大大增强对主创的影响力的判定。本文提出的方法主要分为两个部分。一是设计了基于多级匹配的人名识别算法,而是在识别人名的基础上以情感的倾向量化分析对应主创的影响能力。
................................
第六章 总结与展望
6.1全文总结
本文从寻找情感特征的角度出发,利用文本分析技术对票房预测问题进行了研究和补充,首先本文调研了国内外在票房预测、短文本主题建模和情感分析这三个领域的研究现状;然后提出了本文的创新策略。即分别从生命周期、电影的主创特征的衡量以及分析观众情感变化三个方面切入基于情感分析的阶段性票房预测问题。第二章对所利用到的技术进行了介绍,包括分词、文本特征提取和命名实体识别技术,接着介绍所使用的基于 LSTM 的情感分析模型。
本文从构建多关系主题模型开始,将短影评中涉及的所有电影关注点挖掘出来。另一方面,利用已有的数据训练情感分类的 LSTM 模型。将短影评汇聚利用人名识别算法提取所有主创的短句,然后利用与训练的情感分类模型对这些短句提取情感特征。将所提取的正负面情感占比的变化情况作为特征加入到预测模型之中,利用生命周期构建多阶段的电影票房预测模型。最后得出结论,在首周使用非线性的 SVR 模型而接下去的周次使用 Lasso 模型做票房预测的工作。
本文的主要究工作可以概括为以下几个方面:
(1)使用主题建模,使用短文本主题模型将影评过滤,聚类主创的情感标签。在结合影评短文本的特征下提出一种有效的短文本主题挖掘模型 MRTM,其克服了短文本上共现词不足的弊病,提高了主题质量。
(2)基于 LSTM 的情感分析模型本文提出了量化主创的情感倾向和变化算法,并结合这些信息输入到票房预测模型中。以分析观众的观感情感态度上的变化和特征,丰富电影的外部特征提取。
(3)结合电影生命周期的特点,提出一种阶段性的电影票房预测模型。提出衡量动态变化的主创影响力的方法,本文最终的策略是票房预测问题分为两个子模型,分别是在首映周使用非线性 SVR 预测方法,在后续周使用 Lasso 模型。该方案能有效提高票房预测的精确度。
参考文献(略)