第 1 章 绪论
目前,在线社区中的用户信息大部分只以 HTML (HyperText Markup Language )网页的方式呈现。 HTML 是一种标记语言,主要用于数据的显示而非面向结构化的数据存储,所以在线社区中的用户信息都是以非结构化的形式存在的。 HTML 这种表层的网页表示方式对于简单的文本检索任务影响不大,却很难胜任要求更复杂、更精确的数据挖掘和数据分析任务。例如,构建基于问答社区的专家搜索,需要精准的抽取出用户名、用户发帖时间、发帖内容等元数据信息。类似的,构建其它社会化应用或者进行社会计算相关的研究工作,都首先需要建立一个用户信息数据库,记录每个网站的每个用户在任何时刻的具体行为。图 1-1 给出了一个从各种用户生成内容页面中抽取用户信息并将其转为结构化数据的例子,该例中抽取的信息包括了用户名、发帖时间、发帖内容等。只针对一个社区,用人工撰写模板的方式进行精准的用户信息抽取是相对容易的。但是,不同社区的 HTML 网页的布局结构各异,这为各种不同在线社区的结构化用户信息抽取带来了很大的挑战。此外,各个社区的网页布局结构是在不断更新的,这为基于模板抽取用户信息的方法带来了更大的挑战。因为网页布局结构是动态变化的,因此模板的维护是非常困难的。
..........
第 2 章 基于弱指导学习方法的UGC网页中的用户名抽取
2.1 引言
针对以上问题,本章提出了一种弱指导的、基于单页面特征的用户名抽取方法。具体的,本章提出了一种利用少量的、由统计意义上稀有的字符串构成的用户名,例如travelbug61,自动收集和标注大量训练数据的方法。然后在该训练数据上采用支持向量机训练分类器,从数据记录中抽取用户名。本章提出的自动获取和标注训练数据的方法主要基于以下两个观察:(1)人们倾向于在不同的社区中使用同一个用户名,以减少记忆上的开销;(2)为了达到在不同社区中使用同一个用户名的目标,许多人会把自己的用户名编辑为统计意义上稀有的字符串,例如bennystar99,这样就可以避免与他人的冲突。本章提出的方法一方面解决了有指导方法需要大量人工标注训练数据的困难,另外一方面从大量训练数据中通过自动统计获取了许多有效的特征,解决了仅利用单页面信息时,人工编辑特征的局限性。
2.2 自动获取和标注大规模训练数据
本章提出了一种利用少量的字符串构成的用户名自动收集的方法。大多数的网页属性抽取方法都采用了基于有指导的方法。有指导的方法通常是有效的,但训练数据的标注却是费时费力的。本文提出的自动获取和标注训练数据的方法克服了这个困难。本章自动获取和标注训练数据的方法主要包括两步:(a)获取UGC网页候选集合;(b)标注候选集合中的UGC网页和UGC网页中的用户名域。那么需要有一种度量方式来刻画一个用户名的字符串是否在统计意义上是稀有的。本文提出了一种基于概率语言模型的方法来度量一个用户名的字符串在统计意义上的稀有性。人们编辑用户名的过程通常可以被看成一个生成过程。具体的,人们通过使用一些词的序列组合来构成用户名,而这些词有可能代表了该用户真实的名字、生日等等。因此,本文定义一个用户名的语言模型概率为构成该用户名的词序列的语言模型概率。一个用户名的语言模型概率越低,说明这个用户名越稀有。因为很多社区都不允许用户名之间有空格,因此必须首先对用户名进行分词,然后再估计语言模型概率。例如,travelbug61 被分词为travel、bug和61。
第3 章 基于无指导方法的跨社区的用户链指 ............... 36
3.1 引言............................ 36
3.2 用户链指问题分析..................... 38
3.2.1 问题定义................... 38
第4 章 基于竞赛模型的用户专业水平的估计 ............... 55
4.1 引言............... 57
4.2 用户间专业水平的成对比较................. 59
4.3 竞赛模型................ 61
第5 章 基于用户信息的众包任务难度估计 ................ 79
5.1 引言...................... 79
5.2 问题定义................ 81
第 5 章 基于用户信息的众包任务难度估计
5.1 引言
综上,Yang等[93]提出的基于问题图的PageRank算法没有考虑竞争者的因素。其他的众包任务难度估计方法[94–97]只能处理观察值为二元的情况。但在带有竞赛结构的众包服务中,观察值仅仅包含部分偏序关系,而非二值的。类似的,项目反应理论[98]只能处理二元观察值,而不能处理偏序关系,同时也不能很好的处理数据稀疏的情况。针对以上问题,本章利用了对用户专业水平的度量信息,提出了模型估计问题的难度。用户专业水平的度量为问题难度的估计提供了指导,解决了之前方法不能处理观察值为偏序关系的问题。同时,本章将用户信息和问题的文本信息进行了融合,解决了数据稀疏问题。最后,本章利用跨社区的用户链指信息,对跨社区的问题难度进行了估计。
5.2 问题定义
问答社区中,任何用户都可以提出问题、回答问题。具体的,当一个提问者ua提出问题q后,会收到来自多个回答者的答案。在所有收到的答案中,提问者会根据答案质量选择一个最佳答案。提供最佳答案的回答者被称为最佳回答者ub。其他非最佳回答者用集合O ={uo1, uo2, ……., uoM}表示。因此,一个问答帖子可以由一个四元组表示(q,ua, ub, O),包括了问题q,提问者ua,最佳回答者ub和其他非最佳回答者O。图 5-1 a) 给出了一个问答帖子的例子。提问者(Asker)提出了一个问题,并且收到了来自三个回答者(Answerer1,Answerer2,Answerer3)的答案。其中,回答者Answerer3的答案被选择为最佳答案,因此Answerer3是最佳回答者。
..........
结 论
本文的主要研究内容和成果可概括为以下几个方面:
(1)针对用户信息挖掘的非结构化挑战,本文研究了面向用户生成内容网页的用户名抽取问题,提出了一种弱指导学习的方法。该方法利用少量的字符串构成的用户名,自动收集和标注大量训练数据,解决了目前有指导学习方法需要大量人工标注训练数据的问题。同时,本文方法通过统计计算从自动标注的大量训练数据中自动获取了大量特征,一方面克服了人工编辑特征的局限性;另一方面克服了目前性能最优的方法对多页面特征和网站结构特征的依赖性。
(2)针对用户信息跨社区的挑战,本文将用户链指问题分为两步:同名消歧和不同名消解。本文关注解决同名消歧任务。首先,本文通过用户问卷调查和基于About.me的数据分析,量化的说明了解决同名消歧任务的重要性。具体的,问卷调查结果表明89.17%的人有一个主要使用的用户名。
...........
参考文献(略)