研究方法的多元化是社会学的重要学科特征之一。在中国社会学发展的早期阶段,囿于计算能力以及调查规模的限制,20 世纪初中期以吴文藻、孙本文、潘光旦、费孝通等为首的社会学家多从基于实地考察的定性分析资料出发,交汇融合中国社会思想与西方社会学理论,深入剖析中国社会。改革开放后,中国社会学恢复重建,学习西方社会学定量分析方法成为中外社会学初期交流的主要内容[1]。这一学习过程使得中国定量社会学在较短的时间内完成了人才、教材、课程体系的建设与发展。有研究分析了《社会学研究》1986—2015 年间的论文发表情况,发现定量研究的论文占比为 23.8%,已然高于定性研究的 17.7%[2]。可以说,今日中国社会学界基于定量分析的研究已经占据了一席之地②。
定量社会学研究的基本特征是对结构化数据(主要是调查数据)进行统计建模。但随着信息技术的发展与普及,在结构化数据之外,社会生活中产生了大量的非结构化数据(如文本信息、人类生活痕迹)。社会学家虽然很早就认识到非结构化数据背后的重要学理价值③,但囿于方法以及计算能力等限制,这类数据并未得到充分的开发与利用[3]。这一情况在 21世纪发生了改变[4],一方面,随着信息科学技术的发展,非结构化数据对于社会现实的反映度日渐提高,使得社会学家不得不重视其背后的社会研究价值;另一方面,计算能力以及计算技术的快速发展,让处理与分析大体量的非结构化数据成为可能。之前受限于技术与算法而不能深入探讨的研究主题(如复杂社会网络分析[5]、大体量的文本分析[6]、网络民情分析[7-8]等),已经成为引领社会学研究新发展潮流的重要领域。在此背景下,新的学科分支逐渐兴起,作为大数据时代科技进步、数据迸发的产物,计算社会学成为近十年来社会学研究关注的焦点[9]。
本文从时代背景出发,探讨在新数据、新技术、新方法的推动下,计算社会学对于传统定量社会学的传承与发展。具体而言,本文试图回答以下两个问题:第一,传统定量社会学分析的研究范式突出体现在哪些分析进路上?第二,相较传统定量社会学而言,计算社会学在哪些研究领域有了新的拓展?这些问题的回答将有助于社会学研究者结合时代发展潮流,理解当代社会研究方法论的发展路径,把握量化社会学研究发展的新方向与新趋势。
一、传统定量社会学发展的研究进路
自 19 世纪社会学家孔德提出实证主义开始,源自于自然科学研究的原则和范式被应用到人类行为和社会结构的研究之中,实验和统计定量方法逐步成为社会科学研究的重要工具。以数据为基础对人类社会进行观测、描述与解析的定量分析在社会科学研究中日渐扮演着重要角色。总结传统定量社会学的研究逻辑,以分析思路为基准,本文认为传统定量社会学研究可以归纳为过程、结构、反事实和前景四种思维进路。
(一)过程思维进路
所谓过程思维,是指展示从 A 如何过渡到 B 这一具体的过程,即揭示概念之间联系机制的分析过程。《福尔摩斯探案集》中关于“华生是否在南非投资”的推理完整地展示了过程思维的逻辑路径。福尔摩斯看到华生袖口沾上了白色的粉末,于是推论说华生不打算在南非投资,如果只是从相关关系出发,似乎看不出这两个事件之间的关联。而过程思维恰恰是要把其中的逻辑关联找出来。具体到以上例子中,福尔摩斯的过程思维是:华生袖口有白色的粉末→华生去打台球→打台球总是有一个朋友做伴→这个朋友曾经邀约华生一起投资南非→华生的支票本一直没有动用→华生不打算投资南非。通过这样的过程解释,看似无关的A 和 B 就关联起来了。以上分析思路若要转换成传统的定量社会学话语,则是从袖口上的粉末到投资决策之间经过了四个中间变量,最后形成结论。
科尔曼的船型模型是过程思维在学术研究上的经典体现[10-11]。该模型指出,理解两个宏观因素的关联过程,研究者需要考虑三个中间机制:第一个机制称为情境机制,意在解释处于特定场景中个体的独特表现。在定量社会学研究的学术话语体系中,这种机制常常归于分组比较的方法。分组比较分析的经典案例是涂尔干的自杀论研究,涂尔干描述了法国天主教地区和基督新教地区个人自杀率的差异,发现处于不同宗教环境中的个体,自杀倾向会有所不同。分组比较在中国社会情境下的社会学分析中十分常见,如胡安宁等[12]分析了中国不同学科大学生的收入差异,发现理工科的收入优势取决于所处的环境,即劳动力市场部门,只有在市场部门中,理工科的收入优势才能实现;而在公共部门中,文理之间的收入差异实际上并不显著。
第二个机制即所谓的行动形成机制。行动形成的目的是从个体层面寻找能够解释个体行为的原因。由于社会学的学科特点往往强调社会性因素对于个体行为的解释力,行动形成机制在心理学方面的分析更为常见。但随着不同学科的互相融合,社会学研究已经不能对行动形成机制视而不见。实际上,从个人微观层次上解释行动的相关理论资源已经十分丰富。以中位投票模型为例[13],其指出在一个左偏的收入分布中,由于收入均值比中位值低,那么至少一半以上的个体会觉得自己的收入比平均收入高。在一人一票投票机制下,民主投票所形成的政策将会倾向于刺激消费。但是如果收入分布右偏,整个社会的收入中位值低于均值,则意味着一半以上的个体出于理性而投票选择的政策偏向转移支付。也就是说,个体出于维护个人利益的动机,在不同的现实情境中会形成有差异的行为,这就是行为形成机制的分析。
第三个机制是集体行为分析机制。即从个人互动过程中衍生的一个不能通过个体特征解释的集体性模式。以门槛模型(又称门限模型)为例,该模型认为某种集体性行为的形成与群体中个人的道德底线相关[14]。也就是说,当群体中个体的道德底线彼此接近时,违背社会道德的恶行在突破某个个体的道德底线后很容易传染给第二个人,第二个人再传染给第三个人,依次类推,最后形成一个集体性的不幸结果。但是,如果个体彼此之间道德门槛差异很大,部分个体的恶行传到道德门槛高的个体处就会被制止,从而抑制集体乱象的发生,这种对集体层面差异的解释就是集体性行为的分析。
综上所述,传统量化研究旨在通过一系列量化分析手段,尽可能地呈现出某种关联的形成过程。科尔曼的船型模型进一步揭示了过程分析进路中可能涉及的一系列中间机制,为量化研究提供了分析方向,是定量社会学研究范式中过程思维进路的经典体现。
(二)结构思维进路
传统定量社会学的另一个思维进路是结构思维,即跳出分析对象的内容约束,转而关注结构性变化。基于常规思路分析某个具体概念时,研究者往往从内容的角度入手,倾向于讨论某个概念的实质含义。但是,采用结构思维的量化研究者不必然关注某一概念或者变量的实质含义,而是聚焦于某种关联结构的变异性。换句话说,结构思维是从内容到形式的过渡,在一定程度上填补了一种常规思维习惯的空白。
具体而言,结构思维进路在社会学研究中最经典的体现是探讨概念联系的变异性。以教育回报的异质性研究为例,有研究探析了那些特别容易上大学的个体与那些特别不容易上大学的个体相比,谁能够从大学中获益最多[15]。针对此问题,结构思维的角度实际上考察的是教育水平和收入水平之间的联系(结构)在不同类型群体之间的差异。布兰德等的研究[15]发现,越不容易上大学的人(如那些家庭背景不是很好的高中毕业生)一旦有机会上大学,将比那些容易上大学的高中毕业生从高等教育过程中获取更高的经济回报。也就是说,如果大学录取政策偏向于弱势群体的高中毕业生,那么大学教育政策的实际功效反而更高。
(三)反事实思维进路
传统量化研究的第三个思维进路可以称为反事实思维。这一思维进路强调对一种相反状态的想象,这一想象过程可以超越传统的对于相关问题的考察。例如,假设有两个历史趋势A 和 B,它们在两个历史节点之间均呈现出上升趋势,如果只观察相关性,可以发现 A 和 B共变,从而呈现很高的相关性;如果进行反事实的思维想象,可能会发现 A 无论如何都会上升,与 B 的变化方向无关,这样则说明 A 的变化与 B 没有关联。可见,运用反事实思维方式可能发现看起来两个高度相关的变量可能并没有实质性的关联。
反事实思维方式与因果推断高度关联,基于反事实思维的社会学定量分析通常以经验因果推断的方式展开[18]。大学教育的收入回报分析是反事实思维的经典应用,针对这一问题,传统的分析思路是,因为受过大学教育,所以收入更高。但是经济学家提出,或许这种看起来“合情合理”的归因是选择性误差使然,即在挑选学生时,把那些未来有挣钱潜力的人都挑选进了大学。此时,“毕业后找到一个好工作”的现象或许不是因为学校培养得好,而是因为生源本身的质量。那么,为了探究大学教育是否真正带来了收入回报,需要分析那些本来能上大学的人如果当年未上大学的话(即反事实状态),四年后其收入是多少?如果一个人上大学后的收入和不上大学的收入差不多,那么上大学就没有带来额外的收益。然而问题在于如何找到那些已经上了大学的人“反事实状态”下的收入情况。一个思路是,寻找一些相似的人进行对比,如可以观察高考分数线上下的两拨人,其高考成绩差别很小。因此,一定程度上有理由认为,这两拨人在进入大学的可能性上是很接近的,但是由于一个在线上,一个在线下,线上的人获得了大学的入学资格,而线下的人则失去了这个机会。此时,对比线上线下两拨人,就能够发现上大学与否对于收入是否具有影响。其中,分数线下的那些人就是分数线上那些人的反事实对象。
(四)前景思维进路
传统定量社会学研究常用的第四个思维进路可以称为前景思维。这一思维方式具体表现为强调分析“原因的某种结果”,这和一般意义上分析“结果的某种原因”是不同的。传统“结果的原因”分析思路强调研究者首先应该确定关注的因变量 Y,然后再寻找能够解释该因变量 Y 的因素(即自变量 X)。例如,韦伯研究的一个经验议题是为什么理性的资本主义在西方诞生[20]。为了解释 Y(即理性资本主义的诞生),韦伯分析了一系列的可能影响因素,其中包括现代化的簿记制度、基督新教、城邦体制、理性化的法律等,这是一个典型的“结果的原因”分析思路。与之相比,“原因的结果”关注的则是给定一个原因 X,其会带来什么样的结果。虽然两种思路最终落脚点都是 X 和 Y 的关系,但是基于前景思维的“原因的结果”分析进路强调的是“向前看”。
二、计算社会学:一个新兴议题
相比于传统的定量社会学研究,新兴的计算社会学为研究者提供了一个新的分析平台和工具[22]。这里的“新”具体体现在三个方面,即新的数据、新的分析手段和新的因果识别策略。首先,新的数据处理能力是计算社会学在大数据时代的一个重要贡献。信息化时代,人类各种行为均会留下电子化痕迹,这些数据为我们更好地理解和认识个体和群体行为的发生规律提供了新的可能。但与传统定量社会学分析的数据不同,电子化痕迹数据体量庞大、覆盖范围较广,在分析方法上不需要很强的前期假设(如变量正态分布假设等),且呈现出明显的“非结构化数据”特征,对传统定量社会学及其方法论带来新的挑战,从而成为新兴计算社会学的重要研究对象[23]。其次,新的分析手段指的是计算社会学可以使用一系列传统社会学研究方法所不涉及的新兴技术,例如社会网络研究、地理信息系统研究、基于行动者的模拟(agent-based modeling)分析,等等。这些新兴技术方法都在某一方面突破了传统结构化线性模型的分析框架,为研究者提供了新的研究信息。最后,在因果识别策略方面,传统的因果关系识别重在对平均因果效果的识别,分析手段上也更为“中规中矩”;而在计算社会学的背景下,因果关系的分析开始引入大量的基于算法的计算技术,同时在分析对象上也逐渐从一种平均意义上的因果关系转向一种异质性的、基于个体特质的因果关系。
(一)“新”数据
“新”数据是计算社会学诞生与兴起的原始驱动力。大数据时代,研究数据的“新”不仅体现在体量上,更表现为数据的形式和结构。一方面,电子邮件、社交媒介、网页记录等电子化档案极大地扩充了社会学研究可获得的数据体量,让一些社会学分析摆脱了抽样调查的束缚。传统定量社会学研究的数据往往来自于耗费巨大的人力、物力以及财力的抽样调查,能够获得的样本量相对较小,且所获得的资料信息来自于研究者前期设计的结构性问卷,具有很强的结构性特征,经常被称为“设计的数据”[24],在推断整体情况的过程中往往需要通过强有力的前期假设。而电子化痕迹数据大多来自于现实生活中的实时记录,是各种社会活动自然呈现的结果,具有明显的“非结构性”特征。此外,电子化数据的体量十分庞大,在一定情况下,分析的数据几乎覆盖研究总体,无需通过特定的假设前提。另一方面,视频监控、在线地图、电子书籍等图像型、文本型数据丰富了社会学分析数据的形式。传统定量社会学研究受限于分析技术与计算能力,图像数据并没有获得过多关注。但是随着电子科技的发展,图像是记录社会活动的重要载体,已经成为计算社会学研究的重要资料。文本数据虽然在传统定量社会学中获得了大量关注,但是传统的内容分析能够处理的文本资料有限,且主题分类大多基于研究者的理论积淀,存在较大的主观性。相较而言,计算社会学对于文本数据的挖掘则更为自动化,对于研究者的主观性有一定的规避。
社会学学术论文怎么写
(二)“新”方法
与传统的量化社会学研究相比,计算社会学作为一个正在兴起的研究范式,整合纳入了多种有别于传统结构化线性模型的新方法,其中包括大数据分析、关联数据、社会网络分析、文本分析、基于行动者的建模以及地理空间分析等一系列对计算能力要求较高的分析模式。这些方法都从不同侧面涉及某种统计量的计算和算法应用。
如关于社会网络分析的经典研究考察的是美国一个高中的艾滋病传播[29],在这一案例中,艾滋病之所以传播迅速的原因在于学生彼此之间形成的亲密关系网络中存在一个核心的交往圈,通过这个交往圈可以将整体社会网络中的每一个个体牵扯进去,从而造成病毒的迅速传播。关于这一网络结构的形成原因,研究者分析了几个机制,如同类相吸机制发现,家庭背景相似的人更加容易产生相互关联;“不和前任的现任的前任去谈朋友”等学生之间的特殊“规则”使得学校形成了一种特定的核心圈网络结构。之所以援引这一案例说明网络分析是一种计算社会学的方法,原因在于研究者可以根据不同的规则对人们的社交网络进行模拟,操作方法是在不同的“规则”下模拟网络结构并进行比对。上述案例的研究者发现,当改变交往规则后,学生之间呈现的网络结构完全不一样,相关的疾病传播机制也随之产生变化。从这个角度来讲,对网络结构假象状态的模拟成为计算社会学的重要分析手段。
再如行动者建模中著名的谢林模型(Schelling Model)主要研究的是种族隔离问题[30]。基于行动者的建模将不同元素赋予特定的行动规则,然后让计算机来模拟,观察当这些元素彼此互动时,是否会形成某种特定的宏观模式。在谢林模型中,不同种族的人一开始随机交往,但随着模拟的进行,最后不同种族的人各自聚集,形成所谓的“隔离”。基于常识判断,“隔离”的形成是因为每个人都有很强烈的愿望和同类型的个体交往,但谢林模型证明,希望和同类交往的强烈愿望实际上是不足以形成“隔离”的;相反,如果人们只是有轻微的愿望和同类相连,则足以形成隔离。对于这种反常识的验证,恰恰是基于行动者建模的魅力所在。
(三)优化因果关系的识别
计算社会科学作为一套新兴的分析手段,对于传统因果关系的识别也具有重要意义。首先,计算社会学可以被用来进行网络实验。心理学关注的预言的自我实现现象,实际上是观察个体如何受到他人影响而形成一个与现实状态无关的判断[31]。例如,研究者在网络上模拟了一种虚拟状态,之后让实验参与者进入这种虚拟状态。参与者需要听完歌曲后对其进行评价和排序。在不同的虚拟场景中,参与者所获取的社会性信息是有差异的:在一个虚拟环境中,参与者被告知研究对象的信息是真实的,既被告知了真实社会中排序较高的歌曲,也告知研究对象哪首歌曲更受欢迎;另一个虚拟环境中,参与者所获取的信息是相反的或虚假的,实验结果发现,参与者的判断与歌曲自身的本质属性联系不大,反而更容易受周围环境的影响。通过类似实验,可以更好地帮助研究者识别出特定的因果关联。
其次,对于因果关系异质性的分析是计算社会学另一个用武之地。如上文所述,传统的因果推断主要考察平均层次上的因果关系,相比而言,很难估计个体层次的因果关系。这主要是因为,个体层次的反事实状态往往无法获取。但是,计算社会科学认为,如果研究者掌握的数据足够多,研究算法足够精确,即可以比较精确地在个体层面上估算其反事实状态。例如,在关于个体大学毕业就业后获得收入的测量中,其反事实状态是如果个体当年未上大学,其收入是多少。传统的倾向值匹配或者加权方法一般通过组间比较,估算出样本中所有上大学的人在未上大学的情况下的反事实“平均”收入,但这一方法仍然无法获知精准个体在反事实状态下的收入。然而在大数据时代,基于特定的算法可以对个体层次的反事实状态进行比较精确的估计,从而进一步估算出个体层面的因果效果。目前学界在这方面已经有了一系列卓有成效的探索,应该也是未来计算社会学的发展方向之一[32]。
社会学学术论文参考
三、结语
社会学研究从来不是一个单一范式的过程,本文分析和对比了传统量化研究的不同分析路径,并从新数据、新方法以及对因果关系的识别三个角度对新兴的计算社会学进行了讨论和辨析。这些讨论有其侧重,虽不能完全反映量化研究和计算社会学的全貌,但却展示了社会学研究在范式选择上的开放性以及在计算社会科学时代下社会学经验研究的多种可能性。 需要指出的是,社会学的学科价值更多在于长久积累下来的对于社会发展和社会形态的理论洞见,而验证与丰富这些理论洞见也成为了社会学经验研究的价值所在,即无论是传统的定量研究,还是新兴的计算社会学,都旨在为研究人员提供研究工具与手段。
同时,笔者认为,作为一个新兴的社会学研究范式,计算社会学未来的发展有几个重要的方向需要把握:一是如何保持社会学学科的独特性问题。计算社会学的发展离不开对计算机和人工智能等领域内成熟技术的吸收与借鉴。但是,如何让计算社会学保留其社会学的学科特点,而不是演变为计算机学科的某一分支,是社会学研究者亟待考虑的问题。尤其是随着社会学学者对于新兴技术的应用日益频繁,很多研究成果的核心内容很容易演变成对某一新兴技术的社会场景应用,从而降低社会学学科本身的价值。因此,未来计算社会学的一个发展方向是让计算技术“为我所用”,避免实质问题的探索反而被技术反噬,成为技术的附庸。二是人机互动问题。在计算社会学研究中,随着人工智能技术和相关算法的使用,人工因素的影响力逐渐下降。如传统的文本分析重在研究者的编码和后续诠释,但是到了文本挖掘阶段,研究者的这种“人工”编码实际上被机器的计算所取代。但是,计算机领域对于各种新兴算法的开发往往以人工标准作为衡量机器表现的依据。可见,无论是计算社会学还是人工智能,都需要妥善处理机器和人工的关系。由于二者之间各有强项,未来计算社会学的研究要考虑人机协作的问题,让研究者的人工和算法的机器之间达成某种平衡,而不是片面以机器为主导。三是计算社会学的人才培养问题。传统定量社会学范式下的人才培养以数理知识为基本导向,在课程设计上以结构化统计模型(如线性模型、结构方程等)为主。但是在计算社会学范式下,人才培养将以算法理解和开发为导向,这对于算法设计思维与编程能力提出了新的要求。如何在保留现有课程设置框架的前提下,优化人才培养方式,让社会学学科的课程设置更加配合计算社会学的要求,也将是未来计算社会学发展需要着重考虑的问题之一。
参考文献(略)