参考文献

注册

 

发新话题 回复该主题

顶刊论文陈云松大数据中的百年社会学 [复制链接]

1#
看白癜风的医院哪里好 https://wapjbk.39.net/yiyuanfengcai/yyjs_bjzkbdfyy/
                            

提要:本文基于谷歌图书的最新语料库(万种书籍,亿词汇),通过设计、检索社会学的学科关键词以获得历年词频数据,对19世纪中期以来社会学的发展进行追踪,并藉此展示、分析和诠释了社会学的学科轨迹、名家大师、理论流派、领域热点、分析方法,以及中国社会学在文化影响力维度上的百年变迁,同时对建立“社会组学”进行了展望。本研究为利用大数据进行人文社科研究提供了初步经验。

关键词:大数据社会学史文化组学社会组学文化影响力

学人简介:陈云松,南京大学社会学院

文献来源:《社会学研究》年第1期。

一、导言

“大数据”的应运而生,既给商业、管理和公共行*带来了众多机遇,提出了诸多课题,同时正在全球社会科学界、人文学界引发讨论的热潮。早在数年前,哈佛的加里金在在展望*治学的未来50年时就预言,随着大数据的出现和使用,整个社会科学研究的实证基础将会出现重大的变化,甚至会加速定性与定量研究的大融合(King,)。国内学界也对大数据给社会科学领域带来的机遇充满信心(沈浩、*晓兰,)。不过,“大数据”概念虽热,但社会科学界基于大数据的实证研究却比较薄弱。一方面,大数据往往为*府、大型公司或网络媒体所持有,数据获取渠道和分析方法都与传统的社会科学定量定性分析存在很大差异;另一方面,现有的大数据往往本身并非为社会科学研究而设立,其在样本代表性、测量可靠性等方面往往受到学界的诟病(Tufekci,;BoydCrawford)。

年,以让-巴蒂斯特米歇尔(Jean-BaptisteMichel)为首的哈佛大学、麻省理工学院、大英百科全书的学者与谷歌研究团队,共同署名在《科学》杂志第卷发表了题为《使用百万数字化书籍的文化定量分析》的重要论文(Micheletal.,)。该研究借助谷歌图书的海量数字化资料,分析了公元年到年间多万本书籍高达0多亿单词的语料库(corpus)。通过对关键词在语料库中的使用频率变化,展示了五百年来人类文化发展史中或鲜为人知或饶有兴味的趋势和现象。这个全新的研究领域,被称为“文化组学”(culturomics)。利用这个文化大数据,国际语言学界和历史学界已经出现了一些跨学科的探索性研究(Bentleyetal.,;Acerbietal.,;Twengeetal.,)。海量的数字化书籍和兄弟学科的最新探索,为社会科学领域的大数据应用研究提供了难得机遇。

社会学自19世纪末诞生以来,理论和方法日益丰富,学派和名家不断涌现,其理论和成果对人类经济、*治和社会文化生活的影响也在不断扩大和深入。在学术界内衡量一个学科或者某项研究成果的影响,我们往往依靠学术文献和引用指标(如学术书籍、学术期刊、论文引用影响因子),不过,要在更为宏观的时间、空间维度上观察甚至评估理论的发展、学者的成长乃至整个学科对于人类知识谱系的影响力,也即“文化影响力”,则要复杂和困难得多。现在,基于大数据的词频统计技术为这一领域的探索提供了可能。本文将利用谷歌语料库千亿量级的海量数据,通过对社会学关键词的词频分析来初步展示百年社会学发展历程中的现象和规律。本研究也是我国社会学领域的首次大数据分析尝试。

二、数据、概念和策略

让-巴蒂斯特米歇尔等分析的数据来自谷歌图书(GoogleBooks)。自底起,谷歌公司陆续对哈佛、牛津等40多所顶级大学图书馆藏书及出版社赠书进行了浩大的数字化工程,到年,谷歌已对超过三千万种书籍进行了扫描识别,占人类自古登堡印刷术发明以来出版图书的约四分之一,其中数字化质量较好可供全文检索的达八百多万种(6746),词汇量亿(Linetal.,)。表1分别展示了谷歌图书语料库的主要构成。为实现基于全文检索的词频统计,该语料库采用了词汇连续语音识别中的“n-gram”算法模型以实现对语料库中海量文本的切分、断句。

书籍是承载人类知识、观念和思维的最主要的载体。只要语料库具有足够的代表性,我们就可以认为一个词汇在书籍中出现的频率,能够近似地反映这个词汇及其相关意蕴的“文化影响力”(涵盖知名度、

分享 转发
TOP
发新话题 回复该主题