自20世纪80年代以来,我国的古籍数字化和古典文献数据库建设已有近40年的发展历史。计算机与古籍看似风马牛不相及,实则助益良多。一方面,随着人工智能、大数据、OCR(光学字符识别)等技术的发展,古典文献数据库建设已渐成规模;另一方面,全球视野下的数字人文研究正在兴起。
计算机技术发展对古典文学与文献学研究到底有何影响?古籍数字化目前遇到哪些问题?未来又将走向何方?传播君独家专访中国社会科学院文学研究所研究员、中国社会科学院大学文学系教授郑永晓。
古典文学与文献学研究的数字化历程
传播君:请介绍一下计算机技术运用于我国古典文学与文献学研究的发展历程。
郑永晓:由于我国历史悠久,历朝历代积累的文献如汗牛充栋,治文史的学者面对浩繁的文献,往往只能选取自己感兴趣,且便于接触到的部分文献进行阅读研究。即使博闻强识如清代乾嘉学者,也不可能读遍所有的典籍。
有些大型总集、类书,其中含有丰富且有价值的文献资料,如《永乐大典》《古今图书集成》《佩文韵府》等,有时并不需要精读,但是因为卷帙庞大,想快速查询到某个具体的文献颇为不易。
因此,电子计算机这一新生事物传入我国不久,部分有远见的学者就看到其在文献处理方面的潜在优势。
年,《国外社会科学》刊发《苏联学者谈电子计算机用于人文科学》,编译苏联介绍计算机用于人文学科的一篇文章。
文章谈到,当时已经有若干人文学科积累了使用计算机的经验,如历史学,可用于对史料、考古学资料及民族志资料的信息加工;又如语言学,可用于统计修辞学、统计词典学等。
在年的国际红学会议上,美籍华裔学者陈炳藻提交《从字汇上的统计论红楼梦的作者问题》,提出用计算机统计《红楼梦》的字词,以辅助确定《红楼梦》尤其是后四十回作者的问题。国外的这些信息激发了国内部分学者的兴趣,开始