数字人文的运用和反思

 

数字人文的运用和反思,这是不能忽视的问题。...

△中国辽宁多代人口数据库(china multi-generational panel dataset,liaoning)
上午演讲的内容总体还是不错的,而下午的演讲初第一位的张化端教授所带来的“汉字系统的数字规律与数位系统的汉字规范——从文明史的角度看汉字与数字的联系”却没有午睡的我想睡觉。明明在“数字人文”内容已明晰的情况下,去探讨流传下来的数字是用现在的1兆=106还是古代记载的1兆=1016这种和论坛实质没有太多联系的话题上。当然,这个话题还是有意义的,但这样演讲的题目让我原本最想问问题的对象变成我最担心的人。

接下来又有徐立恒教授的演讲,这次将重点介绍他主导的中国历代人物传记数据库(CBDB)上,在十一年的制作和推广上,积累了不少经验。CBDB的发展是很有意思的,最初徐教授希望不只是简单查询,更想在分析人物各自关系上有更多思考之处。作为而目前数据库内容上还有诸多亟待解决的问题,徐教授也并不避讳。作为这个数据库之始,原本是郝诺贝(Robert Hartwell,在宾夕法尼亚大学任教,同时也是CHGIS即中国历史地理信息系统项目的参与者之一)教授在二十世纪八十年代收集数据初步制作而成。1996年教授去世后将其捐赠给哈佛-燕京学社。2004年傅君励(Michael Filler)教授重新编写数据库的结构。2005年哈佛大学与台湾中央研究院和中国北京大学开始共同开发,修订原先的数据,并录入彼得、王德毅《宋人传记资料索引》。之后也得到美国国家人文基金会的支持,慢慢录入了唐宋历代人物的数据,现如今将增加其他朝代的人物资料,并支持网友注册修订其中内容。其实早在两年前就使用这个数据库,不过查询明清两代人物数据问题很多,不是找不到就是有重复的人物,而且人物关系也做的并不完善。但好在免费和用户可添加内容,数据库的信息将会有更友善。


△CBDB背后的数据分析式样 
对于国外研究者以新兴技术分析古典文本的研究成为趋势的同时,国内也有相应的研究者对古代中国诗词和历史文本进行语句透视和语料处理。由北京大学数据分析研究中心许京奕先生的“古籍数字化与史料的深度挖掘”,为我们窥视国内计算机文本分析提供了展现的平台(国内古典文本分析一直神龙见尾不见首,故而可以一窥究竟)。首先也是从北大需要要谈起,当时的许先生因老师的要求开发全唐诗数据库,但项目没有规划好,再者全唐诗光是字数就很庞大,导致数据库研究的失败。之后吸取教训把文本内容放在全宋诗上,根据他的说法研究很成功,使得写宋诗研究的文章不能在专业期刊上发表(许先生没有具体说研究内容是什么,只是大概了解是诗眼和曲调方面)。接下来由提到二十四史和《清史稿》以及《资治通鉴》文本分析上,也根据他的说法研究很成功。最让人震撼的是许先生说到计算机句读技术取得成果后,我很是惊讶。但他以保密为由没有透露更多信息。要知道,中国古籍浩如烟海,时代不同、地域不同,文本的结构也不同,能统一分析吗?因此我先持怀疑态度,等待这个系统的应用成为现实后,看看是否可行。


△全宋诗分析系统,和全唐诗分析系统以及二十四史和《清史稿》分析系统一样,可在国家图书馆网站上使用
说到古籍整理和出版,国内文史专业的同学一定会想起老字号古籍出版机构中华书局,在数字人文观念发展突飞猛进的当下,中华书局也推陈出新加入到古籍数字化的行列中来。书局数字出版中心的洪涛先生演讲的题目“整理本古籍的数字化与移动应用”就是为此给大家带来不一样的文字人文体验。对于其他数字化古籍的公司,中华书局有别于其他提供古籍阅读不一样的内容,就是整理(点校)古籍资源。一批老的文史教授的古籍整理文档常常是在中华书局出版计划下得以做成图书于读者见面,其中优秀的点校批注为研究者和学习者提供方便。而书局数字化的对象正是这些点校本,包括经典的二十四史和《清史稿》,历代笔记等的铅字书进行数字化。这些将会汇集到中华书局旗下古连数字公司的“中华经典古籍库”中。不只是中华书局出版的图书,还会加上如江苏古籍、浙江古籍、三秦等(不包括上海古籍)整理古籍的出版物也会数字化。不只是推出电脑版和网页版,还会有相应的移动应用(现在以微信阅读为主),以后还会有更多新的阅读方式。这个产品对以后的研究是有好处,不过我担心的是会不会像书同文和爱如生的产品那样,成为高校毕业生临时写论文的工具,为的只是应付了事?


△中华经典古籍库gujilianhe.com.cn
本次论坛最具反思和明确研究方向的演讲,由中国社会科学院邱源媛教授“史学数字化研究中的人文思维——以清代旗人户口册研究为例”。邱教授一直是在研究清代八旗户籍,这一方面面对的是庞大数据量和各地资料,因此研究方法上更需要数字人文技术的支持。在查阅档案馆和各地家谱的同时,发现如果简单记录下这些数据,用计算机的分析技术,实际上并不会直接对研究人员的判断有更好利用价值,相反可能会误入歧途。在这些历史文本当中,有更深层次的因果关系,如果忽略,将会造成极大的不利影响。邱教授用的事列是李中清教授(香港科技大学人文社会科学学院院长)、郭松义教授使用数据库对辽宁地区八旗档案分析中出现的问题进行探讨。这些档案在进入计算机数据后,研究的过程中发现不能完全使用这些数据,当中只有50%是能利用上的。这当中牵扯户籍制度的直接目的(税收和兵役)和普通旗人的对策(一户对百人,改籍等),所以数据的统计和计算实际上依旧需要人的判断,而且不能被取代。那我们就也好思考,对数据的使用,不能被牵着鼻子走,一定要有独立的思考能力!


    关注 里仁為美


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册