快捷搜索:  汽车  科技

如何区分直接史料和间接史料:历史学家的新技艺

如何区分直接史料和间接史料:历史学家的新技艺这批电邮材料显然存在固有的短处,它们肯定不是我所有电子邮件的全部(我究竟删除了哪些电邮,估计只有AI知道了),也肯定不是我所有通讯活动的全部。过去十几年,手机短信一度成为交流的主导,但所有短信已经无从考证;三四年前,微信又开始取代短信,成为通讯的主要方式。很多人没有意识到,微信或许会成为未来历史学家研究人物的重要资料。但是,微信能下载存档吗?还要对数据做进一步清洗,主要包括删除重复信息,修正错误的邮箱地址(有些错误是发件人在录入地址的时候打错了),将人与不同的邮箱匹配(一个人没有两三个邮箱都不好意思出来打招呼)。最典型的一个情况是,2013年8月,雅虎邮箱暂停服务,导致很多人更换邮箱地址,也增加了消歧的工作量。虽然我编写了Python代码帮助提高工作效率,但还是有一些工作要手动完成,耗费了不少精力。所以,最终呈现在我面前的资料并不是一份完美的数据库。但没有哪位历史学家见到过完美的史料,重点

长久以来,对历史学者弥足珍贵的传统史料形态,诸如日记、书信、回忆录等,已经被“数字化”的名头剿杀了。大约十年前,我还以传统的思路和方法研究奥古斯丁的书信,并提出了“书信空间”的概念,还在后记中展望了个人的“书信空间”。简言之,“书信空间”就是用书信编织的一个独具特色的人际网络体系,参与其中的人发生关联、互动、影响;通过对“书信空间”的描述与研究,我们可以了解人群的交往行为。不曾料想,今天我却面临着无“信”可以构建的尴尬。——我们现在都用电子邮件!

如何区分直接史料和间接史料:历史学家的新技艺(1)

据说中国的第一封电子邮件是1980年代末从北京发出的,其中“越过长城,走向世界”的话语,令人唏嘘。后来,电邮的便利让我们愈发懒惰和贪婪,不愿提笔多写一个字,也不愿多等一刻平邮的信件。

某日,在整理电脑文件时,我突然在某个隐秘的文件夹里发现了一个旧文档,里面是多年前为了解决电子邮箱的容量问题不得不删除的旧信件。出于历史学者的职业敏感,我事先下载了部分电子邮件,现在随手点击鼠标看了看,居然读到了2002年的电邮!一个想法在我脑海中闪现,这些电邮是很有意味的新形态史料,它们能否勾勒出我过去十多年的生活轨迹,构建我个人的“书信空间”呢?

在这个灵感的推动下,我开始了一场实验。我以一名历史学者的身份,尝试去处理一批“天生数字化”的资料。这个过程充满了新奇,既有传统历史研究的共性问题和解答,也有意想不到的处境和方法。或许,我的实验将成为未来5-10年历史学家工作的常态。

数据整理

多年前存档电子邮件时,我并没有想过去研究它们,也就没有考虑到格式的问题,现在就不得不面临如何将它们结构化的麻烦。这个工作主要由南京大学软件工程学院的郭建朋同学帮忙写代码,将结构混乱的电邮数据进行解析,整理出包括收件人、发件人、主题、文本、时间等在内的字段,并放在了Excel表格中供后续处理。

但这个样态的数据还不能直接用于分析。电子邮件的存档跨度十几年,虽然主要以新浪邮箱为载体,但邮件结构并不是100%统一,寄件人的邮箱体系与新浪邮箱不兼容,发件人姓名与电子邮箱地址脱节,再加上乱码、地址错误、垃圾邮件等各种问题,解析后的资料并不完美。

还要对数据做进一步清洗,主要包括删除重复信息,修正错误的邮箱地址(有些错误是发件人在录入地址的时候打错了),将人与不同的邮箱匹配(一个人没有两三个邮箱都不好意思出来打招呼)。最典型的一个情况是,2013年8月,雅虎邮箱暂停服务,导致很多人更换邮箱地址,也增加了消歧的工作量。虽然我编写了Python代码帮助提高工作效率,但还是有一些工作要手动完成,耗费了不少精力。所以,最终呈现在我面前的资料并不是一份完美的数据库。但没有哪位历史学家见到过完美的史料,重点是能否从中引发有价值的话题。

这批电邮材料显然存在固有的短处,它们肯定不是我所有电子邮件的全部(我究竟删除了哪些电邮,估计只有AI知道了),也肯定不是我所有通讯活动的全部。过去十几年,手机短信一度成为交流的主导,但所有短信已经无从考证;三四年前,微信又开始取代短信,成为通讯的主要方式。很多人没有意识到,微信或许会成为未来历史学家研究人物的重要资料。但是,微信能下载存档吗?

下面的分析只能基于一份不完美的电邮数据库,所有的邮件共计10076封,时间跨度2002-2013年,它们确实帮我搭建了一个可以与奥古斯丁媲美的“书信空间”。活跃在这个书信空间中的人,并不知道我会做这个奇怪的研究,也没有征得他们的同意,所以我会隐去所有敏感的隐私信息。在行文当中,除非必要,我都用代码表示发件人与收件人,似乎面目模糊。但我想强调,他们都是一群个性鲜明的人,在“书信空间”中热闹而有趣!

外围的分析

我先假装与我自己不熟,在“书信空间”中,TA的代码是“Chauvin”。

这个人是谁?应该是一位男性,因为一些信件直呼其“先生”。有很多信件叫他“老师”,或许他的职业是一名老师?单纯从称呼判断有些勉强,虽然统计到“老师”出现的频率颇高。现在,“老师”已经成为比较保险的一种称谓,很有可能与真实身份并不匹配。

不过,我统计了邮件数量与月份的信息,发现了一个奇怪的现象:邮件的数量会随着月份周期性地改变。

如何区分直接史料和间接史料:历史学家的新技艺(2)

随机截取了2003-2006年间的数据,发现每年到7、8两个月,邮件数量都会突然减少,然后到9月份又迅速增多,1月和2月也会有所减少。这是典型的自带寒暑假的工作模式。这个模式在整整十年的数据中依然有效,如下图所示:

如何区分直接史料和间接史料:历史学家的新技艺(3)

这个角度有点奇葩,但似乎能够说明一点问题。对了,我居然忘记了一个杀手锏!既然是电子邮件,查查发件人的签名档不就行了吗?不过可惜,这个家伙很懒,在10多年的通信中,一直没有留下固定的签名档。后来虽然设置了签名档,却只有单位信息,无法判断职称、身份等关键信息。不过,Chauvin或多或少与学校相关应该是确定无疑了,他不是在读书,就是在学校工作。数据没有说谎!

Chauvin的身份大致可以确定了,所以我们也不用再绕弯子了。他过去十几年的经历其实非常简单,就是从学校到学校,虽然境内外不同水准的高校见识了不少,但基本都在同一个系统里晃荡。接下来,我很想知道这些电邮能否描绘一个意料之外,或者不经意的“自画像”呢?

首先,Chauvin的书信空间异常活跃。整个电邮资料库一共有1万多封信件往来,存在群发的情况,把群发拆解成独立的通信事件,结果总计55168次通信行为。10年,5万多次,平均下来,每天有13.7次通信行为,这让我觉得Chauvin的“书信空间”比奥古斯丁的热闹多了。目前存留下来的奥古斯丁书信不超过300封,Chauvin在体量上完胜教父。

实际上,如果把每个电子邮箱理解为一个独立的人(剔除一个人拥有多个邮箱的情况),那么Chauvin的书信空间一共有4500多个独立的个体。毫无疑问,这是虚假繁荣的表象,因为根据邓巴数字,Chauvin能够维持的紧密关系不会超过150人。Chauvin的书信空间里有如此活跃的个体,要拜群发邮件所赐,让Chauvin同许多八竿子打不着的人发生了关联。当然,也要拜垃圾邮件所赐,一些商业公司毫无节制地商业推广行为,极大地丰富了这个书信空间的存在度。

但不要被这个假相蒙蔽,以为Chauvin是一个大忙人。如果以他为视角做统计的话,十年内Chauvin一共发出了1890封邮件,但是收到的邮件8467封,是前者的4.5倍。由是观之,Chauvin不仅不是一个特别活跃的人,而且是一个更倾向于被动接受资讯的人。在Chauvin的书信空间中,最勤勉的一位发件人H,发送了6567封信,而且只截止2008年,TA是谁?2009年之后,这项桂冠落到了另外一个人G头上,TA又是谁?了解这两个人的背景会很有意思,他们跟Chauvin的经历转换紧密相关。

如何区分直接史料和间接史料:历史学家的新技艺(4)

再来看看他们都在使用哪些邮箱。或许能够为我们揭秘关于Chauvin经历转换的秘密?下面是排名前25的邮箱地址:

如何区分直接史料和间接史料:历史学家的新技艺(5)

这张图的信息量太丰富。难怪说电子邮件属于个人隐私资料,仅仅做一个简单的统计,就能够比较全面勾勒Chauvin的画像了。首先,Chauvin被深深地打上了PKU的烙印,@pku为什么对他如此钟情?因为Chauvin曾经在PKU求学7年,刚好涵盖了电邮数据库的大部分时间。那为什么Chauvin本科就读的BNU在这里没有一点存在感呢?不好意思,暴露年龄了,Chauvin于2001年本科毕业,在数据库涵盖的年份之前;而更重要的是,Chauvin是在2002年之后,才开始频繁使用电邮作为通信手段。

还记得之前提到的那位“发件王”H吗?没错,H就是PKU负责学生工作的老师,TA勤勉地为历史系的学生传达消息,嘘寒问暖,成为Chauvin在PKU学习的最好见证。由于H总是向不同年级的历史系研究生群发邮件,Chauvin又在PKU待了足够长的时间,所以TA成为当之无愧的“群发之王”。那些PKU的历史系校友们,你们是否意识到,我们曾经在某个时间节点上共存在于同一个“书信空间”中吗?

紧随其后的163邮箱似乎不能说明什么,因为它几乎是最常用的公用邮箱了。163的后缀虽然过于笼统,但@前的信息意义重大,那个夺去H“发件王”桂冠的G,正是使用的163邮箱;再联系到排名第三的NJU,如果把G的数量加入进来,那么NJU排名第二,与PKU不相上下。这恰好暗合了Chauvin从2009年进入NJU的时间轴。人生经历的转换,居然被电邮的后缀给暴露了。

不止如此。我们看到了cmbchina.com,还有dangdang.com、jd.com以及ctrip.com这些商业公司的后缀名。太明显不过了,Chauvin使用着招商银行的信用卡,经常在当当网上买书,在京东上购买电子产品,出差用携程订票。

gmx.de和hss.de的存在,揭示了Chauvin学习经历的另一面。熟悉德国的同学都知道,gmx.de在德国跟163在中国一样,是一个占有率极高的邮箱服务平台;hss.de则是德国著名的赛德尔基金会(Hanns Seidel Stiftung)的网址。Chauvin曾经在这个基金会的资助下赴德国学习。在Chauvin回国后,基金会在中国的校友会还经常组织活动,它们出现在排行榜中也就不足为奇了。Chauvin与德国的联系,还体现在了tongji.edu.cn的后缀上,那里的“同济大学德国学术中心”暴露了Chauvin关心德国问题的事实。另外,alerts.stanford.edu的邮箱是一个学术信息推送平台,Chauvin通过订阅它们,努力地维持着当年的学霸形象。

我们还看到了令人唏嘘的邮箱后缀:yahoo.com以及chinaren.com。我们都知道,雅虎邮箱于2013年停止服务,在Chauvin的书信空间中,雅虎邮箱退去的同时,另外一种邮箱却在崛起——qq.com。把邮箱地址做一个时间轴的演变,就会发现QQ邮箱的增量明显。很大程度上,Chauvin作为大学老师,很多学生都是用QQ邮箱与他联系的。腾讯公司用QQ抓住了一大批稳定的用户。

那么chinaren.com又是什么?再一次暴露年龄的分析时刻。现在的小孩都知道微信、QQ,稍微年长的还在感叹“人人网”的衰落,而“人人网”之前的“校内网”估计知道的人就不多了,比“校内网”更早的正是chinaRen校友录!校友网当年火爆的程度不逊于现在的微信,它是维系Chauvin高中、大学同学的纽带。

关于Chauvin,我们从电邮数据库中已经了解到比较丰富的信息,以我对Chauvin的了解,这些推测都是正确的。最后,我们来对这个“书信空间”做一个全景的扫描,把寄件人与收件人的行为理解为最基本的社会关系,看看能否用Gephi绘制出有趣的社会网络图案来。

在经历了各种消歧后,我将Chauvin的所有邮件转换成了囊括9661条边文件以及4536个节点的节点文件。放到i5第三代酷睿的旧电脑里跑了30分钟,用ForcheAtlas2的布局,描绘了一张真正意义上的“书信空间”。由于节点太多,我担心密集恐惧症的人士看到会有所不适,故对背景做了一些处理,然后根据算法进行了社团分析。Chauvin的交际圈就这样被暴露出来了。

如何区分直接史料和间接史料:历史学家的新技艺(6)

虽然在这个“书信空间”中,Chauvin是毫无争议的中心,但非常直观地看到了不同圈子的存在。哪怕是Chauvin在PKU学习期间,也能够细化出各种类型:历史系硕博同窗的“同学圈”、参加德语角活动的“德语圈”、参加户外活动的“娱乐圈”,以及获得巴登州奖学金的“校友圈”。请大家特别留意左下角的一片浅浅的墨绿色,它是Chauvin在PKU读研究生期间加入《北京大学研究生学志》编辑部的一段学习经历的记录。NJU期间的情况要复杂一些,但仍然有历史学院同事、世界史同行、南京大学同事以及赛德尔基金会在上海和北京的校友圈等不同划分。

从远距离阅读的方式扫描Chauvin的书信空间,可以获得全貌的认知;不过由于存在大量噪点,其实看不到太多细节,比如Chauvin跟谁互动最为频繁?谁给Chauvin写了最多邮件,Chauvin又寄给谁最多邮件?通过算法过滤掉联络频次较低的节点,再将边的权重体现出来,得出了另外一幅交往图。

如何区分直接史料和间接史料:历史学家的新技艺(7)

如何区分直接史料和间接史料:历史学家的新技艺(8)

如上图所示,Chauvin的大部分通信关系主要在同学与同事之间展开。一如既往地,Chauvin作为书信空间的中心节点,入度和出度极其不平衡。孜孜不倦地向Chauvin写邮件的是招商银行和当当网,粗粗的深蓝线条表明,它们从来没有得到过Chauvin的回应;而Chauvin向WH2和WH12两位同事写了最多的书信,但总体上,仍然是收到的比寄出的多。惟一的例外是他与R的互动异常频繁。回归到真实的交往活动,这个特征有迹可循。R是Chauvin在南京大学的德国同事,她在入职南京大学之前、之中以及之后,遇到了各种问题,为了帮助R顺利度过适应期,他们在电子邮件上进行了大量沟通。

另外,在Gephi对网络可视化的界面,如果我们把鼠标悬停在某个节点上,系统会自动测算出有直接联系的不同节点。根据这个算法,我们能够看到不同节点的关系。在不断尝试的过程中,我突然发现了下面的关联。

如何区分直接史料和间接史料:历史学家的新技艺(9)

在Chauvin众多的联系人中,只有PKU12与学志编辑部grsxz具有关联。PKU12是Chauvin硕士班同学,他先于Chauvin加入了学志编辑部,后来推荐Chauvin加了进来。这段尘封的往事,估计也只有透过SNA的分析,才会被重新挖出来。

进入邮件的内部

到目前为止,我们一直在电邮数据库的外围打转,还没有开始对邮件内容进行分析。关于这节,我先卖个关子:欲知后续如何,请听下回分解。

短暂小结

信件、日记等私人化的文字,向来是历史学者重视的史料,虽然它们并不一定尽显客观。奥古斯丁早在一千多年前就知道,记录在案的文字一定会成为呈堂证供,所以刻意留下了自己的书信副本,让我们有机会窥见这位旷世奇才的精神世界。但奥古斯丁的行为太过前瞻性,甚至让人有理由怀疑他在写信的时候会掩盖自己的真实想法。在这点上,电子邮件反而体现了客观的价值。

电子邮件虽然不像传统书信那样长篇大论,但收件人和寄件人在当下都还没有意识到这些文字将来有可能供人研究,它们或许更能准确表达使用者的心境。而且,发出去的邮件如同泼出去的水,只要还在服务器上,就无法撤销,也无法删除和修改,真正演变为脱离了作者的独立存在。它们能够发挥何种作用,那就靠读者自由发挥了。

上述的分析在很大程度上是游戏之作,并不属于严格的学术研究。但是也许在不久将来,如何处理电子邮件会成为历史学家的必备技能。正如有学者提到的那样,掌握古董硬盘的修复技术可能会是未来历史学者的必杀技。当然,当AI技术成熟,对这种“天生数字化”资料的分析,可能是小菜一碟。不过,现在AI还在路上,我们在这里构建一位历史学者的“书信空间”,算得上是一次技术路演吧!

(本文的写作,得到了南京大学软件学院刘嘉、郭建朋的技术支持,在此表示感谢!)

猜您喜欢: