超强计算机将解密20世纪的450万条外交电报

新一代「阅读」计算机即将来临。它们将能迅速阅读上千上亿的文章,还能理解其中的人物关系。

新一代「阅读」计算机即将来临。它们将能迅速阅读上千上亿的文章,还能理解其中的人物关系。

纽约市上西区的河边,有一座实验室,里面有一台不寻常的计算机——它很快就能像人一样识字和阅读了。不仅如此,它还能理解其中关于社会的巨量信息。

这台计算机的名字叫做「解密引擎」(Declassification Engine),它将梳理美国国务院目前已解密的20世纪30年代到80年代间的450万条电报。这超出了任何一个人的阅读数量。哥伦比亚大学的计算机科学家Owen Rambow正在运营这个项目。他说,这台计算机将能分析这些信息,构建其中的社会关系,并试图对20世纪美国外交官和政府官员们在国外的行为做出新的解读。

Rambow说:「某一条电报谈论的可能是与土耳其外交部长进行的一次会议。如果我们能从电报中提取出社交网络,那么我们就能理解美国的网络如何随时间而变化。例如,在危机时期,这些网络是收缩还是膨胀了?」

解密引擎并不是唯一具有阅读能力的计算机。我们已经见过许多能够理解文字和简单事实的软件:例如搜索引擎能从网页中提取出事实来回答简单的问题。还有一些软件能够分析科研实验信息,并找出人类容易忽略的模式和规律。但是Rambow的系统已超越了这些简单应用,它能够理解人物之间的关系,以及文字信息中的时间关系,还能理解人物是否获得了他们想要的东西。

卡耐基梅隆大学的Tom Mitchell说:「计算机处理数据的速度和规模是人类望尘莫及的。」多年来,他的团队一直在训练计算机理解网络信息,试图通过人类输出的文字来理解人性。他建立了一个系统,来分析文字中的关系,以找出哪些人物彼此是朋友,哪些是敌人。

马里兰大学的Snigdha Chaturvedi说,已有的自然语言处理系统(例如Google Now和Siri)在回答基于事实的问题上已经表现得很不错了。她说:「如果你输入『谁是美国总统?』,它就会回答『奥巴马』。它们很善于回答基于事实的问题,但是不那么擅长理解观点。」

Chaturvedi目前正在开发一款软件,试图让它超越事实,从文字中理解人类的观点。例如,让它回答一些主观问题「奥巴马做了什么来赢得选举?」这个软件将能吸收成千上万与奥巴马竞选有关的在线新闻、书籍和杂志,找出与奥巴马赢得选举有关的共同元素——或许是一个关键人物,或一个重要的地方。

「你也可以问一些与日常生活相关的类似问题,」Chaturvedi说。它将能挖掘人类写下的所有知识,找出人们的共识,或者列出几个选项。例如,这个软件可以用在医疗论坛上,阅读所有人写下的帖子,看看人们对某种药物或治疗方法的感觉如何,是否有用。

Mitchell说,能做出这种区分的计算机将成为一个强大的工具,因为它们阅读的速度和广度都远远超出了人,哪怕你全天24小时读个不停也无法超越它。他说:「它能获得的经验超出了我们一生的潜力。它的阅读能力超出我们数百万倍。」

不过,现在还有很多问题需要克服,例如如何处理那些不常见的格式。比如说,名字对解密引擎来说非常重要,而计算机主要依赖于大写字母来寻找名字。但是电报全都是大写字母,这是电报系统的遗留问题。Rambow有信心克服这个困难。他说:「我希望再过一两个月,它就能开始工作了。」

机器之心,最专业的前沿科技媒体和产业服务平台,每日提供优质产业资讯与深度思考,欢迎关注微信公众号「机器之心」(almosthuman2014),或登录机器之心网站www.almosthuman.cn查看更多精彩内容。