Manning详解自然语言推理的深度学习

SIGIR 全称 ACM SIGIR ,是国际计算机协会信息检索大会的缩写,这是一个展示信息检索领域中各种新技术和新成果的重要国际论坛。SIGIR 2016 于 7 月 17 日 至21 日在意大利比萨(Pisa)举行,主会于 18 日举办。

此次在意大利比萨举办的 SIGIR 2016 的大会图标也非常的有意义。如下图解释的那样,图标外形、旁边文字的颜色与斜体、以及图标的黑白两色都有特别的寓意,反映出意大利的特色。

国际信息检索大会的历史可以追溯到 1971 年。当年,Jack Minker 和 Sam Rosenfeld 组织召开了 ACM SIGIR 的信息存储和检索研讨会。第一次正式的 SIGIR 大会于 1978 年在美国纽约州的罗彻斯特召开。SIGIR 大会曾于 2011 年在北京举办过一次。有消息称 2020 年的 SIGIR 大会将在西安召开。

SIGIR 2016 大会开到今天已经是最后一天了。今年的大会如同往届一样包含教学报告会(tutorial)、主会、主题演讲、学术报告会等。在这篇文章中,我们重点整理了自然语言理解领域的顶级科学家 Christopher Manning 在 SIGIR 上做的 keynote,同时也介绍了此届大会 Test of Time 获奖论文(点击阅读原文下载)。

主题演讲

Christopher Manning 是斯坦福大学计算机科学和语言学教授。他于 1995 年博士毕业于斯坦福大学,曾在卡内基·梅隆大学和悉尼大学任教,之后又回到了斯坦福大学。他的研究目标是能够智能地处理、理解和生成人类语言材料的计算机。Manning 的研究重点是计算语言学问题的机器学习,包括句法分析、计算语义和语用、文本推理、机器翻译和用于 NLP 的递归深度学习。他是国际计算机学会(ACM)会士、美国人工智能协会(AAAI)会士和国际计算语言学协会(ACL)会士。

P1:自然语言推理,阅读理解以及深度学习

P2:通过问答测试机器理解(Burges)

如果关于给定文本的任何问题都可以被大部分人正确回答,而机器提供的答案这些人都认为已经回答了以上问题,并且不存在与问题不相关的信息时,我们就可以认为该机器理解了这段文本。

P3:信息检索(IR)需要语言理解

1.IR 和 NLP 的区别

IR 非常关注效率和规模

比起含义,NLP 远远更关注形式

2.现在有足够的理由将它们结合到一起

更进一步提升 IR 的准确率与召回率

移动语境下的信息检索/问答

P4:菜单

神经逻辑:人类推理语言之上的弱逻辑

分布式词表征

深度、递归神经网络语言理解

P5:为什么信息检索会被认为更接近于定理证明(而非匹配)?

P6:AI2 的 4 年级的科学问答(Angeli, Nayak & Manning, ACL 2016)

我们的「知识」:子房是花的雌性部分,其能产生构成种子所需的卵子。

问题:植物的哪一部分产生种子?

答案选择:花、叶、主干、根

P7:我们可以怎样表征和推理范围广泛的知识?

具有明确逻辑推理的刚性结构知识库

开放领域的知识库(Open IE)——没有清晰的本体论或推理[Etzioni et al. 2007ff]

人类语言文本 KB——没有刚性结构,但有「自然逻辑」,能够在人类语言文本上进行形式推理[MacCartney and Manning 2008]

P8:自然语言推理[Dagan 2005, MacCartney & Manning, 2009]

一段文本认同或反对另一段文本吗?

认同的例子:两位参议院收到了 Jeff Abramoff 寻求政治支持的献金

Jeff Abramoff 试图向两位立法者行贿

这里尝试根据大量文本的集合证明或否定:

植物的花产生种子

植物的叶产生种子

植物的主干产生种子

植物的根产生种子

P9:文本作为知识库

将知识作为文本存储很简单!但在文本上进行推理却很难:因为不能基于所有的事实进行推理,也不能将所有推理都存储起来。

P10:可以根据查询请求进行推理,也可以将文本作为含义表征来进行推理。

P11:可以根据查询请求进行推理,也可以将文本作为含义表征来进行推理。

P12:自然逻辑:文本的逻辑推理

1.逻辑推理:

这只猫吃了一只鼠 ⊨ ¬ 没有肉食者吃动物

2.自然逻辑(当这样改变句子时,它还是正确的吗?):

交易达成后的伊朗问美国是否仍然是「大撒旦」,还是没那么严重了 ⊨ 一个国家

美国是否仍然是「大撒旦」,还是没那么严重了

一种著名的、完整弱逻辑

在普通人类推理上富有表现力

「语义」解析只是「句法分析」

易处理:多项式时间含义检查

能与词汇匹配回退方法很好地搭配

P13:第一:常识推理

自然逻辑中的极性

我们按半序(partial orders)排序短语

最简单的一个:is-a-kind-of

另外:地理包含,等

极性:在特定上下文中,按这个顺序上下移动是合理的吗?

P14:样本推理

量词确定短语的极性

合理的变化考虑极性

成功的玩笑式的推理:所有猫吃鼠 ⊨ 所有家猫食用啮齿动物

P15:「软」自然逻辑

我们也会想要做近似(不确定)推理

和马尔可夫逻辑、概率软逻辑(PSL)同样的动机

每个变化边界模板特征都有 θ≥0 的成本

边界的成本是 θi, fi

路径的成本是 θ·f

可以学习参数 θ

然后推理就成了图形搜索

P16:第二:处理真正的句子

在知识库中,自然逻辑与事实这些协作:奥巴马生于夏威夷

但真实世界的句子复杂且冗长:奥巴马生于夏威夷火奴鲁鲁,毕业于哥伦比亚大学和哈佛法学院,他在那里担任过 Harvard Law Review 的主席。

方法:

分类器将长句子分成有限的子句

自然逻辑推理可使这些分局更短

P17:普遍依赖(UD)

1.单层次的键入的依赖句法

对所有人类语言有效

给出句子的一个简单的、对人类友好的表征

2.对机器解读而言,依赖句法优于短语结构树

3.UD 的目的是在跨多种语言的语言学方面比 CoNLL 依赖等更早的表征更好

P18:最小子句

分类问题:对于给定的依赖边界,它能引入一个子句吗?

它是否缺少一个来自主语/宾语的受控主语?

缩短子句,同时保留正确性,使用自然逻辑!

所有幼兔喝奶 ⊭ 所有兔子喝奶

OK:湾区第三大机场 SJC 常常因为天气而延误

通常更好:SJC 常常延误

P19:第三:增加词汇对齐分类器

有时候我们实际上不能进行我们希望的推理

我们使用了一个简单的词汇匹配回退分类器,它带有以下功能:

匹配词、匹配不当的词、不匹配的词

这些效果一直都很好

这是通常的 RTE 评估和也许 IR 的教训

P20:完整系统

我们在分开的、变短的子句上运行我们的一般搜索:

如果我们找到了一个前提,很好!

如果没找到,我们就使用词汇分类器作为评估函数

我们正在努力使其能大规模快速工作

访问 1M 节点/秒,不会再次特征化,只是增量

32 字节搜索状态

P21:解决 NY 状态 4 年级科学(艾伦人工智能研究所数据集)

1.来自真实 4 年级科学考试的选择题

下面哪种行为是好的健康习惯?(A)看电视 (B)抽烟 (C)吃糖 (D)每天锻炼

2.在我们的语料知识库中:

等离子电视能显示 1600 万色……用来看电视很棒……也能作为好屏幕

不吸烟或饮酒对健康有好处,不管有没有穿衣服

晚餐吃糖是对健康不利的习惯

健康是锻炼

P22:解决 4 年纪科学考试

表为各种系统的的考试得分。

P23:自然逻辑

我们可以只使用文本作为知识库吗?

自然逻辑为文本推理提供了有用的、形式(弱)逻辑

自然逻辑易于与词汇匹配方法结合,包括神经网络方法

得到的结果系统可用于:

常识推理

问答

开放信息提取(即,从文本中得到关系三元组)

P24:信息检索可以受益于词的分布式表征吗?

P25:从符号表征到分布式表征

大部分基于规则或统计的 NLP 和 IR 成果都将词看作是原子符号:酒店、大会、行走

在向量空间术语中,这是一个带有一个 1 和很多 0 的向量

我们现在将其称为 one-hot 表征

P26:从符号表征到分布式表征

它的问题:

如果用户搜索「戴尔笔记本电池大小」,我们会将其与「戴尔笔记本电池容量」匹配

如果用户搜索「西雅图汽车旅馆」,我们会将其与「西雅图酒店」匹配

但是

我们的查询向量和文档向量是正交的。

在 one-hot 向量中并不存在相似度的自然概念

P27:获取相似度

1.在相似度上你可以做很多事,很多在 IR 领域是众所周知的:

查询使用同义词词典扩展

从大型语料中学习词相似度

2.但编码了相似度的词表征会获胜

要学习的参数更少(每个词,而不是每个配对)

更多统计上的共享

更多多任务学习的机会

P28:基于分布式相似度的表征

通过使用近邻的词的表征,你可以得到很大的价值

现代 NLP 一个最成功的案例,通过了解 banking 周围的词来了解 banking 的含义

P29:学习神经网络词嵌入的基本思想

我们定义了一个能够根据上下文预测一个词的模型。

P30:通过分布式的分布表征,可以得到句法和语义相似度

P31:分布表征可以解决 NLP 工具的脆性

因为符号表征,标准 NLP 系统——这里是斯坦福解析器——是非常脆弱的。

P32:分布式表征能获取到 IR 相似性的长尾

例如谷歌的 RankBrain

对查询分布的头部不一定那样好,但对在尾部中查看相似性非常好

我们被告知这是第三重要的排序信号

P33:LSA(潜在语义分析)vs. word2vec

LSA :Count! 模型:

将一个术语文档或词-上下文矩阵分解成 UΣVT

只保留 k 个奇异值,以便泛化

P34:LSA vs. word2vec

word2vec CBOW/SkipGram:Predict! 用于学习词向量的简单的预测模型

1.训练词向量尝试:

根据给定的词袋上下文(CBOW)预测一个词

根据中心词预测一个上下文词(位置独立)

2.更新词向量,直到它们能很好地预测

P35:word2vec 将语义组件编码为线性关系

图中可以看到由 PCA(主成分分析)得到的国家和首都向量的投影。

P36:COALS 模型(count-modified LSA)[Rohde, Gonnerman & Plaut,ms., 2005]

P37:基于计数的预测 vs. 直接预测

基于计数的预测有 LSA、HAL、COALS、Hellinger-PCA。可以快速训练、有高效的统计学用途;主要用于获取词相似性,可能不能为扩展计数使用最好的方法。

直接方法有NNLM, HLBL, RNN, word2vec, Skip-gram/CBOW。易于扩展语料大小,在统计学使用上效果差。在其它任务上生成改进过的性能;可以获取超越词相似性的复杂模式。

P38:在向量差中编码含义[Pennington, Socher, and Manning, EMNLP 2014]

关键观点:共现概率的比可以编码含义组分。

P39:在向量差中编码含义[Pennington, Socher, and Manning, EMNLP 2014]

关键观点:共现概率的比可以编码含义组分。

P40:在向量差中编码含义

问:我们可以怎么在词向量空间中获取共现概率的比以作为含义组分?

答:Log-bilinear 模型;其向量差为

P41:Glove 词相似性[Pennington et al., EMNLP 2014]

这里可以看到与青蛙(frog)最近的词。

P42:Glove 可视化

可以看到同一含义但性别属性不同的词的对应。

P43:Glove 可视化:此处是公司与其 CEO 的对应

P44:命名实体识别的表现:可以看到 Glove 在其中表现最佳

P45:此嵌入:总结

Glove 将词-词共现计数之间有意义的关系翻译成词向量空间中的线性关系

Glove 展示了 Count! 成果和 Predict! 成果之间的联系——计数的适当扩展提供了 Predict! 模型的特性和表现。

这方面还有很多重要的研究:

[Levy & Goldberg, 2014]

[Arora, Li, Liang, Ma & Risteski, 2015]

[Hashimoto, Alvarez-Melis & Jaakkola, 2016]

P46:我们可以使用神经网络不仅理解词相似性,而且还理解语言的一般含义吗?

P47:组合性:人工智能要求能从更小的组件中了解到更大的事情。

P48:我们需要的不只是词嵌入

我们如何知道更大的语言单位何时在含义上相似。

滑雪板滑雪者越过雪坡。

一个使用滑雪板的人跳到空中。

人们通过更小元素的语义组合来解读更大的文本单位的含义——实体、说明性术语、事实、论据、故事

P49:超越词袋:情绪检测

一部分文本的语调是积极的、消极的还是中性的?

P50:斯坦福情绪树库

11,855 个句子中标记了 215,154 个短语

可以训练和测试组合

P51:树结构长短期记忆网络[Tai et al., ACL 2015]

P52:树结构 LSTM

将序贯 LSTM 归纳为带有任何分支因子的树。

P53:树库上的积极/消极结果

P54:树库上的实验结果

TreeRNN 可以获取 X but Y 这样的结构

Biword Naïve Bayes 在这上面只有 58%

P55:斯坦福自然语言处理接口语料:http://nlp.stanford.edu/projects/snli/

57 万张基于预设图片的 Turker 评价对

图中给出了继承、中立和对立的三种不同样本案例

P56:使用 Tree-RNN 的自然语言接口(NLI) [Bowman, Angeli, Potts & Manning, EMNLP 2015]

方法:我们可以分别得出每个句子的含义——一个纯净的组合模型,然后我们将其与神经网络进行比较并分类,以进行推理

P57:树递归神经网络(TreeRNN)

理论上很有吸引力,根据经验应该很有竞争力;但出奇地幔、通常还需要一个外部解析器、也不利用互补的语言线性结构。

P58:循环神经网络允许在 GPU 上有效执行分批计算

P59:TreeRNN:输入特定的结构会逐渐削弱分批计算

P60:转变减少解析器-解读器神经网络(SPINN)[Bowman, Gauthier et al. 2016]

基本模型等同于一个 TreeRNN,但支持分批计算:能有 25 倍的提速。此外还有线性和树结构语境的有效新混合;还可以在没有解析器的情况下工作。

P61:开始观察:二进制树=过渡序列

P62-63:转变减少解析器-解读器神经网络(SPINN)

该模型包含一个序贯 LSTM RNN

这可通过预测 SHIFT 或 REDUCE 作为简单的解析器

它也将剩下的序列上下文用作组合的输入

P64:实现这样的堆(stack)

朴素的实现:在每个时间步骤上通过一个固定大小的多维阵列激励堆

反向传播需要每个中间堆都被保留在内存中

因此需要大量数据的复制和迁移

有效的实现:

每一个样本只有一个堆阵列

在每个时间步骤,使用当前堆的头部增强

保持用于 REDUCE 操作的返回指针(backpointer)的列表

类似于用在其它地方的 Zipper 数据结构

P65:更薄的堆

P66:Thin-stack、递归神经网络和循环神经网络的前馈时间比较

P67:将 SPINN 用于自然语言推理

P68:SNLI 结果:SPINN 的测试准确度为 83.2%

P69:SPINN 在 LSTM 上的成功

1.使用否定的样本

P:这位艺术体操运动员在比赛中完成了她的自由体操。

H:这位体操运动员没有结束她的体操。

2.更长的样本(大约 20 词)

P:一个戴着眼镜、穿着破烂戏服的男人正在一位鼓手的伴奏下演奏 Jaguar 电吉他和演唱。

H:一个戴眼镜、衣冠不整的男人在一位鼓手旁弹吉他和唱歌。

P70:总结

有很好的理由支持我们使用分布式表征表达含义

到目前为止,分布式学习已经成为这方面最有效的方法,但除了 [Young, Lai, Hodosh & Hockenmaier 2014] 使用视觉场景的标注表征(denotational representation)

但是,我们不仅想要词的含义,也需要组合性地计算出的更大单位的意义和进行自然语言推理的能力。

SPINN 模型很快——接近循环网络!

它的混合序列/树结构在心理上是合理的,而且优于其它句子组合方法。

P71:最后的思考

按照 Gartner 的新技术的发展周期,我们正要达到这项技术炒作的最高潮!

P72:最后的思考

我确信深度学习将会在未来数年内主导 SIGIR……就像之前在语音、视觉和 NLP 上的一样。这是一件好事。深度学习在许多艰难的应用问题上提供了一些强大的新技术,取得了让人惊叹的成功。但是,我们应该意识到目前在深度学习和人工智能上存在大量的炒作。我们不应该让追寻重要新技术的真正热情变得不理智。最后,尽管有这么多人在努力,但实际上 IR、NLP 和语音等人类语言技术之间还存在相当大的不同。这部分是因为组织的因素,部分则是因为这些子领域所关注的重心各有不同。但是这些重点最近也发生着改变——使用 IR 的人想更好地理解人,而使用 NLP 的人则更关心含义和语境——这意味着两者之间存在很大的共同点,我会在接下来的十年内鼓励 NLP 和 IR 领域进行更多的合作。

SIGIR Test of Time 获奖论文

SIGIR 2016 Test of Time Awards 获奖论文为:

准确分析点击量数据作为作为隐式反馈(Accurately Interpreting Click through Data as Implicit Feedback)

作者:Thorsten Joachims、Laura Granka、Bing Pan、Helene Hembrooke、Geri Gay

摘要:这一论文实验了从网页(www)搜索点击量数据产生的隐式反馈的可靠性。使用眼球追踪分析用户的决策的流程,并将隐式反馈与手动的关联性判断做对比。我们推断,点击量是有信息性的,但也是有偏见的。虽然这使得点击量注释对绝对的关联性判断非常困难,我们的结果显示在平均水平上,点击量产生的相关性选择还是相当地准确的。

此外,SIGIR 委员会也评选出了今年的荣誉(Honorable Mention) Test of Time 奖:

使用非完全信息的检索评估(Retrieval evaluation with incomplete information)

作者:Chris Buckley、Ellen M. Voorhees(SIGIR 2004)

摘要:此论文实验了 Cranfield 评估方法是否对完备性假设(也就是,假设一个测试集里面的所有关联文件都能被识别并在这个集里面体现出来)的粗暴侵犯有足够的稳健性。我们的结果显示如今的评估尺度对大量的不完备的关联性判断不够稳健。我们介绍了一种新的评估方式,在完备性判断可用的情况下既与现有的评估方式相关,对不完备判断设定也更为稳健。这一发现表明,使用现有的 pooling practices 建立大量的更大或者动态的测试集( test collections)应该是可行的实验室工具,尽管相关信息会是不完备以及不完美的。

SIGIR 从 2014 年才启动 Test of Time 奖,在 2002 之前的论文没有被考虑进去。最近,SIGIR 召开了委员会会议,一次选出了 30 篇 2002 年之前的 Test of Time 获奖论文。这些论文堪称信息检索领域的经典文献,列表(年份、标题、作者)如下:

1980    Probabilistic Models of Indexing and Searching    S. E. Robertson, C. J. van Rijsbergen & M. F. Porter    

1982    The Unified Probabilistic Model for IR    S. E. Robertson, M. E. Maron & W. S. Cooper    

1983    A Study of the Overlap among Document Representations    P. Das-Gupta & J. Katzer    

1985    The Cluster Hypothesis Revisited    E. M. Voorhees    

1986    A New Theoretical Framework for Information Retrieval    C. J. van Rijsbergen    

1987    Automatic Phrase Indexing for Document Retrieval(未能下载)    J. Fagan    

1988    A Look Back and a Look Forward    K. Spärck Jones    

Information Retrieval using a Singular Value Decomposition Model of Latent Semantic Structure    G. W. Furnas, S. Deerwester, S. T. Dumais, T. K. Landauer, R. A. Harshman, L. S. Streeter & K. E. Lochbaum    

Towards Interactive Query Expansion(未能下载)    D. Harman    

1989    A Library System for Information Retrieval based on a Cognitive Task Analysis and Supported by an Icon-based Interface    A. M. Pejtersen    

Adaptive Information Retrieval: Using a Connectionist Representation to Retrieve and Learn about Documents    R. K. Belew    

1990    Inference Networks for Document Retrieval    H. Turtle & W. B. Croft    

1992    Scatter/Gather: A Cluster-based approach to Browsing Large Document Collections    D. R. Cutting, D. R. Karger, J. O. Pedersen & J. W. Tukey    

1994    A Sequential Algorithm for Training Text Classifiers    D. D. Lewis & W. A. Gale    

Some Simple Effective Approximation to the 2-Poisson Model for Probabilistic Weighted Retrieval    S. E. Robertson & S. Walker    

1995    Searching Distributed Collections with Inference Networks    J. Callan, Z. Lu & W. B. Croft    

1996    Pivoted Document Length Normalization    A. Singhal, C. Buckley & M. Mitra    

Query Expansion using Local and Global Document Analysis(未能下载)    J. Xu & W. B. Croft    

1998    A Language Modeling Approach to Information Retrieval    J. M. Ponte & W. B. Croft    

Improved Algorithms for Topic Distillation in a Hyperlinked Environment    K. Bharat & M. R. Henzinger    

On-line New Event Detection and Tracking    J. Allan, R. Papka & V. Lavrenko    

The use of MMR, Diversity-based Reranking for Reordering Documents and Producing Summaries    J. Carbonell & J. Goldstein    

1999    An Algorithmic Framework for Performing Collaborative Filtering    J. L. Herlocker, J. A. Konstan, A. Borchers & J. Riedl    

Information Retrieval as Statistical Translation    A. Berger & J. Lafferty    

Probabilistic Latent Semantic Indexing    T. Hofman    

2000    Evaluating Evaluation Measure Stability    C. Buckley & E. M. Voorhees    

IR Evaluation Methods for Retrieving Highly Relevant Documents    K. Järvelin & J. Kekäläinen    

2001    A Study of Smoothing Methods for Language Models applied to Ad Hoc Information Retrieval    C. Zhai & J. Lafferty    

Document Language Models, Query Models and Risk Minimization for Information Retrieval    J. Lafferty & C. Zhai    

Relevance based Language Models    V. Lavrenko & W. B. Croft    

本文选自:SIGIR ,机器之心编译;

©机器之心,最专业的前沿科技媒体和产业服务平台,每日提供优质产业资讯与深度思考,欢迎关注微信公众号「机器之心」(almosthuman2014),或登录机器之心网站www.jiqizhixin.com  , 查看更多精彩内容。