探秘谷歌AI实验室:TensorFlow在这里诞生

谷歌宣布开源TensorFlow,业界反响巨大,就让我们一起到谷歌人工智能实验室去看看究竟有何神秘之处。

TensorFlow:谷歌人工智能的2.0

2007年12月,谷歌推出移动操作系统Android,此时距iPhone第一代发售仅仅过了6个月。与当时市面上的移动操作系统不同的是,Android是一款开源的操作系统,所有手机厂商、开发者都可以在开源协议基础上进行自定制开发。8年之后,搭载Android的智能手机已经占据了智能手机市场的八成份额。就在昨天凌晨,谷歌再次发布一款开源产品TensorFlow,这次瞄准的是人工智能。

谷歌宣布将内部一直使用的机器学习系统TensorFlow开源,将此系统的参数公布给业界工程师、学者和拥有大量编程能力的技术人员。开源的TensorFlow可以让深度学习从业者甚至大学生们都可以与世界上最领先的人工智能技术平台一起工作。谷歌此举或将奠定自己在人工智能领域的权威地位。

TensorFlow是谷歌的第二代人工智能系统,该系统将机器学习算法变成了符号表达的各类图表,从而有效缩短了重新写代码的时间。TensorFlow的命名起源于该系统的运作原理,即复杂的数据结构(Tensor)将会被传输至人工智能神经网中进行分析和处理,这一过程是机器深度学习的核心部分。

长期以来,谷歌一直非常积极地对机器学习进行研发。谷歌在2011年推出了第一代机器学习系统「DistBelief」,就是这个大名鼎鼎的系统自动从大量Youtube图片中识别出了「猫」;并让谷歌的语音识别准确度提升了25%;在Google Photos中实现了图片搜索。如今的TensorFlow系统是在第一代产品的基础上发展起来的,并对早期系统的不足进行了改进。谷歌在官方博客上表示,比起旧系统,TensorFlow更快、更灵活以及更聪明,在建立和训练机器学习模型方面比第一代人工智能系统快五倍。谷歌CEO Sundar Pichai在博客中写到,TensorFlow更快的速度使我们能够更快的提升产品表现。

TensorFlow与旧系统的区别在于,TensorFlow没有被束缚在谷歌自身的IT架构内,能够被任何有相关背景的人基于合适的IT资源进行配置。

外界对TensorFlow的评价

对于TensorFlow,第一个问题就是为何要开源。谷歌官方的解释是,将技术免费开放是希望可以加速人工智能领域的发展。所有人都可以帮助Google改进其技术,并将成果反馈回来。正如Google深度学习项目的主要推动者Jeff Dean所说:「我们希望的是,整个研究、开发者社区将TensorFlow作为一种很好的手段来实现各种各样的机器学习算法,同时也为其在各种场景下的应用带来改进。」如果此次开源能够使更多的数据科学家开始使用谷歌的系统来从事机器学习方面的研究,那么这将有利于谷歌对日益发展的机器学习行业拥有更多的主导权。

Jeff Dean的观点也得到了创业公司的积极响应,深度学习创业公司Skymind的CEO克里斯·尼古森说:「这是很有趣的一件事,谷歌(在这一领域)领先整个世界五到七年。如果他们将软件开源,那将改进每一项机器学习研究。」

当然,谷歌也并非完全毫无保留。目前开源的是其引擎中较为顶层的算法,也没有开源其硬件基础设施系统。而且,谷歌也不是第一个将深度学习系统开源的科技巨头。

Yann LeCun在Facebook上转了一篇纽约时报Bits报道TensorFlow的文章,并评论说:「如果放在几年前,谁会想到一篇关于深度学习开源库的文章会发布在纽约时报科技频道(Bits)上?」补充一下 (以便大家不要误解我的含义): 我认为TensorFlow 非常酷,我对谷歌的朋友们将其开源表深表赞同。

其实,Yann LeCun是在非常狡猾的提醒用户,Facebook早在今年一月份就公布了一个机器学习的开源项目,他们将一些基于机器神经网络的产品免费放在了Torch(一个关注深度学习的开源软件项目)上,可以用来处理数据,分析信息的共同特征。Facebook人工智能实验室的研发工程师Soumith Chintala对此表示,将人工智能和神经网络公开是十分有用的,他也是Torch项目的创始人之一。他说,除了大公司之外,Torch也会用于创业公司和大学实验室。

除了Torch之外,深度学习方面的开源软件框架还包括Theano和Caffe。斯坦福大学的计算机科学家Christopher Manning在试用过TensorFlow之后表示令其印象深刻,「它在深度学习工具中表现的更好更快。」他认为TensorFlow将广泛用于公司的研究人员和高校的学生中间。对此,斯坦福大学计算机教授Christopher Manning深有感触,过去三个月里,他的学生们已经和TensorFlow并肩作战,而在试用几周后,Manning决定将其纳入到自己的课程里。

艾伦人工智能研究所执行董事Oren Etzioni对谷歌的这一行为评价道,这是谷歌整个平台战略的一部分,来吸引开发者 机器学习人才。但比起提供云服务的IBM、微软和亚马逊,谷歌确实在做一些更加开放的工作。MIT斯隆管理学院的教授Michael A. Cusumano则认为,即便TensorFlow是开源,但如果它能获得成功,将毫无疑问成为谷歌的赚钱机器。

对于TensorFlow将来发展遇到的问题,计算机视觉开源项目主席、计算机科学家 Gary Bradski说,决定这个平台成功与否的关键在于,谷歌如何处理代码升级的控制权问题,是这个开放社区有发言权,还是由谷歌控制批准官方版本。

TensorFlow的源头:神秘的谷歌人工智能实验室

不管第一代的DistBelief,还是刚发布的TensorFlow,都是来源于谷歌人工智能实验室。从某种意义上说,谷歌正在从一家搜索公司转变为一家机器学习公司。而在这家公司内部神秘的人工智能实验室里,我们也看到谷歌统治人工智能的野心。

接近谷歌内部的认识透露,谷歌内部并不喜欢「Artificial intelligence」这个词,他们认为有太多贬义的成分,他们更热衷于创造一种智能,也就是机器智能。

很多使用谷歌服务的人已经能感觉到这种机器智能,比如Android手机上的Google Now,就是一个贴心的虚拟助理产品;比如谷歌相册,能够自动识别、自动分类;比如使用了TensorFlow谷歌邮箱的自动回复,能够基于收到邮件的关键词自动回复……这与谷歌CEO Sundar Pichai上月财报电话会议中的表态一致:

机器学习是一种核心的转变方式,通过机器学习,我们再重新思考我们所从事的一切。我们目前正处于初期阶段,但用户将看到谷歌以系统的方式来思考我们将如何把机器学习应用到所有的这些领域。

那么,到底谷歌内部谁在负责人工智能研发?这个问题几乎无法回答,谷歌工程副总裁 John Giannandrea认为,谷歌采用的是「嵌入式模式」,换句话说,每个团队都在人员研究人工智能。

过去几年,谷歌一直专注人工智能研发,从某种意义上说,TensorFlow就是这几年努力的结晶。TensorFlow的负责人之一Jeff Dean对于TensorFlow的在更大范围内的普及持审慎态度。他表示,谷歌只是负责提供了一个工具,还需要开发者能够快速开发、部署相关产品。 Dean说:「我们的出发点是加速机器学习的研究和部署。」

10月初,Jeff Dean在BayLearn15的演讲中首次公布了Google TensorFlow,并表现越来越来越多的谷歌开始使用这个系统。

尽管谷歌公司一向以开放文化著称,但当记者进入谷歌人工智能实验室时,还是感到了某种保密的空气。一位谷歌工程师看到记者并没有携带员工工牌,走过来询问记者的身份。

谷歌所谓的「嵌入式模式」的人工智能研究对记者而言,就是需要奔波于各个办公楼之间。谷歌的员工们一般骑自行车穿梭于不同办公区,不同的办公区有不同的产品团队,嵌入式的人工智能团队也和记者一样,不断切换自己的工作地区和工作内容。

从公司架构上,谷歌的确有一个团队在解决机器智能的通用型问题,并将其工作反馈给不同的产品组,比如相册、语音搜索和搜索等等。这个团队还会挖掘一些还没有产品原型的问题,Giannandrea列举了谷歌对于手写设别的关注:「我们特别想理解人类手写的方式,会不断在这个领域加大投入,即便目前还没有产品出来。」事实上,手写识别已经部分应用到谷歌笔记类应用Keep上面了,或许下一步就可以自动识别了。

这个通用型的团队被分成不同的小组,有的专注于如何教会计算机识别,有的则研究计算机理解语言的方法,也有的在探索提升语音识别的方式。Giannandrea告诉记者:「没有哪家公司比谷歌更热衷于语音识别、翻译和语言理解,谷歌会持续投入到这些领域。」

目前约有1000人的团队在进行人工智能相关领域研究,既包括基础理论研究者也包括实施团队成员。谷歌在完成重组之后,其母公司Alphabet并不会干涉谷歌的人工智能研究,而且也不影响与Alphabet其它子公司,包括生命科学集团、谷歌X实验室的协作。

谷歌近几年来不断优化语音搜索,无论是Android设备、iOS的App还是桌面浏览器Chrome上,搜索栏上的语音搜索标记都格外醒目。很多人都将语音搜索作为对抗苹果Siri的武器,但在谷歌眼里,语音搜索成为谷歌海量数据的第二大来源,而在语音识别团队的努力下,这个产品也越来越受欢迎。

尽管没有确切数字,但移动端的搜索已经比桌面搜索请求更多,移动语音搜索也在去年有了大幅增长。仅以美国地区来说,约有50%的美国移动终端用户知道可以使用谷歌语音搜索,约有三分之一的用户的确在使用了。

Françoise Beaufays是语音团队的幕后功臣之一,他表示能有如此之高的普及是因为产品的确越来越好。「当我们刚开始做语音识别时,用户对我们没有多大信心。我们能感觉到,尽管用户也使用我们的产品,但毫无疑问我们的产品还不够好。而如今,越来越多的人可以自然地在自己办公室使用我们的产品。」

在Françoise Beaufays的带领下,谷歌语音团队采用新的神经网络代替之前传统的语音识别体系。Beaufays介绍道,要让机器懂得语音,需要让机器首先学会单词和短语是如何表述的,这意味着要大量语音数据。然后再将这些数据通过算法,形成一个语音图谱,这个图谱里包括各个单词、短语是怎么表达的,换句话说,要有各种口音的语音数据才能让这个图谱更准确。

谷歌将大量用户语音搜索的数据作为训练机器的「教材」,当用户用语音搜索一句话后,这段语音会上传到谷歌服务器,而训练的第一步则是抹去一些重要信息,比如时间点、地理位置信息、用户个人资料等等,只剩下最原始的语音,有时为了让机器更聪明,研究者们还会通过软件模拟更多人的语调让机器识别。

这种算法极大地提升了谷歌语音搜索的准确性,两年前,语音搜索的错误率高达25%,如今错误率只有8%。

当谷歌相册问世时,很多人称赞这款产品的智能程度,但也有不少人担忧其对个人隐私的担忧。谷歌工程师Drago Anguelov表示:没有人会看到用户的图片,机器也不会看到。「我们在公开数据中训练机器,这些数据任何人都可以拿来使用。但这些数据太标准,和人们拍出的真正照片差别巨大。」

谷歌对图像的训练体现在一个名叫Deep Dream的产品中,它采用了包括10—30层人工神经元,每一层会识别不同抽象程度的图像,通过提取上一层图像的特征进行进一步处理,图片被层层解读,最后得到重塑的新图片,比如让机器识别一颗树:

而机器所看到的却是这样子的:

这些看似没有价值的图片实际上也是机器学习图片后的反馈,利用这种反馈再进行训练,会让机器变得更聪明。

这也是Smart Reply的研发模式。

上周谷歌发布了邮箱工具Inbox的智能回复功能Smart Reply,同样基于TensorFlow。Gmail产品总监Alex Gawley说「我们看到了我们团队在神经网络建设方面的巨大能量,这将可以帮助我们更好地理解和组织(语言),比如回复邮件」。

Inbox团队首先在内部上线了该功能,不断通过海量数据「喂养」机器,当机器回复时,告诉机器哪些是正确的,哪些是错误的。这也是机器学习的一般方式。在整个团队的训练、反馈、再训练再反馈之后,整个产品才上线。

这种内部的测试能够让研究者了解当海量数据进入神经网络之后可能出现bug,比如,一开始,Smart Reply会回复很多「I love you」,但由于只局限在私人邮件数据里,「I love you」是一个常用的短语,因此机器误以为这是一个很重要的词汇。通过大规模的数据训练,机器能够进一步理解不同性质邮件中的重要词汇。

而谷歌机器智能的集大成者毫无疑问是Google Now,「让正确的信息出现在正确的场合」是Google Now团队的目标和方向。作为Google Now的老大,Aparna Chennapragada表示:这款产品就是让人类的生活变得更加简单,五年前,Aparna Chennapragada希望通过语音识别来实现,但随后发现,这并非一种好的方式。

Google Now要做的就是利用三种不同的数据建构一个数字助理,谷歌将手机看作注意力工具,而一个合适的助理型服务不应该让用户感到信息超载。

Aparna Chennapragada表示:如果你去查看人们使用智能手机的方式,你会发现用户往往是在一些碎片化时间使用,你真正要找的信息真的很少。我们要思考如何代表你去挖掘到这些有用的信息。这就是谷歌对于搭载机器智能的手机的终极定位:一个真正的个人数字助理,拥有超强的预测能力和海量的知识,可以成为你大脑的数字化延伸。

Google Now得益于谷歌之前在知识图谱技术方面的积累。如果你在谷歌搜索框里搜索「中国的首都是哪里?」,你会直接得到北京这个答案,而不是一堆包含北京的链接。2012年推出的知识图谱也是谷歌人工智能第一次布局到主要产品中,如今,每天大约有15%的搜索请求会由这些技术应对。前不久,谷歌透露了基于人工智能模式的搜索技术RankBrain。

当然,谷歌人工智能实验室还有另一个重磅武器——Geoffrey Hinton,他可谓是将深度学习带入谷歌的第一人。Hiton也许是全世界研究神经网络系统最早的专家,在1980年代中期,他就是人工智能技术的先驱(他提到在16岁时就开始思考神经网络)。

早在 80 年代初期,当Hinton和他的同事们刚开始相关研究时,那时的电脑还不够快,不足以处理有关神经网络的这些庞大的数据,他们取得的成就是有限的。而当时AI普遍的研究方向也与他们相反,都在试图寻找捷径,直接模拟出行为,而不是试图通过模仿大脑的运作来实现。大约十年前,在多伦多大学Hinton的实验室,他和其他研究者取得了一项突破性进展,突然使神经网络成为人工智能领域最热门的话题,这些研究者精通建立多层模拟神经元结构以使整个系统能够被训练,或者进行自我训练,然后来预测随机输入值的相干性。

2007年,Hinton在山景城进行了关于深度学习的谷歌技术演讲,极客们踊跃出席,这一演讲在YouTube上也大受欢迎。后来,Hinton的学生去了IBM、微软,当然还有谷歌。所有人都能自由使用Hinton实验室的成果用以完善各自系统。Hinton表示,「有趣的是,微软研究院和IBM先于谷歌得到这项(深度学习)技术,但是在将技术转变成产品方面谷歌却比任何人都迅速。」

这对谷歌搜索意义重大,利用深度学习理解真实世界,在为用户提供准确答案和信息方面向前迈出一大步。不管从内部的产品逻辑,还是刚刚开源的TensorFlow,谷歌的人工智能一直秉承着「整合全球信息,使人人皆可访问并从中受益」的使命,接下来,谷歌在人工智能方面还会有哪些惊喜带给我们,不妨拭目以待。

机器之心,最专业的前沿科技媒体和产业服务平台,每日提供优质产业资讯与深度思考,欢迎关注微信公众号「机器之心」(almosthuman2014),或登录机器之心网站www.almosthuman.cn查看更多精彩内容。