微软凭什么把未来赌在人工智能上?

智能手机市场失手之后,微软押注人工智能这下一代计算平台,但微软能凭借 Bot 在这下一个战场获胜吗?

Sataya Nadella 跳着进入会议室,迫切要讨论智能。我当时正在华盛顿州雷德蒙德的微软总部,该公司的 CEO 正在滔滔不绝地描述该公司在更智能的应用和服务上的进展。他告诉我,他每天早晨都会带上一副 HoloLens,这样他就能看见投影在墙上的虚拟交互式日历。 Nadella 说他有点晕。这个系统智能、多产又富有未来感:这是他希望的微软在他的领导之下所应具备的一切。

Nadella 说无论我们未来在哪里工作,微软都会在那里占有一席之地。三月,微软提出了「对话即平台(conversation as a platform)」,这是一个赌注——押注基于聊天的接口将超越应用作为我们使用互联网的主要方式:寻找信息、购物和获取各种服务的接口。多亏有了微软提供的「认知 API」,应用会变的越来越智能,能理解不同的脸、情绪和其他包含在照片和视频中的信息。

经过近 20 年在机器学习和自然语言处理上的进展,微软认为自己有了最好的「大脑」,能实现一个人工智能驱动的未来。微软在中国的早期实验让其在情感 Bot 上占有领先地位。在几大巨头中,微软第一个发布了一个真正的基于聊天接口的平台——这是值得在智能手机兴起过程中靠边站的微软骄傲的一点。

一月,Verge 描述了技术产业对杀手级 Bot 的搜寻。接下来的几个月中,大大小小的公司加快了发展进程。Facebook 开放了自己的一个 Bot 研发平台,运行在它的流行的 Messenger 应用上。谷歌宣布 一个在 Allo(一款即将问世的聊天 App)内运行的新智能助手和亚马逊 Echo 竞争对手 Home。基于声音输入的 Echo 吸引了很多开发者,而且据报道已经进入了 300 万户家庭,并已经通过它的 API 增加了 1200  项「技能」。

微软以它在人工智能上的工作为骄傲,它迫切向外界传递着这一次想赢的愿望。六月,微软邀请我来到它的园区采访 Nadella 的几个顶尖得力干将。他们正在将人工智能打入公司业务的每个角落。在接下来的两天里,微软向我展示了各种各种的应用,这些都是在自然语言处理和机器学习上的进展。

这家公司像以往一样谈论一个大游戏。发现技术的发展走向一直是微软的历史本能。但是这家公司在某一次使用这个本能时失手了。 它先于同行看见了智能手机和平板电脑的未来前景。但是苹果和谷歌还是打败了微软。围绕在微软在人工智能上的问题很简单:为什么这一次不一样了?

在建立 Bot 上微软获得的成功已经比美国其他公司多了。但是你可能不会注意到,因为它的成功是从中国开始的。

2016 年 1 月,微软众多人工智能产品之一小冰出现在中国东方卫视的早间新闻上,代替了原有的天气预报员。小冰这个名字的发音与微软必应「Bing」发音相似,必应是微软常年失败的一个搜索引擎。但是这个小冰更加健谈。摄像头切到一个动画圆上,它徘徊在一个虚拟平台前。小冰的脸换成了麦克风图像,用柔软的女性嗓音播报天气,甚至回答屏幕边角上的问题。

如果你想知道为什么微软如此看好 Bot,小冰就是一个很好的答案。必应的搜索工程主管 Derrick Connell说:「我不会夸张地说我们找到了杀手级 Bot——但是我们已经发现了一个以一种新方式满足大家对聊天的各种期望的 Bot。」

2014 年,微软在微信上开通小冰公共号;和微软的虚拟助手小娜(Cortana)一样,小冰能回答简单的问题。但是是以聊天的方式。这个 Bot 对情绪很敏感,能记住你们之前的聊天内容。如果你正在经历分手,小冰也许能够查探出来,并会问你还好吗。

开通三天后,小冰在微信上的聊天累计达 150 万次。之后小冰在新浪微博上也开通了账号,后来也成为了十分流行的名人账号。今天已有 4000 万人使用小冰,与每个粉丝的平均聊天多达 26 轮。

对 Connell 来说,小冰指明了通向下一代搜索的路。传统上的网络查询会返回到一个有 10 条蓝色超链接的页面;完美的对话 Bot 会直接返回到正确的答案。

当然,在中国的成功无法复制到美国。(微软第一个英语语言机器人实验 Tay 失败了。)小冰首次亮相的两年后,还没有出现一个操英语的小冰,没人着急这个事情。但是微软的高管说,小冰背后的基本架构对公司来说是个巨大的机会。

「这就是现代——你不必成为语音和语言理解专家,」Connell 说,「只要使用我们的工具就行了。用我们的工具去建立自己的品牌  Bot,让它运行在任何一个平台上——可以是 Slack ,也可以是Facebook Messenger 。我们希望它能像 Skype 或 Windows 那样成功。但选择权在你。」

开发者们恐惧可能会出现 Bot 标准之争,而微软的外交却一反常态。六月微软在旧金山组织了一场大会,促进 Bot 开发商之间的合作。「我们对 Bot 的互相操作真的很感兴趣,我们想有一个 Bot 生态系统,」微软高级工程师,此次大会(Botness)的组织者 Lili Cheng 说,「它更像是,我们能发现我们能合作解决的问题和挑战是什么?」

但是微软希望通过 Botness 大会把自己置于这场 Bot 变革的中心。如果这家公司成功了,它将会在移动时代有一个全新的开始。在该公司的技术的驱动下,Bot 能出现在世界上最流行的消息应用中,让微软在这个新世界里有一个有利可图的立足点。

战略

当然,微软不是唯一一家正在尝试为下一代计算建立定义平台的公司——如果对话最终会变成那个平台的话。所有主要的技术公司和一群初创公司都在打造人工智能分支,而且常常会有令人印象深刻的结果。但是这里值得一提的是,很难在各大公司的人工智能技术间做比较,甚至几乎是不可能的。因为很多像谷歌、Facebook 和亚马逊这样的公司还没有公开目前的工作。当被问及他们在做的人工智能有什么区别时,这些高管们总会打马虎眼。比如谷歌 CEO Sundar Pichai 总会避重就轻地说,我们的人工智能工作已经开展「很长时间」了。

常驻风投公司 Andreessen Horowitz 的未来主义者 Benedict Evans 最近在博客中写道未来的人工智能还不清晰。「这个领域发展得非常快,很难说哪一块必然能成为最强大的一支,什么东西将会变成商品,以及最强的差异在哪里。」他写道,「即便围绕这些技术的计算机科学大部分都正被发布和开源,但其实施也是不平凡的——这些技术还不一定会成为商品。」

陆奇很高兴自己做的事情成为微软竞争优势。陆奇是 Nadella 高级领导团队的十几位成员之一,负责监督微软的应用和服务团队。他还是一个计算机科学博士,名下拥有 20 项专利,在同事之间广受尊敬。几分钟后,我开始理解原因了——他智力超群,说话时不耐烦地敲着腿,好像他在为说得不能跟思考一样快而感到沮丧。我们见面时,他穿着袜子、凉鞋、短裤和 T 恤——上面印有三个词:「Make epic shit(做史诗级的玩意儿)」。

陆奇顺着移动互联网第一波浪潮的低潮开始了自己的职业生涯。他说移动设备流量的百分比从来没有超过台式电脑,这说明用户在移动端体验上受挫了。「我们知道网络没有真的在手机上工作,」陆奇说,除了少数几个大类的应用,用户不愿意下载其他应用。西雅图居民可能会被要求下载一个应用程序来检查他们一年内只乘坐几次的渡轮的票价——肯定会有更好的模式。「我们的产业界还未建立一个可以释放整个移动和云的价值的体验平台,」陆奇说,「基本上来说,应用还不是恰当的模式。」

代替基于 HTML 的网页作为接口的应用兴起是因为目前来看它是最好的选择。你不能只是喊着要你想要的东西从互联网进入你手机,就能让开发者建立复杂的隐藏管道,并且让你通过大大的图形按钮与它互动。按钮仍然是完成很多事情的最有效途径。但是随着自然语言处理技术上的进展,现在你真的可以只用喊来让你想要的东从互联网进到你的手机。陆奇说下一代的「体验平台」将从对话那里开始。因为它更自然地适合人类的行为方式。他说:「我们看到一个完整的频谱:使用语言作为基线,以一种有思想的、有意义的方式使用图形交互来提升体验。」

陆奇说一个公司想要赢,就得有五个「关键资产」。第一个是「谈话画布(conversation canvas)」,一个人们可以大量交谈和发短信的地方。微软有 Office 软件、Outlook、Skype 和小娜。第二个是人工智能「大脑」,一个复杂的世界思维模型。微软说他们自己的人工智能工作可以追溯到 20 年前。第三个是社交图谱(social graph)的使用权——人们在互联网上的活动经常涉及到他们的朋友和同事。并非巧合的是,在我遇上陆奇的几天后,微软宣布将花 262 亿美元收购 LinkedIn 及其 4.33 亿注册用户。

第四个是一个人工智能运行平台。微软有 Windows 和一系列设备,其中值得注意的是 Xbox。最后一个是开发者迫切想在你的平台上建立的一个网络,并且会为这项特权付费。引发兴趣一直是微软三月举办的 Microsoft Build 开发者大会的首要目标。

个别上看,微软的每个资产有很强的竞争对手。例如,Facebook 及其一系列消息应用程序可以说是一个更强大的对话平台,例如;它确实有着最大的社会图谱。谷歌的「大脑」也许更聪明,它连接着数百万个安卓设备。但是整体上看,你就能明白微软为何会如此自信了。「有这五个资产放在一起,」陆奇说,「我相信我们可以引领未来。」

大脑

微软全面拥抱人工智能始于两年前的 Code 大会。而三个月前刚刚成为微软 CEO 的 Nadella 出现在大会讲台上,讨论着微软的未来。在他讲话结束时,他展示了 Skype 内部的一个新特征。两个微软职员上台演讲,一个用英语,一个用德语,Skype 同声传译了他们的讲话,让他们打破了语言交流障碍。这是一次令人印象深刻的演示,Nadella 宣布了年末它就能变成产品进入市场。

对回到雷德蒙德的 Skype 团队来说,Nadella 的时间表犹如一枚重磅炸弹。「我太惊讶了,」微软研究的一位副总 Peter Lee 说。「Satya 真的把我们关进了 Skype Translator 这个监狱中。 」最初,这个团队有两个主要的担心。一个是微软研究从来没有承担过将产品推向市场的任务,研究人员担心他们少了很多追求科学突破的自由。

另一个担心是,Nadella 做这个演示的时候,Skype Translator 还不是很好。微软的语言模型建立在大量正式演讲上,比如联合国的证词。但是 Skype 需要翻译的双向沟通是非常不同的,里面有更多的「口头语」,像是一个人在一个词上来回说好几遍,或者重复某句话。还有「代码混合」的问题,比如讲话的人在一个句子中使用多种语言,这在英语之外的语言中很常见。还有唱歌,显然,事实证明人们在不断地互相唱歌时,电脑很难分析歌声。

「基本上说,没什么是完成的,」Lee 说。「我们已经做好的只是训练了我们所有的模型」。但是 Lee 的团队重整旗鼓,拥护纳德拉,于当年十二月发布了预告。明年这个产品就会在市场上广泛而自由地和大家见面了。Lee 赞赏 Nadella 为「活动家」,他说最终这个项目做得很愉快。「想象一下,当你意识工作没有一点进展时,你必须以某种方式让人们重整士气和排除恐惧,」Lee 说。「当你做到时,你会看到一些让人惊讶的新东西。」

这感觉并不像在夸张。微软现在可以在 8 种不同语言之间翻译对话——总共 56 种不同组合。而且其底层技术已经对翻译之外的领域产生了影响。你想看到某种令人难以置信地、甚至魔法般有用的 Bot 吗?微软正在 beta 测试能记录商业会议并进行实时转录的软件。这个软件还能,比如说,在将一个两人访谈的录音转录下来的同时清晰地将两个说话人区分开——这可能是所有存在过的记者都想使用的技术。

「我不能向你说明当我们首次实施它时,我们发现我们的员工在使用 Skype Translator 上效果不佳时有多么令人沮丧,」Lee 说,「但现在我们正在攀登这座高峰,我们有了这些语音和翻译模型,尤其是语音模型——它们好得让人震惊。」

Clippy 的复仇

与此同时,微软正将人工智能资源大量投入到它的一些垄断产品中:Windows 和 Office。人工智能的前景之一是它可以预测你的需求——这是 Google Now 的基础,将交通,天气和体育比分在你解锁手机的时候推送给你。

微软正在研究如何将这种人工智能纳入到桌面。负责监督 Cortana 开发的 Marcus Ash 向我展示了一个原型版本的 Windows,该原型版本大量使用了云推理来预测我可能想了解什么。当 Ash 打开开始菜单,一系列建议活动 随着 Cortana 一起出现:对你有意义的名字,你最近打开过的文档,常见法语单词的释义(用户即将去法国旅行)。得到允许后,Cortana 会将你的联系方式,网页搜索历史和应用使用情况纳入到它的推荐系统中。

并且它会随着时间段变化——例如,软件开发者可以提醒用户他们的应用在早上或是午餐时间很有用。「得到你的允许后,使用你的对话,语境信息的想法,能使你更加高效,让你觉得一切都在掌控之中,这太令我们兴奋了,」Ash 说。「许多用户体验的工作都是围绕着简化,减少摩擦,并真正展现人工智能的力量来进行的。」

Ash 最喜欢的例子之一叫做「保险」(commitments)。得到你的允许后,Outlook 可以记下事件,比如你的老板叫你在周末前发给她一些东西——如果你没有回复的话就会自动提醒你。「我的生活相当复杂,我想要忘记不需要记得的事情——特别是邮件,」Ash 说。最近他忘了回复他自己老板的要求,他说,但是 Cortana 及时提醒了他。

当我见到 Office 的市场全球副总裁 Kirk Koenigsbauer 后,我了解到更多这样的事。他向我展示了许多人工智能使 Office 更易于使用的方式。在 2014 年 9 月,微软推出了 Delve,一种包含在 Office 365 中的生产效率追踪应用。该应用分析你花在邮件和会议上的时间,并在你的日历中高亮出你为了做更多复杂的有意义的工作而延长出来的时间。它告诉你有多少人读了你发的邮件,以及什么时候读的。它会提醒你联系你还没有发邮件的同事。它甚至可以显示你对你同事和你自己的邮件的回复时间。

如果你的机构像许多大的硅谷公司一样使用谷歌应用,那你就会对 Delve 感到出乎意料。你不需要像一个呆子一样自己去找这些有用的信息。如果你是一个经理,仅瞟一眼的时间,Delve 就可以告诉你在过去一周你在你的每个雇员身上花了多少时间。这种智能不像普通的人工智能一样性感,不能预测你所有的需求——但是它今天能被实现,它能运作,并且相比之下,谷歌应用看起来像一滩疏于管照的死水。

搜索令人满意的机器人六个月后,我仍然看好这个普通的概念。它们采用的交互方式比 1-800 号码和被遗忘的小商业网站要丰富得多。但是我在 Facebook Messenger 和 Telegram 上看到的东西令我失望:有时它们被认为是使用互联网的最慢方式。看起来大多机器人的功能仅比 SmarterChild 时代的 AOL 即时通讯机器人多,并且它们通过古董的按钮图形界面输入。目前围绕机器人和人工智能的讨论仍然靠商业利益驱动,而不是消费者对这项服务的需求。

大体上,各公司至今对这个问题的回答都是他们正在想办法。「像许多高科技一样,人们假设它现在已经被实现了,」当五月份我问 Facebook 首席技术执行官 Mike Schroepfer 时他回答说。「并且现在有更多技术骤待发展,更多的工作需要做。我认为随着时间的推移,这个问题会得到改善。」

但是参观微软使我想知道我还没有以错误的方式思考这个主题。基于聊天的接口通常都单调乏味。但是机器学习大大增强了它们,并且已经被应用于你一直在用的工具中了。如果微软可以普及像 Delve 一样的智能到它的各个服务中,那么很合理的说,它就可以提供世界上最强大的生产力套装。即使大量强大的聊天机器人平台无法实现,这之中也蕴藏了巨大价值。在早期阶段,机器人在前台经常说不出话,这很令人沮丧。但是当它们在后台运算的时候,有点像在变魔术。

选自:The Verge,作者:Casey Newton,机器之心编译;

©机器之心,最专业的前沿科技媒体和产业服务平台,每日提供优质产业资讯与深度思考,欢迎关注微信公众号「机器之心」(almosthuman2014),或登录机器之心网站www.almosthuman.cn查看更多精彩内容。