腾讯优图Garyhuang:优图,不只是刷脸

腾讯优图隶属于腾讯社交网络事业群(SNG),团队整体立足于腾讯社交网络大平台,专注于图像处理、模式识别、机器学习、数据挖掘、深度学习、音频语音分析等领域开展技术研发和业务落地。

Garyhuang(黄飞跃):清华大学计算机博士,2008年加入腾讯,2012年起创立并负责优图项目,现为优图实验室总监。

一段时间以来,人工智能是大家持续关注的热点,而在各大信息、技术峰会上,人脸识别可谓都在「风口浪尖」,那么,人脸识别背后的技术逻辑是什么?优图又有什么特点和优势?多次刷新世界纪录的优图团队还有哪些黑科技?请看 Gary 深度解剖优图人脸识别的背后:

「很好,感觉让我年轻了 30 岁!」5 月 25 日,Pony 与富士康科技集团总裁郭台铭亮相贵州数博会,在体验了优图人脸识别技术后,郭台铭感慨道。原来数据库中存储的是郭台铭年轻时的照片,但面容随着年龄改变了,系统为什么还可以识别?能够认出十年前的照片,那还能区分双胞胎和整容脸吗?神奇的刷脸背后,技术支持是什么?除了刷脸签到,这项黑科技还能做什么?作为早在2012年起就开始研发机器学习等相关方向的腾讯优图实验室,给出了他们的答案。

刷脸背后的技术逻辑

起床化妆,刷脸看今天适合上什么样的妆;

钱包瘪了,去银行刷脸取点钱;

到公司了,刷脸通过门禁还能顺便考勤签到;

想炒股,刷脸核身就能远程开户;

玩 APP,刷脸就能轻松登录所有 APP;

晚上回家,刷脸开门,安全可靠。

......

我们的每一张脸,都是开启各自生活的独特钥匙,只有依靠我们与众不同且具有超高辨识度的脸,才能在自己精彩而独特的每一天中生活自如。人脸作为我们每个人身份的重要标识,在当今及未来的智能生活中扮演着越来越重要的角色,其带来的生活方式的变革也影响深远。「人脸识别」作为一个由来已久的热门话题,在过去的三十年中,无数的科研学者一直致力于此,也在众多行业得到了广泛应用。

传统典型的人脸识别流程主要包含预处理(获得高质量的人脸图像)、特征提取和特征变换(定义一种计算机能看懂的人脸特征并变换到可区分的地步)、相似度计算(计算两幅人脸特征的相似度以判断是否为同一人)等。在这些步骤中,通过人工设计的特征提取和特征变换往往是决定算法优劣的关键所在,其强烈依赖于研发人员的人工经验。

而深度学习的诞生则极大简化了这一步骤。业界现已有大量开源的深度学习网络模型,在这些开源模型的基础上,只需输入训练数据即可实现超高准确率的人脸识别,大大降低了行业研发的门槛。基于深度学习的方法,优图实验室自主研发的 UFace 人脸识别算法于 2015 年在国际权威数据集 LFW 上刷新了世界纪录,准确率达到 99.65%。

但在 LFW 人脸数据集上取得高准确率,并不等于在实际场景中也能普遍使用,因为人脸识别的效果非常依赖于算法训练时所用的人脸数据集,我们需要使用大量实际场景的数据来调整算法模型才能获得最好的实际效果。

在优图和微众银行合作的人脸核身应用场景(自拍照—身份证照比对验证)中,最初我们把优图原始的基于生活照数据集训练出来的模型直接应用上去,取得的效果远远达不到预期。通过改进,我们用大量相对应的生活照—身份证照的数据集来调整我们的算法模型,同样的算法才达到了实用的标准。

精确刷脸的正确「姿势」

「人脸识别」根据不同的应用场景可以分为:人脸验证、人脸识别、人脸检索等,不论哪一种使用场景,现阶段都或多或少存在一些有挑战的问题。在人脸识别的过程中,随着数据集里身份数量的增长,一般的人脸识别算法准确率都会明显下降。且在不少人脸识别场景中,人脸都是用户非配合的状态,这增加了不少难度。同时,人脸识别在很多应用场景要求算法运行在特定的硬件平台上才能达到最佳的性能效果。

那么,如何面对这些挑战性的问题呢?

首先,LFW 数据集上 99.65% 的准确率肯定是不够用的,基础人脸验证模型的准确率还要持续提升。比如在简单场景下需要做到准确率 99.9% 以上。

其次,针对实际应用场景,则需要更大量的同源数据用来微调训练模型。比如在安防场景中,我们采集了大量网络图像和视频监控图像;在签到场景中,我们使用了大量自拍图像与较正式的证件图像。

然后,针对非配合场景,我们设计了一个人脸质量评估的方案,可以自动判断光线、姿态、角度等,从中选择出最适合识别的人脸。

而针对跨平台应用的问题,我们会对不同的平台进行算法和模型的定制,获得效果与性能的最佳平衡,再针对平台计算架构做代码极致优化(比如CPU、GPU等),实现各种不同平台上的最优代码库,当前我们的人脸算法已覆盖云端、移动端及定制终端。

为了在业务中落地应用,我们会更多考虑应用时的实际需求。自 2012 年开始研发人脸技术以来,优图实验室就不断跟进技术趋势,更新版本,在人脸检测、人脸配准、人脸识别等算法上,全面从传统方法迁移至深度学习,从最新学术方案到最佳工程取舍,我们做了大量的创新和尝试,最终输出了多轮迭代。

通过在产品设计上做更多的考虑,使得人脸识别产品的实际可用性大大增加。以微众银行 APP 为例:作为国内首个互联网银行 APP,微众银行所采用的互联网人脸核身成为万众瞩目的焦点,用户纷纷使用该功能来体验足不出户的人脸开户。但实际上第一个版本通过率整体偏低。我们分析下来,发现主要原因是用户不太清楚产品使用流程。经过团队的反复思考和优化,通过增加语音提示、人脸位置实时显示等方式,改善产品交互,引导用户更顺畅的使用核身流程。最终人脸对比通过率有了大幅提升,达到 95% 以上的水平。

你知道吗?这些产品里都有优图技术

优图人脸识别技术启动研发超过3年,已有不少成功应用案例:

1.空间相册人脸识别

早在 2014 年,优图就在 QQ 空间相册中上线了人脸识别功能。用户可以标注自己或者好友照片中人脸的身份,人脸识别系统则会根据用户标注的信息,自动识别出更多的人脸身份,推荐给好友。下图是人脸识别的集中展示(空间相册 PC 版面孔墙入口)。系统对相册、浮层、猜你喜欢、feed 等场景中的人脸进行自动识别和推荐,并由 feed 扩散展示,降低用户标注门槛,让标出的面孔具有互动和社交价值。

2.微众银行人脸核身

人脸核身是指用户在远程提交实名信息和自拍照,然后系统自动验证自拍照和实名信息对应的身份证照片(来自公安部)是否是同一个人,确保「人证合一」(当前操作者是身份证持有者本人),广泛应用于券商、银行等金融业务的全自动远程实名开户场景。

优图独创的人脸核身方案已经应用于微众银行的 App 中。凭借顶尖的人脸验证、声纹验证、语音识别、活体检测等技术,我们在智能手机上安全有效的解决了实名制远程用户核身验证的难题,属全球首创。

同时,也为公安系统提供这一解决方案。比如苏州公安就已经将优图人脸核身方案应用到酒店住宿登记中,入住酒店如果忘记带身份证,只需要刷一下脸,即可解决身份验证的问题。

3.FaceIn 智能会议签到

人脸识别也可以应用于会议、培训、考试等想要确认本人到场的场景,基于此,优图开发了人脸签到产品:FaceIn 智能会议签到 ( http://meeting.youtu.qq.com )。创造性的将人脸识别技术应用于签到,颠覆传统模式,刷脸即可完成签到过程,方便、准确、快捷,防止冒签、代签风险,提高会议安全性。已有数十场会议使用 FaceIn 实现人脸识别签到。

4.人脸检索系统寻人

优图研发的人脸检索系统,现已实现单机千万规模人脸检索,1 秒内返回结果。

当前我们正在和一些公安系统合作,基于人脸检索研发寻找走失人口、通缉犯等产品项目。只要在手机上拍摄一张目标人脸照片,就可快速完成和人脸数据库的比对,返回相似结果。 

与此同时,在娱乐社交领域,人脸检索技术也可以为产品创新发挥着重要的作用。我们也基于此开发了明星脸检索功能,用户看到海报中的明星,只需用手机摄像头进行识别,就可以找到更多和这个明星有关的信息。

更多黑科技,更多想象

除了人脸识别,优图还有哪些黑科技呢? 

1.音乐识别——听音识曲

音乐识别包括原声识别和哼唱识别。原声识别是指通过话筒收集播放的音乐来检索并将正确的歌曲返回给用户。哼唱识别是指用户对着话筒哼唱一段歌曲,系统识别出用户哼唱的歌曲并返回给用户。原声识别准确率达到 99%,哼唱识别准确率 80% 以上。团队在国际权威的 MIREX2015 哼唱识别比赛中取得世界第一的最好成绩。这一技术已经在 QQ 音乐中落地应用,功能上线后深受用户好评。

2.声纹识别——闻声识人

声纹和人脸、指纹等一样是每个人独特的特征,因此可以通过声纹来辨识一个人。声纹识别所提供的安全性可以与其他生物识别技术媲美,且只需要麦克风即可,数据采集方便自然。在人脸验证的过程中,光照和环境等因素对通过率有较大的干扰和影响。腾讯优图将声纹与人脸融合一起用于身份验证,可以有效提高验证的安全性和通过率。

3.原声消除——伴奏分离

优图声伴分离技术的主要功能是对双声道歌曲中的歌声和伴奏成分进行分离,分离出来的歌声和伴奏均为双声道信号,伴奏可以用于卡拉 OK 的曲库。对于数万首歌曲的主观听测结果表明,优图声伴分离系统生成的歌声和伴奏具有极好的听觉效果,质量高出市场上主流同类产品的 4~6 倍。目前,优图声伴分离系统已经在全民K歌落地,用于大批量自动生成伴奏,高速补充 K 歌伴奏曲库,为用户提供多类型、多场景的K歌伴奏选择。

4.图像识别——看图识物

优图图片内容识别技术基于团队自研的深度识别引擎,核心算法与基础模型经过多轮优化,可以准确快速地识别图片内容信息。标签范围涵盖上百种热词,囊括了社交生活、人物、风景、建筑、常见生活物品等大类,较全面的支持了不同维度层次的图片语义信息提取。优图的技术在图片识别领域位于世界前列,在 2015 年 4 月 Pascal VOC2012 物体分类比赛中刷新了世界纪录。目前已经应用于微云、手机相册管家等产品中。

5.优图鉴黄——智能鉴黄师

优图研发的智能鉴黄引擎,可有效主动的识别出色情图片。目标图片经过系统识别之后,会给出其属于色情图片的概率,对于高置信度图片可直接打击,对于次高置信度图片可按优先级交付人工审核确认。启动该项目后,优图侧经过三个月的快速研发,即做到了业界最好水平,客户评测后表明优图鉴黄准确率远高于竞品。