盘点8个最具启发意义的深度学习应用

本文囊括了 8 个最具启发意义的深度学习应用,包括为黑白图像上色,自动手写体生成,自动生成字幕,还有自动玩游戏等等

说深度学习已经达到了先进水平显然是很夸张的,因为我们还有很多问题没有解决。但是在人工智能、机器学习和深度学习方面,有很多事情还是非常令人激动的。在这篇文章里你将看到那些在深度学习领域最具有启发意义的应用。

开始学习深度学习并不意味着花 2-3 年的时间研究方程,而是先让你的程序运行个 5 分钟——应用深度学习、构建程序,然后很兴奋地去研究代码和系统。

深层学习的启发性应用,图片:Nick Kenrick 

概述

以下是这篇文字将要提到的应用的概述。

并不是所有的案例都是现在最好的深度学习应用,但是我保证,每一个都会让你感到兴奋。

如果你不太了解深度学习的话,有些案例可能会让你觉得无聊。但其实它们一点都不无聊……

诚然,对于像我这样的资深人工智能爱好者来说,有些案例简直就是啪啪打脸。因为有些问题是我一直都认为在短时间内没法解决的。

以下是 8 个应用的具体内容:

1.黑白图像的自动着色

所谓图像着色就是为黑白照片上色。传统的方法是通过人工手动上色,因为图像太复杂了。深度学习可以使用照片中对象和它的周边对象的特征来对照片上色,这种方式很类似于人类的处理方式。深度学习的这种给黑白图片上色的能力结合了大规模卷积神经网络和监督图层。

深度学习对黑白照片的上色

另外,这种方法还可以被用来给黑白电影上色。

论文(原文链接附下载): 

Deep Colorization, 2015

Colorful Image Colorization, 2016

Learning Representations for AutomaticColorization, 2016

Image Colorization with DeepConvolutional Neural Networks, 2016

2. 给无声电影配音

在这项应用中,系统需要为无声电影合成配音。这个系统曾被用 1000 种声音训练过,一个深度学习模型将电影画面和预先录制好的声音数据库结合起来以达到电影场景中配有最适合的声音。这个系统通过图灵测试,因为人类无法分别电影中的声音是认为配置的还是机器合成的。这是卷积神经网络和 LSTM 递归神经网络的一个很酷的而应用。

论文:

Visually Indicated Sounds, 2015

3.自动机器翻译

在这个案例里,系统需要将给定的词语、短语和句子自动翻译成另外一种语言。自动机器翻译已经出现很久了,但深度学习在以下两个方面达到了很好水平:

自动翻译文字

自动翻译图片中的文字

文字翻译不需要任何对文本顺序的预加工,它能让算法学习词语被翻译之后的改变规则。多层大型 LSTM 递归神经网络被应用到这种类型的翻译中。你可能已经猜到了,卷积神经网络被用来确定图像中的字母及其位置。一旦确定了这两点,系统就会进行翻译,让图片中包含的文章被翻译成另外一种语言。这通常被叫做即时视觉翻译。

即时视觉翻译,来自Google Blog

论文:

Sequence to Sequence Learning with NeuralNetworks, 2014

Learning Phrase Representations using RNNEncoder-Decoder for Statistical Machine Translation, 2014

Deep Neural Networks in MachineTranslation: An Overview, 2015

4.照片中对象/物体的分类和检测

这项任务要求,在一张照片中的对象分类作为一组先前已知的对象之一。

使用非常大的卷积神经网络已经实现了这一问题的基准例子的最好结果。Alex krizhevsky等人在这一问题上做出了突破,在 ImageNet 分类问题上有了成果,叫 AleNnet。

对象分类的例子,来源于 ImageNet Classification with Deep Convolutional Neural Networks

这个任务的一个更复杂的变体被称为称为对象检测,包括专门确定照片场景内的一个或多个对象,并在他们周围画一个框。

照片对象检测的例子,图片来自 Google Blog

论文: 

ImageNet Classification with DeepConvolutional Neural Networks, 2012

Some Improvements on Deep ConvolutionalNeural Network Based Image Classification, 2013

Scalable Object Detection using DeepNeural Networks, 2013

Deep Neural Networks for Object Detection,2013

5. 自动手写体生成

这个任务给出了一个语料库的手写例子,为一个给定的单词或短语生成新的手写体。

在创建手写样本时,会提供样本手写体作为供笔使用的坐标序列。从这个语料库中学习笔的运动和字母之间的关系,生成一个特别指定的新例子

有趣的是学习到的是不同类型的例子,而且还能模仿这些例子。我希望看到这项工作结合一些法医手写分析专业知识。

自动手写生成的样本

论文:

Generating Sequences With RecurrentNeural Networks, 2013

6.自动生成文本

这个有趣的任务中,要学习一个文本语料库,并从这个模型中一字一字或一词一词地生成新文本,

该模型能够学习如何拼写、标点,形成句子甚至捕获在语料库中文本的风格。

大型递归神经网络被用于学习输入字符串序列中的项之间的关系,然后生成文本。最近的 LSTM 递归神经网络使用基于特征的模型生成一个字符,在该问题上展示了巨大的成功。

Andrej karpathy 在他的博客中提供了许多例子,包括:

Paul Graham essays

Shakespeare

Wikipedia articles (including the markup)

Algebraic Geometry (with LaTeX markup)

Linux Source Code

Baby Names

自动生成莎士比亚作品文本的例子,来源于 Andrej Karpathy blog post

论文

Generating Text with Recurrent NeuralNetworks, 2011

Generating Sequences With RecurrentNeural Networks, 2013

7.自动图像字幕生成

在自动生成图像字幕任务中,给定一个图像,系统必须生成一个描述图像内容的标题。

2014年,深度学习算法大爆炸,在解决这个问题上有了令人印象非常深刻的结果,就是利用从顶部模型的照片中的对象分类和目标检测完成了这项工作。

一旦你可以在照片中检测到的对象,并为这些对象生成标签,你可以看到下一步是把这些标签变成一个连贯的句子描述。

这个结果一直震惊我到现在。确实非常令人印象深刻。

一般来说,该系统涉及到使用非常大的卷积神经网络检测照片中的对象,然后一个像 LSTM 那样的递归神经网络会把标签变成一个连贯的句子。

自动图像字幕生成,来自于 Andrej Karpathy, 李飞飞

这些技术也被扩展到视频自动字幕。

论文:

Deep Visual-Semantic Alignments forGenerating Image Descriptions, 2015

Explain Images with Multimodal RecurrentNeural Networks ,2014

Long-term Recurrent ConvolutionalNetworks for Visual Recognition and Description, 2014

Unifying Visual-Semantic Embeddings withMultimodal Neural Language Models, 2014

Sequence to Sequence — Video to Text,2015

8.自动玩游戏

在这个任务中,一个模型学习如何仅基于屏幕上的像素玩一个电脑游戏

这是深度强化模型领域中的一个非常难的例子,也是 DeepMind (现在已经属于谷歌)实现的一个非常有名的突破

这项工作在谷歌 DeepMind 的 AlphaGo 中得到扩展并达到顶端,AlphaGo 在游戏 Go 中击败了世界象棋大师。

论文

Playing Atari with Deep ReinforcementLearning, 2013

Human-level control through deepreinforcement learning, 2015

Mastering the game of Go with deep neuralnetworks and tree search, 2016

补充案例

下面列出的是上面的一些补充例子。

自动语音识别

Deep Neural Networks for Acoustic Modeling in Speech Recognition 2012  

自动语音理解

Towards End-to-End Speech Recognition with Recurrent Neural Networks, 2014

自动聚焦图像中的对象

Recurrent Models of Visual Attention, 2014

自动回答关于照片中的对象的问题

Exploring Models and Data for Image Question Answering, 2015

从粗糙的草图自动创建程式化的图像

Neural Doodle

从草图自动创建风格的图像,来源于神经涂鸦

总结

在本文中,你已经发现了8个旨在激励你的深度应用。

这里只是给出了资源而不是告诉你方法,目的是希望打破夸张的说法,给你一个关于当前和未来深度学习技术能力的清晰思路。

本文选自:Machine Learning Mastery,作者:Jason Brownlee,机器之心编译;

©机器之心,最专业的前沿科技媒体和产业服务平台,每日提供优质产业资讯与深度思考,欢迎关注微信公众号「机器之心」(almosthuman2014),或登录机器之心网站www.almosthuman.cn查看更多精彩内容。