机器学习领域创业,你还有哪些机会?

机器学习已经渗入进几乎所有的数据驱动型商业领域,不过,大公司还未完全占领下面这些领域。

机器学习与人工智能在数据驱动型商业项目中发展迅猛,几乎遍布每个角落。这里我选了几个可能还未被大公司吞食的领域。

「锄头和铲子」 戏码

即在那次加利福尼亚州淘金热中,镐锹承包商大赚了一笔(然而探矿者的贡献被忽略了)。机器智能的镐与锹就是硬件、数据输入端及(有争议的)算法本身。

1.很明显,机器智能算法的开发大多数都是开源的。当然也有例外——去年,哈佛大学申请了一项有效替代 BackProp 算法的专利,即 Feedback Alignment Algorithm ——我想知道,他们打算如何使之商业化?帮助人们方便利用学习算法的高质量 SaaS 产品,会找到有这方面需要的用户,而且 MetaMind,正将深度学习技术带入数据集,它们就是这样一家公司。另一个我喜欢的项目叫做自动统计专家(The Automatic Statistician),它利用贝叶斯推理(Bayesian inference)找出数据拟合的最佳模型。Curious AI,是一家通用人工智能(General AI)公司,它们的第一个商业项目就是垃圾分类(中规中矩的盈利模式范本),据报道,公司旨在以工具包的形式出售人工智能软件。

2.大公司可以接触到庞大数据库,还能获取更多的数据。不过,到目前为止,大公司的关注点都集中在一些唾手可得的成果上,比如社交或商业数据,因此,创业公司仍有机会在某些领域大展拳脚:难以获得数据以及(或者)难以标签化数据的地方。Affectiva 的脸部表情回应数据库就是这个类型,还有 Pallas Ludens(端到端数据注释服务),以及 opensensors.io(为传感器数据公共资源附加价值)。基因和医学图像数据——受制于某些棘手的隐私问题——会让个性化治疗、护理以及更好的诊断成为可能。这方面,看 Genomics England 公司是个好例子。

3. 硬件前沿,GPUs 已经让一些巨大进展成为可能。(一张NVIDIA GeForce GTX Titan就能让我检测蝙蝠的音频信号)

蝙蝠信号的声谱图(下图)及ConVnet预测(上图)。

但是,这些只是图像处理器。高效学习以及推理的 下一个拐点,会来自为机器学习特别设计处理器这一领域。Graphcore 称之为智能处理器单元(Intelligent Processor Units)。同时,Nervana Systems, Teradeep(Yann LeCun 担当顾问)以及 Thinci 正在打造他们自己的定制硬件。将一些对教育有帮助的公司(Udacity, Coursera, Kaggle 等),或管理代码库和项目的公司(比如 Atlassian,上市准备中)包括进来,也是很有意义的。

情感开发

众多初创公司在这个领域的表现都差强人意。正如 MIT 的情感计算小组(Affective Computing group)所言:

情感对于人类体验来说至关重要,它影响认知、观念、以及学习、交流、甚至理性决策等日常活动。然而,技术人员却大大忽略了情感的作用并为用户创造出一种经常让人感觉挫败的体验...

用来训练一个微表情探测器的图片

第一个任务是训练识别人类情感的模型。Emotient,RealEyes 及 Affectiva,都使用了脸部表情来推理情感,目前(看起来)很大程度上是一种营销手段。Cogito Corp 及 Beyond Verbal 关注的是从语音中解读情感线索,进而展开市场调研,提供更好的用户体验。

接着是模仿情感行为,比如,为了和人类自然互动。那个「友善」的机器人 Jibo,就是只用一只「眼睛」表达情感的绝佳的例子。尽管未能找到其他例子,不过,一定会出现比较便宜的、具有自适性和回应性的机器人玩具(比如Paro,治愈系海豹机器人,不过仅供娱乐)。这些机器人的优势在于,避免了对话性机器人玩具隐私方面的担忧,比如像 Toy Talk  及 Mattel 的 Hello BarbieTM,至少在声音的本地化而非云端处理后。

另一些应用包括个性化保健与教育、冲突解决方案、协商训练,以及自适应游戏。这些领域看起来很适合运用机器学习,因为情感体验是主观和多变的。

行业渗透

机器智能是否会让人类劳动力显得多余,对此,我持观望态度,不过我会指出,它当然会有望帮助人类完成许多专业任务(而且在这一过程中,能为消费者在金钱方面提供更好的选择和价值)。

这些技术能做什么?拿法律行业为例,Ravn Systems 实现了法律工作中(重复而单调的)文件审查自动化;Bitproof’s Peter 是一个人工智能法律助手,能请求签名,生成合同以及证明文件;Premonition.ai 使用数据来搜索司法审判中的无意识偏见。

在招聘,保险,财务管理等领域,类似工具能让专业人士将更多的时间花在工作上更加让人满意的方面,诸如锻炼判断力,进行决策以及娱乐客户。

医疗改革

药物发现总是昂贵而有风险的,需要相当的智慧。但是,加入你能用数据减少风险,找到更好的药物研发目标,会怎样?这是 Stratified Medical 的假设,运用深度学习进行药物发现。

另外,Enlitic 和 Zebra Medical 寻求运用深度学习来开发精确的诊断/决策支持工具,而 Your.MD 已经与英国国家卫生服务组织合作,开发提供个性化健康援助的 app。

搜索优化

「什么电影来着,有个我妹妹喜欢的德国演员...和外星人有关...很朋克的那部?」

搜索软件需要处理不准确、主观和个人的信息,就像人类做的那样。它需要帮助我们从一堆庞杂信息中,发现与之相关的内容。这一过程包括学习文本和内容特征。事实上,这需要一篇博文的篇幅来讲清楚,不过,这里有些例子:

Clarify 通过API使得音频和视频变得可检索。它就是扫描文本,找关键词来确定相关性,一个很赞的省时应用。

Lumi 根据浏览历史来推测你的品味,提供相关流行内容。

Youssarian Lives 是一个能够进行侧面连接的搜索引擎。

EyeEm 已经将机器学习用于图片市场,这样,无需便签就能进行搜索特征,比如「愉快的」和「多雨伦敦」,而 Cortexica 及 Sentient Technologies / Shoes.com 也以类似的方式重新定义产品搜索。

搜索相关性的一个必要方面,当然是「值得信任(trustworthiness)」,这样,社交媒体及新闻网站的内容和主张的就能进行验证或根据真实性评分。有人在做这个吗?

网络安全

网络安全领域的机器学习已经吸引了大批风险资本(例如,Lookout 的 2.82 亿注资, Vectra Networks 获得了 7800 万,Darktrace 的 4000 万,以及 Cybereason 的 8900 万),但是,一系列坏消息(比如最近 TalkTalk 用户数据被黑)表明市场仍有相当大的缺口。

虽然就像任一片红海一样,但是,还是难以区分许多拥有表明相似产品的初创公司。在这方面我无疑有着更多的工作,也会密切留意网络安全初创公司方面的加速器 Cyber London。

有太多应用领域了,很难去仅仅关注一两个。

对新数据集的研发和应用的步伐正使得机器智能成为一个如此令人兴奋的领域。尤其是,此刻的伦敦蕴藏着真正意义上的动力,靠近世界级学术机构的东道主(伦敦帝国学院,英国伦敦大学,哈佛和剑桥),拥有一个已经建立起来的创业生态系统(例如,Entrepreneur First加速器积极拥抱机器学习型人才),还有成为目标客户中心——金融,法律及政治——的地理位置。

本文选自:kdnuggets,作者:Libby Kinsey,机器之心编译;

©机器之心,最专业的前沿科技媒体和产业服务平台,每日提供优质产业资讯与深度思考,欢迎关注微信公众号「机器之心」(almosthuman2014),或登录机器之心网站www.almosthuman.cn查看更多精彩内容。