网盘或能存储基因数据,但你要先学会加密!

如何在保证基因数据和医疗记录安全的同时,运用云端强大的计算能力分析找出基因和疾病之间有意义的关联?

未来医学的梦想是理解DNA和疾病之间的联系,并以此为基础为患者制定个性化的治疗方案。但是,科学家意识到这样的「个性化」或「精准」医学有一个难题:如何在保证基因数据和医疗记录安全的同时,能够运用云端强大的计算能力分析找出基因和疾病之间有意义的关联。

目前,一项新兴的数据加密技术也许可以解决这一难题。

加州大学圣地亚哥分校(以下简称UCSD)正在探讨如何结合加密技术进行基因数据分析,他们在较小的数据集中应用一个被称作「同态加密(homomorphic encryption)」的方法,10分钟内就能找到与疾病相关的基因变异。尽管在实际工作中,计算机从由成百上千DNA片段组成的全基因组数据集里找出与疾病相关的基因变异要花费数小时时间,但是,密码技术专家还是值得鼓励。

同态加密是一种加密形式,它允许人们对密文进行特定的代数运算得到仍然是加密的结果,将其解密所得到的结果与对明文进行同样的运算结果一样。换言之,这项技术令人们可以在加密的数据中进行诸如检索、比较等操作,得出正确的结果,而在整个处理过程中无需对数据进行解密。其意义在于,真正从根本上解决将数据及其操作委托给第三方时的保密问题,例如对于各种云计算的应用。

这一直是密码学领域的一个重要课题,以往人们只找到一些部分实现这种操作的方法。而2009年9月克雷格·金特里(Craig Gentry)的论文从数学上提出了「全同态加密」的可行方法,即可以在不解密的条件下对加密数据进行任何可以在明文上进行的运算,使这项技术取得了决定性的突破。人们正在此基础上研究更完善的实用技术,这对信息技术产业具有重大价值。

——摘自维基百科

UCSD的一名计算机科学家Xiaoqian Jiang说道,「这是一个可预见的结果,但挑战依然存在」。

医生和研究人员认为,理解基因和疾病之间的关系需要从数以百万计人群中收集数据,包括基因方面和生理方面的数据。有些规划项目已经启动,比如,美国总统奥巴马发起的精准医学项目以及英国的十万基因组项目。如此庞杂的任务可能需要利用互联网云端主机的处理能力,但是,过去几年里网络安全漏洞暴露了在云端存储大量敏感数据的巨大隐患。美国国家卫生研究院的基因型与表型数据库(dbGaP)有一个有关医疗和基因数据的目录,它的管理人员非常担心安全问题,他们禁止数据库的用户在可联网的电脑上储存数据。

同态加密可以解决这种担忧,从而让研究者用数学加密的方式把资料储存在云端。该技术会把本地电脑上的数据进行加密,然后再把加密后的数据上传到云端。加密数据的计算也可以在云端进行,计算的结果加密后再传会本地的计算机。即便有人在此过程中窃取了加密的数据,但这些加密数据里包含的隐藏内容仍然是安全的。

UCSD的计算机科学家Lucila Ohno-Machado认为:「如果能确保这项技术由作用,那么对于解决保护个人隐私的前提下进行海量数据的运算和存储的难题至关重要,这简直可以提升我们的信心。」

1978年,同态数据加密技术被首次提出,不同于其他方式,这一技术可以在云端处理加密的数据,从本质上说,云永远不会真正「看到」数据处理。另一个不同点则是,该技术还能给出未加密状态下的相同数据处理结果。

直到2009年,IBM沃森研究中心的密码学家Craig Gentry论证了对同态加密数据可以进行任何形式的运算可能性。此时,这一理念还很大程度上停留在理论层面。该方法通过将每个数据点转换为一块加密的信息或密文,但加密后的数据量比原始数据更大也更复杂。每个未加密的字节被加密成几兆字节的数据,相当于一张数码照片的大小。

固然这是一个突破,但加密前后如此大的容量差异也让这项技术无法真正应用起来,要知道数据存储的硬件成本是很高的。

从那时起,密码学家们开发出了各种系统来解决这些问题。比如同时加密许多数据片段,这样就可以对数据进行并行处理;也有人提出把数据直接加密成单一的密文,而不是首先转换成字节,这种创新比对每一个数据片段单独运算要节约大量计算时间和计算内存。IBM研究中心的密码学家Shai Halevi说道,与2009年相比现在同态加密数据的运算速度提高了150,000倍。一个更直接的数据对比则是:相同的运算量,2012年要花费一天半而现在只要5分钟。

2015年3月中旬,致力于数据集成分析的iDASH协会组织举办了一个主题为隐私和安全的学术会议,五个团队透露利用同态加密技术可以在10分钟内检测400人的数据,并且可以从染色体上已知的可能产生变异的311个位点中找出与疾病相关的变异基因。现在分析一个含有5000个DNA碱基对的典型基因片段需要花费30分钟;但对于较大的序列数据,比如100000个碱基对(其含量大约相当于整个基因组数据的0.003%),却要花费几个小时,而且要比分析未加密数据多消耗100倍的内存。密码学家表示这一结果仍显示了技术的重大进展;Jiang评论道「三年前,人们认为这是不可能的,但我们对困难的挑战表明解决这一难题并非不可能。」

但是某些数据管理员对此仍持怀疑态度。Steven Sherry负责管理dbGap,他同时也是美国国家生物技术信息中心的主管。他说,即使密码系统能起到作用,也未必会保护研究人员的电脑,也不能增加数据分析的灵活性。他倾向于把数据访问权限局限在一个由科学家组成的小圈子里,这些科学家要保证使用数据时遵守相应的制度。他接着说:「我们并没有关注加密方法,因为它没有证明同时具备安全和实用性。」

但是一些密码学家已经开始在生物医学领域部署使用有限的同态加密技术。一个HIV研究中心以及瑞士一家医院的生物样本库采用了类似的方案。瑞士联邦理工学院的Jean-Pierre Hubaux进一步指出:「人们现在很担心不久以后,因为基因数据泄漏而产生的各种丑闻事件。」

而这也恰巧是未来技术发展的方向。

本文选自Nature,机器之心编译出品,参与成员:补、Rita