国内互联网公司已经是进入如火如荼的入口争夺和资源部署阶段,但是基因行业这个小众市场还是一个神秘的领域。先不论这个领域有着太多高学历人才和高技术含量的科技成果,仅仅是众多基因行业的业务受到国家政策管制和干预的风险,就让许多互联网公司望而却步。互联网公司看上基因行业并不是因为这个小众市场,而是看到了背后生物数据的可挖掘价值,但是什么时候能够进入基因行业,从哪里开始进入,这还是一个未知数。笔者从四个方面来谈谈互联网拥抱基因行业的可能。通过云端技术部署基因行业云端技术已经成为互联网公司的专宠。巨头们通过解决三个问题,逐步地将基因数据资源归入囊中。云端解决的第一个问题:数据存储。最早通过云端技术部署基因行业的互联网巨头,是谷歌和亚马逊。以谷歌为例,早在2013年3月,谷歌已经邀请了基因组学领域的科学家将DNA数据转移到谷歌的服务器上。谷歌将其服务器称为Google Genomics。谷歌通过自身占有的数据库搜索技术优势,将人类的基因数据进行备份和建立索引,同时开发了一系列的应用程序接口API。亚马逊的AWS云服务和基因行业的合作可以一直追溯到NCBI提供的全球范围的基因信息比对搜索引擎。2012年,亚马逊的云服务已经接管了国际千人基因组计划的基因数据存储,当时这是世界上最大的人类遗传学数据库,并且数据是公开和免费的。
国内互联网公司必须要通过免费占据基因信息入口谷歌和亚马逊针对DNA存储云端化服务在市场上交锋已经一年了,双方直接进行价格战的结果是,谷歌提供每个基因组的年存储费用只需要25美金。目前每个人的基因组原始数据在100G左右,谷歌提供压缩数据服务以后这个数据能压缩到1G以内,也是说每年一个人的基因组数据云存储只需要0.25美金!笔者认为,国内互联网公司必须要通过免费占据基因信息入口。数据的价值在于挖掘和互动,如果这些价值超过了数据本身的产出和存储价值,免费是大势所趋。云端解决的第二个问题:数据运算。云存储的解决会衍生出一批生物信息创业公司。为什么呢?道理很简单,云端技术门槛太高了,老百姓不能直接使用。看看我们手机里面安装的都是APP而不是云端服务器API软件就知道了。这里会衍生出一个很复杂的云计算产业,笔者不会展开这么复杂的结构图来讲解,那样我们就跑题了。云服务提供商将服务器集中起来,不仅提供云端的存储,而且还提供云端的运算和资源的管理等服务。有了这个良好低价的生态环境,众多的互联网公司诞生了。在基因行业,催生了Tute Genomics, DNANexus, OneCodex, Seven Bridges Genomics和NextCode Health等生物信息公司。这些公司里面有使用谷歌的云存储和云计算服务的,也有基于亚马逊的AWS云端服务搭建的生物信息大数据平台。
云存储的解决会衍生出一批生物信息创业公司2013年11月,谷歌投资的23andMe公司遭遇美国FDA的封杀,2014年1月4日,谷歌领头对DNANexus公司进行1500万美金的C轮投资,DNANexus是一家DNA数据管理和分析在线工具提供商。谷歌这些互联网巨头对数据应用端的企业进行投资,其目的在于打造一个对于自身有利的闭环生态环境。云端解决的第三个问题:数据安全。云端解决的数据安全归根结底集中在两个方面:一个是数据传输的安全性,另一个是检索的安全性。这里有一个很有趣的商机。我们知道互联网巨头已经把数据应用开发放权给小公司来形成生态环境了,到了数据安全这一环,如何把权力回收呢?答案还是进行放权。谷歌推行的做法是:制定规则。