政策资讯

Policy Information


数据体量激增、商业探索初显,基因检测步入智能化时代?

来源: 重庆市软件正版化服务中心    |    时间: 2022-09-20    |    浏览量: 66792    |   

文|动脉网

2017年,伴随Illumina旗下NovaSeq系列基因测序仪上市,全基因组测序成本被进一步拉低到不足1000美元。一时间,全球基因数据体量和解析需求激增。彼时,动脉网曾预测,作为基因科技行业爆发的第二曲线,如何更快速、准确地进行基因数据分析和解读,将会成为关键命题。

如今,互联网和科技巨头入局推动信息技术(IT)与生物技术(BT)相融合,似乎正在印证当时的推测。在生物信息学家眼里,人体就是一个程序,是由基因组这个程序 控制的化学反应与物理变化。测序样本数据在实验室中产生,而后与信息系统中沉淀的数据相比对,从而发现突变点位,并以此为基础解读出终端可用的结果。当基因测序数据量仍处于爬坡阶段,IT的角色是针对特定问题的各种专业分析工具。而眼下的数据规模渐已超出分析工具的承受极限,云计算、超高性能芯片加速、人工智能算法开始定义“IT+BT”的底层逻辑。

从科研服务到临床应用,从肿瘤诊疗到感染病防治,基因科技的商业化场景层出不穷,明星产品和公司总在轮换。到底什么才是构筑基因公司之根本的核心竞争力?我们为何此时重提基因数据话题?多年前设想以信息技术迭代基因科技的图景是否显现?本报告将试图揭晓答案。

在报告中,我们通过行业及产品梳理、专家访谈,总结出关于基因检测智能化的以下核心观点,以飨读者。

核心观点

1、国内外基因测序上游竞争格局板块移动明显,将撬动中游服务商深度洗牌;

2、认知红利趋尽,基因检测服务商转而重视修炼内功,数据能力建设是核心;

3、新药、科研与临床基因大数据分析需求井喷,临床数据挖掘潜力巨大;

4、区域与企业平台建设加速,标准与规范够艰难,基因数据库涉深水区;

5、上游测序与下游应用均趋成熟,数据库依然掣肘基因科技步入智能化;

6、头部企业基因智能化产品与服务频出,但研发与应用整体仍处于起步阶段。

基因检测智能化现状与机遇

基因检测是指对人类的DNA、RNA、蛋白质及代谢物进行分析,以诊断、预测或预防遗传性疾病的发生,指导疾病治疗方案的选择(药物种类及剂量的选择),或预测疾病的复发,也可以作为评估个人体质或特质的依据。目前,用于进行基因检测的技术主要分为PCR技术、基因测序技术、FISH技术和基因芯片技术四种。基于基因大数据的应用,测序技术成为最为主流的基因检测技术。

以二代基因测序(NGS)技术为例,基因测序的流程包括样本采集、数据生产、数据分析、数据解读与转化应用等环节。如今NGS技术依然依靠人工操作,无法避免人工对于数据生产质量的影响以及人工带来的数据生产成本和时间限制;需处理的基因数据规模庞大,最大可达到PB或EB级别,以及数据分析采用的生物信息分析算法十分复杂使得数据分析环节繁琐,效率低,耗时长。

政策法规:新医改与生命健康新基建推动基因检测行业跑步进入智能化行业

2017年,《国务院关于印发新一代人工智能发展规划的通知》中提到基于人工智能开展大规模基因组识别、蛋白组学、代谢组学等研究和新药研发,推进医药监管智能化。因此,基因测序的智能化生产体系是必然趋势,有助于基因数据生产的流程规范化、数据的全程质控以及测序成本和时间的控制。

基因检测行业的发展目前仍由技术驱动,但是相关政策环境也为基因检测智能化的发展提供充足的养料。

生命健康新基建。2020年4月的国务院常务会议中将新型基础设施(简称“新基建”)定义为以新发展理念为引领,以技术创新为驱动,以信息网络为基础,面向高质量发展需要,提供数字转型、智能升级、融合创新等服务的基础设施体系。

2020年4月,国务院应对新型冠状病毒肺炎疫情防联控机制发布《关于进一步做好疫情期间新冠病毒检测有关工作的通知》:明确三级综合医院均应当建立符合生物安全二级及以上标准的临床检验实验室,独立开展新型冠状病毒检测;对医疗资源相对缺乏、检测能力相对薄弱的地区,选择1家综合实力强的县级医疗机构予以重点支持,实现县域内医疗机构具备核酸检测能力。

近年来,我国将基因检测作为国家重点领域,加大了支持力度,先后推出了多项政策、制度进行扶持,为行业的发展创造了良好的政策环境,同时也逐步收紧了对基因检测的监管。

2021年3月,《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》正式发布,明确“基因与生物技术”作为七大科技前沿领域攻关领域之一;“生物技术”作为九大战略性新兴产业之一,其中“基因技术”为未来产业。

2016年,我国过先后发布了多条与之相关的关键性国家政策,基因检测经历了从产业发展倒逼政策改革,到以政策引导产业发展的阶段。2016年4月15日,国家发改委颁布了《国家发展改革委办公厅关于第一批基因检测技术应用示范中心建设方案的复函》,正式批复建设全国27个基因检测技术应用示范中心,鼓励加快基因检测产业的快速发展。

2017年,我国启动十万人基因组计划,十三五规划将发展基因技术作为生物医药产业创新的核心任务,由此,以基因技术为核心的生物产业获得快速发展,并带动基因测序行业迈入爆发期。

2019年,《健康中国行动(2019-2030年)》明确提出“加快推动从以治病为中心”转变为“以人民健康为中心”,提出预防是最经济、最有效的健康策略,而基因检测是最有效的预防手段,随着“健康中国2030”上升为国家战略。

市场规模:精准医疗需求之井喷态势与基因检测成本之超摩尔定律下降

基因检测市场空间随着2015年二代测序技术的上市迅速打开。二代测序技术凭借通量大、准确度高、价格低廉的优势成为当前主流的基因检测技术,引领行业迅速发展。医疗的未来无疑是精准医疗,国家鼓励和支持发展以基因测序为基础的精准医疗。科技部在2015年3月首次召开的“国家精准医疗战略专家会议”中提出2030年前政府拟投入600亿元发展精准医疗。根据预测,全球基因检测市场规模将从2019年的122亿美元增长至2024年的280亿美元,年复合增长率高达18.08%;国内基因检测市场将从 2019 年的106.54亿元增长至2026年的281.34亿元,未来市场空间十分可观。

基因测序技术的进步带动了基因测序成本大幅下降,远超摩尔定律。根据 National Human Genome Research Insititute 公布的数据,2001年平均每兆碱基的测序成本是5292.4美元,单人类基因组测序成本是9526.3万美元。2006年美国第二代基因测序企业454 Life Science 推出超高通量基因组测序系统,二代测序技术的产生使得平均每兆碱基的测序成本下降至581.9美元,单人类基因组测序成本下降至1047.5万美元。随着新技术和新测序设备的推出,此后基因测序成本以超“摩尔定律”的速度不断下降,至2020年平均每兆碱基的测序成本低至0.01美元,单人类基因组测序成本低至689美元。

成长阶段:疾病关系、算法验证相对复杂,基因检测智能化尚处于早期

数字化大潮下,智能化为基因检测技术赋能,通过将数据分析流程所需的设备、生物信息分析软件、数据库与人工智能技术结合在一起,实现自动化数据分析和智能决策系统,促进基因检测行业高质量发展,然而数据分析算法、基因组与疾病之间的关系的复杂性使基因检测智能化处于早期发展阶段。

然而,知易行难,基因检测智能化仍然面临许多技术壁垒。

大数据库。如今基因检测技术发展得十分成熟,很多企业都能生产基因数据,然而基因数据的解读却非常困难,因为基因与疾病的关系复杂,并且依赖于用来解释不确定遗传检测结果的大数据库,以此才能将基因数据转化成临床决策。

数据分析算法。随着基因组数据的迅速增加和所需要分析解读的突变类型日益复杂,表型和医疗数据也不断丰富,对数据分析算法提出了更高的要求。

业务模块复杂。基因检测智能化能力的构建是围绕数据生产、传输、分析、应用的全生命周期流程进行,业务模块的复杂和对数据安全更敏感等原因,使得基因检测技术难以完美地与数字技术结合在一起,未来基因检测智能化还有很长的道路要走。

虽然基因检测智能化还处于早期阶段,但发展迅猛,国内已有产品上市,例如华大基因的生信分析一体机HALOS和诺禾致源的一站式解决方案Falcon柔性智能生产系统等。

资本热度:计算机、互联网、基因测序平台巨头纷纷入局撬动行业变革

截至报告发布,2021年,中国基因检测行业共发生了106起融资交易事件,披露融资交易总额达213亿元,相比2020年增加10%(2020年约193亿元)。2021年融资交易事件较2020年增加32起,但融资额相差不多的主要原因是缺少类似华大智造在2020年4月完成超10亿美元的超大融资事件。

从2015年到2021年的融资额和融资事件来看,2020年是基因检测行业融资交易事件的高峰期,年增长率高达153%,而2021年延续了基因检测的融资热潮,资本持续关注。

目前,我国基因检测行业的融资集中在测序仪及试剂耗材生产企业上,而国外同时期的投资方向主要集中在基因数据分析领域,且多数企业已进入后期阶段。另外,国外的产业结构和资本市场比国内成熟,独角兽企业(包括未上市和上市企业)覆盖基因行业上、中、下游,主要业务涉及仪器及试剂研发、科研和临床基因检测服务以及数据分析等。由于测序技术壁垒高,国内仅有几家公司能够自主研发基因测序仪等设备,多数企业集中于数据分析、试剂耗材生产和中游的检测服务。而我国2021年获得融资的企业大多处于B轮及以前的阶段,表明国内基因数据生产及分析还处于早期产品化阶段。

基因大数据拥有广阔的应用场景和市场,是医疗健康领域能最快大规模转化应用的行业。而PB级别的基因大数据的分析与运用离不开云计算、人工智能、大数据、5G、区块链等数字技术。IT企业擅长的数字技术的数据规模大、强大算力和算法以及安全可靠赋能基因行业,为传统基因检测行业带来生产力的变革。

市场角色:5大角色构筑生态,初代产品已进入市场推动检测效率提升

基因检测行业一般由生命数字化信息的采集、数据生产、分析、解读与转化应用等5大环节构成,基于大数据实现大规模人群的精准医疗和全生命周期管理。

基因检测行业价值链

数据分析是运用生物信息分析对下机数据进行处理和分析,涉及数据存储、计算、管理等基础设施以及分析所需的软件、算法以及新的数字技术。

布局数据分析的企业主要围绕生物信息软件开发、基因大数据平台解决方案、基因大数据增值服务3种业务展开。软件方面国内多数为非小细胞肺癌突变基因软件,获批的企业有华大生物、吉因加、燃石以及世和医疗。

数据解读是将基因检测结果与临床表型相结合,挖掘基因与疾病的关系,从而进行基础研究和指导临床决策。在科研服务上,诺禾致源采用多组学联合分析方法揭示疾病机理并提出潜在治疗方法。临床上,智因东方开创了“生物+遗传+临床”三要素分析原则的临床分析算法,提高了临床诊断效率。

基因检测目前在医疗健康领域中广泛运用于科研级、临床级和消费级场景。

科研领域的基因检测业务主要面向科研机构,包括基因组测序、转录组学测序、表观组学测序、宏基因组学系列测序、单细胞测序等。国内基因检测科研市场相对饱和,提供基础科研基因检测服务的企业主要有诺禾致源、华大基因、贝瑞基因、求臻医学、安诺优达等。临床级应用主要是临床基因诊断,包括出生缺陷防控、肿瘤诊断、传染病诊断等领域。

基因检测智能化产业链与应用

基因行业正在进入大数据时代。

人类基因组中蕴藏海量数据。DNA(脱氧核糖核酸)是一种双链聚合物,由4种携带不同碱基的脱氧核糖核苷酸(A、T、C、G)排列组合形成。碱基或脱氧核糖核苷酸数量是衡量DNA长度的标准,由1000个脱氧核糖核苷酸组成的DNA长度为1Kb,完整的人类基因组包含约32亿对碱基,长度为3Gb左右。同时,基因的相互差异形式十分多样,例如单核苷酸突变、基因片段重复和缺失、染色体变异、甲基化等不改变DNA序列的表观遗传学变异,从而基因信息数量庞大、结构复杂。

随着基因产业持续发展,基因测序数量逐渐增多,这些海量数据及其治理需求逐渐浮出水面。由此,基因技术与人工智能的融合,从作为基因检测辅助环节的生物信息分析中脱颖而出,成为蓬勃发展的行业。

在基因科技智能化产业的最上游,仍然通过专门的设备和试剂获取下机测序数据,这项工作在当前已经发展得比较成熟,也已经形成了测序仪和配套试剂相对成熟的供给侧结构。从测序仪的型号看,Illumina的HiSeq是目前市场上最主流的测序仪。

不过,受制于有限的生物信息技术水平,对海量的测序数据的正确解读其实是基因检测中亟待解决的难题。越来越多企业开始布局上游测序平台。例如,Pac Bio所展开的对端读长测序技术的收购、菲鹏生物收购高通量测序平台等。

基因数据原始状态是以ATCG为标识的碱基序列。从基因测序仪运行下来提取的原始数据类似计算机二进制数字序列,不能直接提供关于疾病的信息,最终转化为人们可理解的生物学数据,为疾病诊断和治疗提供指导。还需要借助专业知识分析。

当前,基因表达调控网络、信号传导网络、蛋白-蛋白相互作用网络以及代谢网络的出现与发展更使生物信息学进入系统生物学时代,如果说生物信息学发展初期面对的主要是序列数据,随基因组领域研究在质与量上的提高,特别在第二、第三代高通量测序技术的推动下,生物信息学面对的数据在类型、本质、数量上都得到了极大丰富,生物信息学也作为基因组分析不可或缺的工具而得到迅速发展,并快速向包括人类健康在内的很多领域渗透。

测序数据处理和分析的技术壁垒较高,并且因为其重要性,也成为掣肘基因测序行业中游发展的关键因素,更是各大测序公司的核心竞争力所在。目前,测序数据处理流程基本已经标准化,但对于数据处理过程中的核心步骤,各家公司都有自己的一套分析方法,即使是相同的原始数据,各方不同同算法对细节的处理不尽相同,输出的结果也不同,最终反映在测序数据解读质量上。

基因数据正在形成巨大的数据库,它的终极形态是,每一个健康人或者患者都可以将自己的基因数据进行上传分析,通过比对得出自己的健康状况,获得健康建议。不过,这需要很长一段时间的积累来达到理想的可靠性与稳定性,基因检测成长为越来越类似血常规、尿常规等常规临床检验项目,在一定程度上加速了这个过程。

基因检测的下游应用可以分为临床应用和非临床应用两个大类,两者各自又可以进一步细分为生育健康、病原感染检测、肿瘤基因检测、基础医学研究、新药研发等垂直板块。其中,非临床应用中的基础医学研究是基因测序最早实现商业化的领域,也是当前发展最为成熟的应用场景,其次便是临床场景中的肿瘤基因检测、生育健康、病原感染监测等应用。

在这个过程中,生物信息学不仅是一门学科,更是一种重要的研究开发工具,且生物信息学工具几乎是未来生物研究/生物医药开发所必须的,并且生物信息学作为强大的生物数据解读工具,正是连接基因序列和个性化医疗的关键纽带。当今,生物信息学界的研究人员主要将注意力集中在基因组、蛋白质组、转录组、 RNA 组等组学以及与这些组学密切相关的药物设计上,测序、数据库资源、序列对比、基因芯片&表达谱分析、分子进化分析、蛋白质结构分析、药物设计辅助是生物信息学最常见的相关应用。

基因检测智能化探索之临床应用

肿瘤

基因科技的临床应用,行至肿瘤诊疗,才算真正点燃了产业界的热情。也正因如此,红海竞争之下积累的丰富样本和数据,使得肿瘤诊疗成为基因大数据治理开发,甚至基于人工智能技术做解析的排头兵。

早期的蒙眼狂奔之后,临床上可兹采用的基于中国人群的肿瘤基因数据库已经越来越多,但整个基因信息大数据领域仍然缺乏统一标准,多个数据孤岛并存,大数据价值不能充分被挖掘用于满足临床需求。换言之,国内基因行业也亟需建立一套基因检测样本采集、运输、储存、检测、生物信息分析和遗传咨询解读等标准化流程,用以规范多基因Panel检测流程,同时解决临床数据支持及共享机制的项目。

随着国内大众对基因科技认知不断加深,和供给侧的基因测序行业生态不断完善,大规模人群基因数据库的建设节奏明显加快。大多数肿瘤NGS厂商都将建立和开发肿瘤基因大数据库作为自身的第二增长曲线,例如华大基因、求臻医学、吉因加、仁东医学、至本医疗等纷纷布局了针对不同癌种、纳入不同体量人群的肿瘤基因数据库。

现阶段,在一些特定的垂直领域,已经有零星基于人工智能的肿瘤基因组解读产品被尝试推出。例如,志诺维思旗下的志诺医珀(iGenome® Reporter)就是一款NGS基因检测数据分析系统。它基于GVC基因变异探测算法、医学解读知识库,快速精准分析和解读肿瘤样本NGS数据,只需极简操作就可以从原始测序数据获得全面的临检报告和/或科研报告,辅助用户进行临床诊疗决策和科研产出。

由此,肿瘤基因组学研究的门槛进一步被降低,而从事下游产品开发的小型基因公司再生产和研发能力得以加强。

感染疾病及遗传病

实际上,大多数基因测序公司只是擅长做基础测序和基本的分子生物学注释,对疾病、遗传机制缺乏深入了解,与医生、研究者这类终端用户的需求存在差距,输出结果也缺少灵活性,在一定程度上增加用户成本。对于非生信专业的人而言,原始测序数据几乎毫无实际意义。

遗传疾病多为多基因导致的复杂疾病。全基因组关联分析是一种和基因测序密切相关的,近几年来研究中非常热门的高通量分析方法。遗传学与分子生物学实验室常规分析是将关心的DNA或蛋白序列与库比对,这些序列长度大多数情况比整个基因组的量级小得多,进行的分析通量也低。但近年来,随生物数据量的增加以及单基因研究的局限性,生物信息学相关高通量分析方法已越来越成为必须,特别测序成本的快速下降,以及生物信息学的快速发展,高通量分析方法的应用门槛进一步降低,全基因组关联性分析正是研究中最为常见的、应用越来越常规化的生物信息学高通量分析手段之一。

对人类基因组研究而言,全基因组关联分析(GWAS)是指在人类全基因组范围内找出单核苷酸多态性(SNP)数据,并从中筛选出与目标特征(如胖瘦、高矮、特定疾病、药物敏感性等)相关的SNPs。在GWSA中,研究人员通常先收集到足够多的患者基因组数据,再将其中的SNP位点与对照组进行比较,并将相关数据进行关联性分析,尝试建立序列数据与目标性状之间的关联,从而筛选出同目标性状相关性密切的潜在基因。往往在这一步干试验完成之后,还需要采用实验生物学的方法做验证和深入研究。这种方式将更多维的海量数据纳入研究,已经帮助研究者发现了许多未知基因以及染色体区域,为复杂疾病的发病机制提供了更多的线索。

消费级基因检测

消费级基因检测是指通过广告、电商、线下店可被消费者认知且直接购买的基因检测产品,主要以低通量检测为主,技术手段包括 PCR 和基因芯片。在中国消费基因发展相对早期,产品主要围绕健康管理等维度展开。

中国消费级基因检测服务市场成立相对美国来讲晚了20年,目前处于初期发展阶段。但是中国消费者如今还未完全认可并采用消费级基因检测服务作为健康管理的手段,然而基于中国的人口众多和老龄化及个性化健康管理的趋势,这意味着未来中国消费级基因检测市场广阔。

学界对于基因与疾病的关系,更多还停留在关联性研究的阶段,而非确证性研究。相对于严肃医学领域的基因检测,消费级基因检测公司普遍面临着基因检测深度不够高、规模化盈利难、消费者认知不足的问题。尤其是目前国内消费级基因检测主要服务是健康管理,健康管理则要将临床数据、用户的健康数据与基因数据结合起来。然而目前临床数据和用户的健康数据都比较薄弱,以及现在消费基因检测产品结果并无专业的医疗人员进行诊断,在这种状况下,即使基因数据量很大,也无法有效指导健康管理。

针对消费级基因检测行业整体大环境不容乐观的情况下,已有多家企业做出战略调整推动消费基因检测智能化以提高基因检测稳定性和准确性。

自动化是智能化的基础,美因基因运用自动化水平的生产体系提高基因检测水平,成为了中国首个及唯一一个日检测能力超过5万次的基因检测平台。而美因未来将进一步结合基因技术和信息技术,实现基因检测高水平的自动化和智能化,将更具性价比的产品和服务推向市场,推动消费级基因检测的市场普及。

基因检测智能化探索之非临床应用

基因信息学和药物开发的交集也越来越多,不少药企都开始成立自己的基因组学部门,来为新药开发提供方向。如今我们所熟知的CD系列靶点,很多都是诞生于这波浪潮之中。基因组学里测出来的数据都是海量级别,如何进行清洗和利用,把它用到药物开发中去,总归离不开计算机和大数据技术。

对于靶向药而言,生物标志物(biomarker)举足轻重,它与药物敏感性、反应率相关。传统上,药物开发者根据已有的知识寻找生物标志物,常见的做法是将药物靶点本身作为生物标志物。这种模式直观、并已有不少成功案例,但局限性也显而易见。人类对自身和疾病的已有知识有限,绝大多数临床试验实际上没能用上生物标志物,到三期失败的临床试验尤其如此。

实际上,肺癌明星药易瑞沙初始的临床三期也曾失败,原研厂阿斯利康并没有找到生物标志物,而最终由哈佛大学的两家试验室发现EGFR突变是易瑞沙的生物标志物。

有分析认为,基因信息规模最大的市场来自制药公司药品研发的临床数据需求。2014年美国制药公司的药品研发总费用为约1400亿美元,只有3~4%用于购买临床数据,包括基因信息、用药记录、病历等其他数据。尽管基因信息在现阶段占药品研发费用比例较低,但预计未来几年会逐步上升。

评论

QQ咨询 扫一扫加入群聊,了解更多平台咨询
微信咨询 扫一扫加入群聊,了解更多平台咨询
意见反馈
立即提交
QQ咨询
微信咨询
意见反馈