大多数人在谈论精确医学的时候,将其等同于基因测序。事实上,这只是一种幻象而已,精确医学强调多种组学数据整合,从某种程度上,这也体现了生命科学领域新兴交叉学科“系统生物学”的精髓。另外,环境因素亦不可忽视,人体肠道中的菌群与我们的健康有着千丝万缕的关系。只有通过系统地把握外在的环境因素以及内在遗传特征,精确医学的目标才得以实现。
国内在介绍和讨论精确医学时,大多只强调基因组序列分析的重要性,给人造成一种“基因组测序”是精确医学必由之路的幻象。但事实上,“十八般武艺齐上阵”的策略才是精确医学真正倡导的。2015年初,美国国立卫生研究院 (NIH)主任弗朗西斯·柯林斯 (Frans Collins)和美国曾任国立癌症研究所所长的哈罗德·瓦慕斯 (Harold Varmus)在介绍美国的精确医学计划时,这样写到:“项目参与者被要求同意对其进行全面地生物学分析(包括细胞种类、蛋白质、代谢分子、RNA以及DNA;当经费允许时可进行全基因组测序)和行为分析,并与其电子健康档案相联”。
1、系统生物学是精确医学的“抓手”
“精确医学”并非美国总统奥巴马首创。早在2011年,美国国家研究理事会就发布了相关的战略研究报告:《迈向精确医学——构建生物医学研究的知识网络和新的疾病分类法》 (Toward Precision Medicine: Building a Knowledge Network for Biomedical Research and a New Taxonomy)(以下简称“迈向精确医学”),明确提出了“精确医学”的概念及其核心内涵。
该报告认为,“要建立这样一种医学模式:将个体的临床信息和分子特征来构建一个巨大的‘疾病知识网络’,并通过这种知识网络来支持精确诊断和个体化治疗”。该疾病知识网络的特点是,把个体的基因组、蛋白质组以及代谢组等各种分子数据与临床信息、社会行为和环境等不同层级、不同维度的数据进行整合,其目的是“获取决定个体健康状态的极端复杂的影响因子或发病机理”。换句话说,“精确医学”的主要任务是为每一个体构造一个整合了各种相关信息的知识网络。
笔者认为,精确医学所强调的多种数据整合策略正是体现了生命科学领域新兴交叉学科“系统生物学” (Systems Biology)的精髓:首先是要把生物系统内基因、蛋白质等不同种类的分子组成成份整合在一起进行研究;其次,对于多细胞生物而言,系统生物学还要实现从分子到细胞、组织、个体的各个层次的整合。系统生物学的指导思想是整体论和系统论,认为生物体是高度复杂的庞大系统,不能只考虑局部,某一类分子,甚至不能仅考虑一个层次,需要从多层次和多因素相互作用的全局性角度进行整合研究,才能完整地认识和揭示生命的复杂生理和病理活动。
2、 为什么要系统获取人体信息?
虽然机体内遗传信息的传递基本遵循“中心法则”,从DNA传递到RNA,再到蛋白质;但是,其传递过程不是“高保真”的,通常伴有不同程度的“噪音”。例如,对结直肠癌组织的基因组和蛋白质组的比较研究表明,肿瘤细胞有些蛋白质上的氨基酸变异并没有对应的基因组序列变异。显然,仅仅进行基因组测序是难以了解很多在转录水平和蛋白质水平才出现的新变化。
已有大量研究工作对DNA甲基化修饰和组蛋白翻译后修饰等表观遗传变化与肿瘤发生发展的关系进行了揭示。因此,要研究肿瘤的发生发展,不仅需要检测基因组的序列变异,还需要检测表观遗传学信息。这些工作提示,生物体不同分子层次之间不是一种线性关系,一个层次上的信息不能全部地反映出其它层次的性质和变化,在每一个层次的研究都是有必要的。
生物复杂系统最主要的特点是,每个活动都是众多不同的基因、蛋白质、代谢小分子之间相互作用的结果;生物体内找不到“单干户”,全是“工作团队”。需要强调的是,这种观点引出了整体论与还原论在看待生物分子功能时的重要区别。整体论者认为,生物分子的功能不是确定不变的,而是取决于具体环境下与其发生相互作用的其它分子。与之相反,还原论者认为,每个特定的生物分子具有某种固定不变的生物学功能;就如同曾经在中国上世纪70年代末流行的印度电影《流浪者》的一句名言,“法官的儿子永远是法官,贼的儿子永远是贼”。
决定论观点在肿瘤研究中特别盛行:人们通常把研究中找到的肿瘤相关基因赋予一个具有明确功能指向的称谓,要么是促进肿瘤生长的“癌基因” (oncogene),如前面提到的KRAS基因;要么是抑制肿瘤生长的“抑癌基因” (tumor-suppressing gene),如大名鼎鼎的p53基因。
笔者实验室在不久前的一项研究中发现,p53基因与某些基因共同工作时确实表现为抑制肿瘤生长;但令人吃惊的是,如果将实验条件进行特定改变,同一个细胞内的p53基因将与另外一些合作伙伴在一起促进肿瘤的生长,而抑制p53的活性将抑制肿瘤的生长;此时p53基因的表现就像一个标准的癌基因[4]。显然,各种生物分子间相互作用的信息也难以简单地从基因组序列的测定中获取,要依靠转录组、蛋白质组和相互作用组等不同组学层次的分析与数据整合。
3、不可忽略的环境因素
人体的体内和体表存在大量的细菌。有研究者甚至把肠道菌群基因组称为“人体第二基因组”。据估计,人体肠道菌群基因组的基因总数大约是人类基因组的100倍,有近300万个基因。可以说,只有把肠道菌群基因组和人类基因组结合在一起,才算是完整的人体遗传全景图。
近年来,越来越多的研究工作表明,肠道菌群作为人体复杂系统的一个重要组成部分,广泛参与了机体的各种生理和病理活动。例如,有研究指出,肠道菌群中一种名为核粒梭菌 (Fusobacterium nucleatum)的细菌能促进结直肠癌的形成。显然,要想完整地认识和有效地解决复杂性疾病,不仅需要研究人体自身的基因、蛋白质、细胞和组织,而且对隐藏在机体内肠道菌群的研究也不可或缺。在“迈向精确医学”的报告中,作者也专门强调了这一点:“对人体微生物菌群及其功能认识的不断深入,将帮助我们实现疾病分类,研制针对人体及人体寄生病菌的药物”。
遗传因素作为内因,在肿瘤和糖尿病等复杂性疾病的发生发展过程中发挥了重要作用。但环境作为外因也不可忽略,有时候其重要性甚至会超过机体的内因。
不久前美国科学家通过计算方法,比较了作为内因的干细胞分裂能力与环境等外部因素在不同类型肿瘤发生中贡献大小。其结论是,内在风险因素只占整个癌症风险的10~30%,而外部风险因素则在癌症形成中起到了主要作用。
作为针对复杂性疾病的精确医学,环境等外部因素显然也是需要进行整合研究的主要内容。在“迈向精确医学”的报告中,作者以“暴露组” (Exposome)为例,介绍了在人一生不同阶段可能对其有致病影响的暴露因素,包括物理环境、居住条件、生活习惯和社会因素等;这些都是精确医学不能忽略的内容。
4、美国精确医学的研究策略
为落实奥巴马总统2015年初提出的精确医学计划——建立100万美国志愿者人群的精确医学队列并采集相关信息,美国政府提出了一个“精确医学先导专项” (The Precision Medicine Initiative,PMI)。2015年9月,该专项的工作小组向美国国立卫生研究院提供了一个研究报告,详细分析了如何实施这项任务:“为了成功实施‘精确医学先导队列项目’ (PMI Cohort Program,PMI-CP),需要采用成熟的以及全新的方法和技术来进行数据采集和管理”;其核心数据集包括电子健康档案、健康保险信息、问卷调查表、可穿戴设备健康信息采集以及生物学数据(各种组学数据、肠道菌群数据)等5大类型 。
从以上对两份美国精确医学报告的介绍来看,美国人正是把整合型研究策略作为开展相关研究工作的“抓手”。这种整合型策略注重从个体有关层次尽可能完整地获取数据,包括个体的微观层次(基因组、转录组、蛋白质组、代谢组等)、个体的宏观层次(分子影像、行为方式、电子健康档案等)、个体的外部层次(肠道菌群、物理环境、社会条件等);然后对这些不同层次的数据利用各种信息分析技术进行整合,形成一个各个信息层之间不同类型数据有着高度连接的疾病知识网络;“理想情况下,每个信息层与其它所有各信息层之间都形成连接:使得‘征兆和症状’与基因突变相连,基因突变与代谢缺陷相连,暴露组与表观基因组相连,等等”。因此,采用整合型研究策略建构“疾病知识网络”,就是“Precision Medicine” 的第二个特征。
来源:检验先锋