在组成人类基因组的30亿个碱基对中,大约99.9%是一致的,然而,人类个体的基因组又是各不相同的;而正是这0.1%左右(大约300万碱基对)的不同,造成了人类各族群、个体间表型不同(从长相的不同到健康状况的差异)的遗传基础。
所以,正确使用人类基因组序列,能帮助我们认识人类自身特别是与我们健康密切相关的基因组信息。但目前通用的人类参考基因组,皆基于欧洲白人为主体样本构建。各人种的基因各有不同,作为人口大国,构建中国的人群泛基因组图谱迫在眉睫。
这是中国人群泛基因组联盟(CPC)在做的事。CPC由复旦大学、西安交大、中国医学科学院等26家单位中青年学者组成,旨在组织中国人自己的基因组联盟,并且构建出中国人群泛基因组图谱,服务于中国人遗传多样性研究、复杂疾病分子机制研究和精准医学研究与应用。
CPC网站主页。复旦大学供图
近日,中国人群泛基因组联盟(CPC)一期研究进展发布。6月14日,相关成果以《基于36个族群的中国人泛基因组参考图谱》(A Pangenome Reference of 36 Chinese populations)为题发表于《自然》(Nature)主刊。据悉,这是中国学者领导的人群基因组研究首次发表在《自然》主刊。
CPC一期核心样本地理分布及语系、族群、遗传聚类关系
初步构建中国的泛基因组参考图谱
人类参考基因组是广泛用于人类遗传学和医学研究的遗传密码“导航图”,也是解析人类起源与演化、解析人类表型和疾病的遗传基础的根基。
从2001年首次发表人类基因组草图,人类参考基因组经历了数十次的更新迭代。但直到2022年,所有涉及人类遗传学的研究仍然依赖于线性参考基因组。
直到2023年,人类参考基因组从“线性一维序列”过渡到“泛基因组多维图谱”。但目前通用的人类参考基因组皆基于欧洲白人为主体样本构建,难以代表非欧裔族群、尤其我国族群的基因组多样性。即便是最新发表的人类泛基因组国际联盟(HPRC)收集了全球范围的46例样本,也仅包含3例中国汉族样本。
这项研究初步构建了我国人群的泛基因组参考图谱,发现了在人类通用参考基因组上缺失的约1.9亿个碱基对的参考序列;新鉴定了约580万个点突变或小变异以及3.4万个结构变异,涉及大量潜在功能原件包括至少1367个蛋白质编码基因;并发现通用参考基因组上缺失的参考序列富集了适应性演化和起源于远古人类的遗传变异,并且与角质化、紫外线辐射应激、DNA 修复、免疫反应以及寿命等表型或功能相关。
这项研究也显示,建立我国自己的人群泛基因组图谱十分必要。在重构人类演化历程、挽回复杂疾病研究时“丢失的遗传率”等研究和应用中,该图谱具有巨大的潜在价值。
CPC对我国族群特异的复杂基因组结构变异解析示例
对36个族群的58个样本进行深度测序
在其第一期研究计划中,CPC对代表中国36个族群的58个样本进行了深度测序,获取了116个高质量单倍型基因组,并以图基因组的方式构建了高质量中国人群参考泛基因组。
该泛基因组图谱总共包含约3.01Gb个碱基对的序列信息,在现有人类参考基因组的基础上新增了约1.9亿个碱基对的新序列。其中,约500万个碱基对新序列存在于95%以上的单倍型中,被视为中国人群基因组核心序列,可能与中国人群特有的较为稳定的生物学功能或表型特征相关。
与HPRC泛基因组图谱相比,CPC泛基因组图谱在中国人群特有的复杂变异解析方面具有显著优势。CPC泛基因组图谱中新发现了1079个基因拷贝数变异,以及包含药物代谢基因CYP2D6等在内的在中国人群中富集而在其他世界人群中出现频率较低的若干基因拷贝数变异;新鉴定出富集在中心粒、端粒等染色体复杂区域的3.4万个结构变异,其中半数以上仅在单个或两个样本中出现——若不针对中国丰富的族群多样性开展专门研究,将没有机会发现这些遗传变异。
研究人员进一步揭示,这些CPC新发现的遗传变异可能与亚洲人群特有的疾病易感性及表型多样性有关。一个典型的例子是α-珠蛋白基因簇,研究人员在该基因区域鉴定出两个中国人群特异性的大规模结构变异,这将为进一步研究中国人群贫血症的遗传机理和致病机制提供新的线索。
同时,CPC新发现的遗传变异影响了具有潜在功能和经受过适应性进化的基因,这些基因可能与亚洲人群特有的疾病易感性及表型多样性有关。此外,研究人员在CPC参考图谱中发现了相当大比例的古人来源基因序列,或将为东亚现代人基因组中的古人基因渗入研究乃至整个古DNA领域提供新的信息资料和线索。