316号李利明-加快全基因组测序工作，建设全国最大、世界领先的全基因组数据平台的提案

　　会议提案

　　全基因组测序（WGS），目前默认指的是人类的全基因组测序，

　　指的就是把物种细胞里面完整的基因组序列从第一个DNA开始一直到最后一个DNA，完完整整地检测出来并排列好。因此这个技术几乎能够鉴定出基因组上任何类型的突变基因组信息，已能用于鉴定遗传疾病，查找驱使癌症发展的突变，追踪疾病的爆发。迅速下降的测序成本以及处理大样本数据能力的提升都使得如今的测序者可将全基因组测序视为基因组研究的最强有力工具。

　　人全基因组测序是基因组最为全面的研究方案，除了可以获得基因表达区的信息，还能获得内含子、基因间区域的信息；可获得SNP、CNV、InDel、SV等变异信息；能够分析样品基因组中大片段的结构变异和基因组拷贝数变异；可发现新型、稀有的遗传变异。癌症全基因组测序（WGS）让人们可以查看癌组织中存在的全部独特突变。它使得新的癌症相关变异的发现——包括单核苷酸变异（SNV）、拷贝数改变（CNV）和结构变异（SV）——成为可能。通过比较肿瘤和正常DNA，WGS可提供特定肿瘤样本中各种改变的全面视图，包括由周围正常组织和肿瘤克隆性贡献的变异。利用癌症基因组测序已发现了许多癌症相关变异。包括癌症基因组图谱(TCGA)、国际癌症基因组联盟 (ICGC)、癌症中体细胞突变的目录 (COSMIC)等在内的众多项目的不断努力，已经鉴定了大量癌症突变。

　　一、行业现状

　　在过去的20年中，作为生命科学和信息技术的两大前沿，生物医药和人工智能这两个领域均取得了重大里程碑进展并呈现融合发展的趋势，由此推动了AI制药的兴起。随着BT（生物技术）和IT（信息技术）的不断深化，AI制药行业快速发展的势头仍将持续，为人类健康事业提供更强动力。

　　近十年来，越来越先进的信息技术得以用于生物层面，随之而来的是相关数据及工具的极大充盈，AI制药得以拓展更加多元的发展方向和更加广阔的应用空间。不仅仅局限于传统的小分子药物，AI在大分子药物、细胞和基因疗法领域的作用也不断获得印证，一大批相关Biotech随之涌现。与此同时，辉瑞、赛诺菲、拜耳、强生等跨国药企和包括药明康德、IQVIA在内的CXO企业也纷纷加入进来，投身AI技术赋能药物的研发之中。

　　AI制药领域数据库的迅猛发展，离不开大数据、机器学习、结构生物学等多个领域技术的不断进步和相互融合。这些技术的发展为大规模化学和生物数据的收集、分析和挖掘提供了有力支持，进一步推动了AI在制药领域的应用和发展。AI制药数据库可包含：多组学系统数据库（如基因组学、转录组学、代谢组学等）、小分子化合物数据库、疾病生物学原理数据库、现存药物及靶点数据库、患者临床试验/动物模型数据库等。例如2022年DeepMind公开的蛋白质结构数据库，包含数2亿个已预测蛋白质结构。其他包括化学生物学数据库Chembl、转录组学数据库GEO、蛋白组学数据库PDB、靶点的综合数据库TTD、药物信息知识库DrugBank、临床数据数据库ClinicalTrials.gov等，这些数据被大量地用于基于AI技术的药物筛选、分子模拟和生物信息学分析，有助于加快新药发现和开发的过程。

　　2023年11月30日，英国生物银行（UK Biobank）数据库公布了迄今为止世界上最大的全基因组序列（WGS）数据集，包含近50万人的基因数据。但是，这50万样本中大部分人是欧洲白人血统，非洲血统和亚洲血统的志愿者只有各约1万人。这意味着研究者们难以使用这套数据来研究非洲和亚洲人健康问题。这些数据将通过英国生物银行的云平台向全世界的申请者开放。这是有史以来最雄心勃勃的项目，代表了迄今为止世界上最大的单一测序数据集。该数据集有潜力为主要常见病的病因提供新见解，并指导潜在治疗靶点的选择。英国生物银行的使用者涵盖全球范围内近100个国家的超3万名注册研究人员（80%的研究申请来自于英国外的研究者）；截止2022年底，使用UKB数据已发表的科学论文近6000篇，引用超18万次，并以每年上千篇的速度增加。中国已经成为英国生物银行数据库的最大用户，并且数据使用申请排队时间要6个月以上。

　　除了英国，美国也在 2015 年启动All of Us研究计划，目标收集100万人的基因组学信息和其它生物信息，为精准医疗产业提供基础。该计划目前已公布25万组全基因序列数据，但是仅提供给美国的学者使用。我们中国也在积极加强精准医学研究布局，在2016年公布的《“十三五”国家科技创新规划》中部署构建了百万人以上的自然人群大型健康队列、重大疾病专病队列和罕见病的临床队列研究等，预计投资2.5亿元，但是不包含全基因组测序内容。另外我国科学家们还发起了名为“女娲”的中国人群基因组计划，是已发表的唯一高深度测序中国参考人群全基因组队列，第一阶段包含5000多例样本，该项目于2023年8月15日发表了第四项研究成果。但是该计划样本量太少，无法形成大规模可应用的数据库。

　　二、存在的问题和优势

　　问题：

　　1、国内全基因组数据库起步较晚，没有系统性的投入和支持，数据库规模很小，应用和商业化程度远远不足。

　　自2006年成立以来，英国生物银行在英国政府的支持下，已收集了50万中老年志愿者的生物样本、全身扫描以及健康和生活方式数据。经参与者同意，英国生物银行对采集的生物样本进行全基因组测序，建成了世界最大的50万人全基因组数据集。

　　我国自2016年开始支持大队列研究，包括自然人群大型健康队列、重大疾病专病队列和罕见病的临床队列研究等，但是这些队列缺少生物样本采集内容。即便队列中有一定量的生物样本采集，却很少涉及大规模的全基因组测序内容，这使得我国关于全基因组数据集的利用不得不依靠国外的全基因组数据集。因此，建设具有中国特色、自主知识产权的全基因组数据集是当下医药健康产业的迫切需求。

　　2、数据孤岛问题严重，国际交流明显不足。

　　数据孤岛是指在一个组织或系统中，数据被存储在多个独立的、不兼容的或无法访问的平台上，导致数据的价值无法被充分发挥。这种情况通常发生在不同的部门或业务单位之间，他们可能使用不同的数据格式或系统，缺乏统一的标准和接口。因此，整合数据资源，建立统一的数据平台是解决数据孤岛问题的首要任务。

　　3、全基因组测序仪器设备国产化水平还有差距。

　　目前，全球只有两个国家、三个公司可以量产临床级别的高通量基因测序仪，分别是Illumina、华大智造、Thermo Fisher，三家公司合计占据超90%的全球市场份额。在基因测序精度和产业化程度上，国产设备和海外巨头还有不少差距。

　　4、生物信息分析管理软件受制于人。

　　生物信息学是一个跨学科领域，它涉及到生物学、计算机科学、信息技术等多个方面。为了更好地分析生物数据，有许多常用的生物信息学软件可供初学者使用。常用的生物信息学软件有BLAST、

　　ClustalW/ClustalX、MEGA4、Cytoscape、Bioconductor、GATK、UGENE等，基本都是由国外公司开发，国产软件无论从市场占有率还是软件功能适配度方面都还有着较大差距。

　　优势：

　　1、超大人口规模，丰富的地域和民族多样性。

　　基于我国人口规模，地域和民族的多样性，其全基因测序数据集具有广泛的代表性，可用来研究全亚洲的人群健康问题。再结合欧美国家的一些数据集，基本可以覆盖全球大多数族群。

　　2、生物样本来源广泛，采集成本低。

　　我国医疗体制的特殊性，更容易开展多中心的样本采集活动，减少生物样本采集成本。

　　3、全基因组测序设备国产化程度尚可，单样本全基因测序成本低。

　　以华大基因为首的国产基因测序设备近些年取得了不错的成绩，其检测精度和数据处理能力和国外主流产品差距不大。在同等测序通量的前提下，国产设备单样本测序成本比国外产品低30%以下，这就给低成本大规模基因测序提供了成本优势。

　　4、产业资源集中，市场广阔。

　　大兴区是北京市医药健康产业的集中地，有着完整的医药健康产业链，对全基因测序数据集和生物信息智算有着巨大的需求。反之，优秀的生物信息数据集也能促进大兴区医药健康产业的快速发展。

　　5、北京生物信息智算中心优势。

　　北京生物信息智算中心项目是北京市和大兴区大力支持和推动的重点工程建设项目，项目定位是生物医药和数字经济领域的重大基础设施，建设目标为中国版的“英国生物银行”。项目依托大兴生物医药基地，大兴区国资入股，拜尔贝克负责建设和运营。建设内容分为生物样本库、生物样本数字化平台和生物信息智算平台（一库两平台）三个方向，从生物样本存储、生物样本数字化、标准数据集建设和生物信息智算服务等方面，为生物医药产业提供人才培养、基础科研、成果转化、技术开发等服务。项目集成人工智能、生物信息以及计算医学等领域专家，通过人工智能计算的方法高效寻找生物医药靶点，大幅提升数字药物、智慧医疗、检测试剂等新技术研发速度和成功率，全面赋能生物医药产业跨越式发展。

　　北京生物信息智算中心生物样本库目前存储着来自于全国31个省、市、自治区302个采样点55万人生物样本及其健康数据，依靠其生物样本数字化平台和生物信息智算平台，具有开展全基因组测序、建设全基因组数据集的天然优势。根据测算，完成20万人全基因组测序成本仅需2.3亿元，成本远低于英国生物银行20万人全基因组测序的16亿元的测序成本，并且测序完成后第二年就会产生2800万的商业转化收入。属于花小钱干大事的最优选择。

　　三、具体建议

　　1、支持依托北京生物信息智算中心生物样本库、生物样本数字化平台和生物信息智算平台开展50万人全基因组测序项目，建设国内最大、世界领先的全基因组数据集。

　　2、支持和协调对接英国生物银行和北京生物信息智算中心合作，开展全基因组数据平台合作，引进国际先进经验和商业化模式，互补双方生物信息地域和人种差异，更好赋能医药健康产业发展。

　　3、支持北京生物信息智算中心生信管理系统开发任务，落地ICA生信管理系统的本地化部署，开展商业化服务。

　　4、对接区内生物医药企业需求，开展生物信息智算合作、技术开发和成果转化。

　　四、建设意义和必要性

　　1．打造中国人自有的全基因组数据库

　　长期以来，中国人的很多遗传疾病研究，都直接应用外国人的数据和结论。但由于不同地域人群和种族之间的历史渊源和遗传背景存在着巨大差异，如果把具有其他人群偏向性的知识和结论直接拿来做为中国人的疾病风险评估、遗传咨询或诊断治疗依据，是并不完善和可靠的。

　　2．打造中国人特色的生物银行数据平台

　　通过整合其基线调查数据、实验室数据、随访数据和死因数据，建设具有中国特色、自主知识产权的生物样本数据库，赋能国内临床科研、生物医药、健康产业的发展。

　　3．更有针对性的药物发现和开发

　　全基因组测序形成的数据库和专病数据集将使研究者能够利用人工智能和机器学习的力量来快速识别新的疾病靶点，并帮助研究人员根据基因预测候选药物可能如何影响某些患者亚群。

　　4．发现致病非编码遗传变异

　　人们对人类98%的基因组知之甚少，这些部分曾经被错误地称为“垃圾 DNA”。这是DNA中不编码蛋白质的部分（非编码DNA），一项研究利用早期的测序数据，已经从该区域发现了一些例子，其中罕见的变异与特定的遗传决定特征相关。

　　5．加快推进精准医疗

　　通过五十万人的样本量，以及收集超过1万个变量（如血压、认知功能、饮食和骨密度）的数据，研究人员可以借此推动量身定制的医疗保健。

　　6．了解疾病的生物学基础

　　对于许多疾病，例如帕金森氏症、阿尔茨海默氏症和自身免疫性疾病，人们对其潜在的起源知之甚少。

　　办理报告

　　李利明委员：

　　您提出的“关于加快全基因组测序工作，建设全国最大、世界领先的全基因组数据平台”提案已经收到，大兴区生物医药产业基地结合园区自身情况，认真研究部署落实，现将有关意见答复如下：

　　一、成立专班，积极推进项目获得多方支持

　　大兴生物医药产业基地积极响应北京市数字经济全产业链开放发展行动方案，以北京生物信息智算中心（以下简称智算中心）的建设为核心，全面推动生物产业的数字化与智能化融合。一是成立专项工作组。医药基地成立专班，协调区发改委、经信局、科委和卫健委等多部门的各方资源，以确保智算中心项目的顺利进行。二是保障各项手续及时办理。项目取得了智算中心项目的规划许可证、施工许可证、节能审查意见以及人类遗传资源保藏资质，这些手续的顺利办理为项目的后续推进奠定了坚实基础。三是积极争取各项资金支持。园区协助智算中心部分内容——细胞质量控制平台项目成功获得了北京市科学技术委员会、中关村科技园区管理委员会《大兴生物医药产业基地高品质科技园区建设项目》专项资金。下一步，继续推进市发改委高价值样本存储项目、市经信局50万人全基因组测序项目支持。

　　二、落实政策指示，支持智算中心开发任务

　　大兴生物医药产业基地积极贯彻《北京市加快建设信息软件产业创新发展高地行动方案》和《关于进一步推动首都高质量发展取得新突破的行动方案（2023-2025年）》指示精神，积极落实相关政策，紧密围绕智算中心的建设需求，协助企业获得各级专项支持。通过优化资源配置，加强基础设施建设，协助企业促进ICA生信管理系统的本地化部署，并开展商业化。

　　三、搭建合作平台，推动智算中心服务企业

　　大兴生物医药产业基地为了进一步推动产业升级与科技创新，积极向园区企业推荐智算中心。一是将智算中心作为园区宣传的重要内容。在园区对外宣传纸质和电子版材料中，给智算中心重要展示位置。二是举办“2023智算医学大会”。2023年9月22日，医药基地管委会、智算中心联合承办大会。在大会中，向专家及企业家隆重推荐智算中心。三是利用“对话药谷”沙龙品牌进行推介。待智算中心建设初见雏形，组织园区企业开展智算中心供需对接交流会。四是推进加强一对一深入交流。推荐园区有智算需求的企业与智算中心面对面沟通交流。

　　四、下一步工作

　　医药基地积极协调相关资源，争取更多与英国生物银行对接交流的机会。下一步，我们将继续加强部门间的沟通与协作，进一步完善专班工作机制，提升工作效率与服务水平，积极引进优质项目与资源，推进全基因组数据平台加快建设。

　　以上是我们的全部意见，谢谢。

　　中关村科技园区大兴生物医药产业基地管理委员会

316号李利明-加快全基因组测序工作，建设全国最大、世界领先的全基因组数据平台的提案

政协北京市大兴区委员会 地址：大兴区兴政街15号 邮编：102600

政协北京市大兴区委员会地址：大兴区兴政街15号邮编：102600