数据资源部

定位和目标:面向海量生物大数据,研发数据汇交存储、整合管理与共享应用的关键方法、技术和系统,推动生物数据“存管用”生态体系建设,促进领域内生物数据统一汇聚与管理,支撑大数据驱动的科学发现和技术创新。

一、关键技术问题

针对我国生物大数据管理能力薄弱、开放共享缺乏、利用效率低下等问题,数据资源部拟发展生物大数据高效汇聚、智能管理、安全共享和高效利用等核心架构和关键底层技术,推动建成国际领先的“数据-信息-知识”全链条生物数据生态体系。

二、核心技术

1. 生物数据标准化体系。面向生物数据管理与应用服务的全生命周期过程,制订基础标准、数据标准、服务标准、安全标准等,研发生物大数据标准化体系。结合生物大数据的特点和实际研究需求,在元数据、数据标识、数据存储、数据检索等方面形成国内统一、与国际接轨的标准。

2. 海量生物数据全生命周期智能化管理体系研发数据递交、接收、质控、审编、发布、保存、更新等过程的关键架构和底层技术,形成覆盖数据全生命周期的自动化智能数据处理和管理体系;研发云分级存储、云计算、超压缩与传输等关键技术和框架,实现生物大数据的高效管理。

3. 异构数据融合和跨库检索与比对技术发展面向复杂、多维、异构的生物大数据融合解析新方法和新技术,推动生物大数据驱动的科学发现。发展基因、表型、环境等多维生物大数据整合关联技术;研发生物大数据跨库智能检索系统;研发新一代原始组学序列快速比对技术。

4. 新发突发传染病的快速信息整合与追踪预警技术发展面向新发突发传染病的多组学数据整合与快速数据获取技术,构建基于大数据的快速鉴定与追踪预警体系,实现从数据-信息到知识的一体化应用。

信息计算部

定位和目标:面向快速增长的生命大数据解析建模需求,发展大数据解析关键技术和理论,开发核心算法,构建超高维数据的展示预测和模拟仿真平台,为国家生物信息中心建设提供生命健康大数据分析及展示的关键算法与软件支持。

一、关键科学问题

生命多维组学大数据呈现指数级增长态势,生命多层次信息的集成分析正在改变生命科学多领域的研究范式,如何对高维、异质且相互关联的数据进行高效注释、整合及知识挖掘是当前领域内的巨大挑战。信息计算部要解决的关键科学问题在于研发生命多维组学大数据的注释、解析和展示等核心高效算法,攻克制约生物信息学、群体遗传学和分子流行病学等领域发展的核心算法瓶颈。

二、核心技术

1. 高维异质数据融合解析和信息挖掘发展面向复杂、多维、异构的生物大数据融合解析和信息挖掘新方法和新技术,推动生物大数据驱动的科学发现。发展基因、表型、环境等多维生物大数据整合关联技术;研发生物大数据跨库智能检索系统;研发新一代原始组学序列快速比对技术;通过与深度学习、机器学习、模式识别等人工智能理论和方法的前沿交叉,研发多维生物大数据系统解析与深度挖掘关键技术。

2. 生物大数据智能因果推断和演化超算算法发展生物数据驱动与关键生命科学问题引导相结合的人工智能数学模型与理论,开发多维异构数据融合解析新方法与工具,揭示复杂表型的遗传基础和分子动态演变规律,实现对复杂生命过程中关键元素间动态因果关系的推断与生物风险因子的识别鉴定。开发细粒并行超算算法,突破百亿亿次每秒的运算瓶颈,绘制生命微观到宏观演化的过程图谱,助力对生命过程的推演与预测。通过与深度学习、机器学习、模式识别等人工智能理论和方法的前沿交叉,研发多维生物大数据系统解析与深度挖掘关键技术。

3. 生命过程大数据实时仿真及可视化算法生命过程中生物分子的结构和相互作用都在动态变化,基于多组学数据对结构及其动态变化进行推断和展示,是解析和理解生命过程动态规律的关键。开发新的智能算法,建立染色质在多维时空的映射,实现在结构域尺度上对染色质结构动态调控的实时仿真,达到交互实时沉浸式的展现该尺度下染色质结构的动态变化过程,推动对基因组高级结构、功能和进化的理解。

未来技术部

定位和目标:建立贯穿生命组学数据获取、解析、整合、存储的创新技术体系:面向生命科学研究和应用前沿,开发多维度、跨尺度、高分辨率的生命组学数据获取、解析及整合的组学技术体系;面向未来重大应用需求,发展大数据存储、单分子测序等未来技术体系。

一、关键科学问题

多模态跨尺度的复杂生命大数据呈现指数级增长态势,科学前沿和生命健康的管理和实践都依赖于大数据的获取、汇交和挖掘,因此,未来技术部要解决的关键科学问题在于研发生命大数据的获取、编码、存储、汇交和解析等核心技术,解决制约生命大数据科学基础和应用瓶颈。

二、核心技术

1.组学新技术体系结合已有表观遗传盒单细胞组学优势,开发多维度、跨尺度、高分辨率的生命组学数据获取技术,研发贯穿融合分子机制、亚细胞及细胞过程到人体功能的跨组学、多模态信息分析技术。包括:涵盖多种核酸修饰的单细胞表观转录组学技术、基于单细胞技术和化学生物学标记的细胞通讯组学、基于单分子测序的多维组学集成测序技术

2.新一代单分子测序技术针对国内基因组技术缺乏底层技术创新,组织开发新一代单分子测序技术的原理测试平台、信号解析软件和数据生态系统,直接读取核酸序列及其修饰。

3.信息的生物编码与存储技术针对传统数据存储技术的诸多缺点(保存时间有限,占用空间大、电能损耗大等),从数据的写、存、读三个层面,创新开发高效、精准的大数据编码、解码和加密算法,研制低成本、全自动化的大数据存取一体机集成示范系统,促进海量数据的快速精准大数据存储。

健康科学部

定位和目标:面向人民生命健康的国家重大需求,建立基于人群队列和大数据人工智能分析的精准医学和转化医学研究的新范式,切实推进生物信息大数据对于“精准医疗”和“全民健康”等战略目标的科学支撑,实现基础研究和转化医学的有效衔接。

一、关键科学问题

针对健康科学研究碎片化、生命大数据和医学人工智能等原创性理论基础薄弱、基因组学大数据自主创新型产品缺失、人工智能等前沿学科汇聚融合不足等重点难点问题,开展创新性的重大疾病风险评估、预测预警、早期筛查、分型分类、个体化治疗、预后和安全性预测及监控等精准防诊治和临床决策支持研究,以有效支撑全面筛查、全生命周期管理、全方位联动的全民健康管理服务体系,努力满足人民群众的健康需求。

二、核心技术

1. 基于多维生命组学大数据的生殖、衰老的精准防控技术针对肿瘤异质性的分子机制,结合多维组学数据解析与临床诊疗效果,研发确立肿瘤低剂量化疗标准及新的适应性治疗策略,发现适用于临床应用的肿瘤早期诊断、进展和复发特异的关键分子标记物,实现肿瘤精准分型和鉴定精准治疗新靶点;研发确立基于多维组学数据智能解析的肿瘤早诊液体活检策略及标准;基于化疗和靶向治疗等耐药现象,筛选关键分子靶标,开发有效组合疗法策略;基于单细胞能量代谢图谱,研发针对肿瘤细胞代谢的临床新靶标,实现肿瘤精准诊治。

2. 生殖、衰老与遗传性疾病的精准防控技术基于哺乳动物早期胚胎的多维组学数据,研发解析人类早期胚胎遗传信息异常的核心技术,确立适用DNA甲基化图谱等表观遗传技术筛选胚胎用于辅助生殖的方法,建立筛选标准,提高新生婴儿的健康;开发研究衰老的分子、细胞、器官、个体乃至群体规律的前沿技术及平台,精准鉴定延缓衰老关键靶点,发展延缓和防治衰老相关疾病的有效手段;基于人工智能、计算机科学等前沿技术,通过对生物医学大数据的智能解析,研发心血管疾病、肺纤维化及脑相关疾病等复杂疾病的风险预测模型和药物重定位模型,推动临床转化应用。

3. 基于全生命周期组学大数据的健康管理和疾病风险防控技术应用临床医学、大数据和计算机科学、临床医学、流行病学、公共卫生学、医学信息学、生命组学、等多学科交叉融合研究的新手段,研发符合伦理规范的、整合多维组学和疾病表型信息的健康大数据规范和标准化技术体系;基于多维度生命组学大数据,研发疾病风险分析及预警、健康动态监测、精准干预及个体化管理技术;开发基于个体化医疗的基因组学与表观遗传信息深度挖掘技术;开发精确到单核酸位点的深度学习模型,实现适用于多种复杂疾病的对遗传因子的精准功能预测;利用人工智能和大数据解析技术,研发健康人群罹患肿瘤、心脑血管疾病等风险预测、早期筛查、分子分型及疗效评估等软硬件一体化临床决策支持系统,开展示范应用。

数据安全部

定位和目标:围绕国家生物数据安全管理和合理利用的基本需求,制定生物数据安全存储及管理的策略和规范,研发数据授权访问和安全管理的保护技术,构建安全、可靠的数据安全和网络安全防护体系,保障国家生物数据与信息安全。

一、关键技术问题

针对生物信息大数据安全管理、规范应用的核心技术与体系建设问题,开展生物大数据存储、管理和应用的信息安全保障技术研发与网络安全保障的主动攻击防范关键技术研发。

二、核心技术

1. 生物信息大数据安全管理保障技术面向国家生物信息中心的大量数据库资源,建立生物信息数据库系统的身份认证与数据授权技术,同时,基于WEB应用系统的日志分析、统计和访问监测系统,动态监测和管理国家中心数据流量,采用人工智能技术自动判别非法访问或非法入侵,并对其进行干预和阻止,保障生物数据的安全管理。

2. 生物大数据远程同步与实时备份技术针对生物大数据的安全管理和容灾备份需求,研发适用于生物信息大数据的跨地域传输与同步技术,构建数据同步与备份管理系统,切实落实数据物理存储安全。

3. 网络安全管理与应用技术针对生物数据共享应用实际需求,研发病毒入侵及网络攻击预警分析技术及网络安全保障的主动攻击防范技术,同时,加强信息安全系统等级保护体系建设与运行,确保网络安全。

数据资源部

定位和目标:面向海量生物大数据,研发数据汇交存储、整合管理与共享应用的关键方法、技术和系统,推动生物数据“存管用”生态体系建设,促进领域内生物数据统一汇聚与管理,支撑大数据驱动的科学发现和技术创新。

一、关键技术问题

针对我国生物大数据管理能力薄弱、开放共享缺乏、利用效率低下等问题,数据资源部拟发展生物大数据高效汇聚、智能管理、安全共享和高效利用等核心架构和关键底层技术,推动建成国际领先的“数据-信息-知识”全链条生物数据生态体系。

二、核心技术

1. 生物数据标准化体系。面向生物数据管理与应用服务的全生命周期过程,制订基础标准、数据标准、服务标准、安全标准等,研发生物大数据标准化体系。结合生物大数据的特点和实际研究需求,在元数据、数据标识、数据存储、数据检索等方面形成国内统一、与国际接轨的标准。

2. 海量生物数据全生命周期智能化管理体系研发数据递交、接收、质控、审编、发布、保存、更新等过程的关键架构和底层技术,形成覆盖数据全生命周期的自动化智能数据处理和管理体系;研发云分级存储、云计算、超压缩与传输等关键技术和框架,实现生物大数据的高效管理。

3. 异构数据融合和跨库检索与比对技术发展面向复杂、多维、异构的生物大数据融合解析新方法和新技术,推动生物大数据驱动的科学发现。发展基因、表型、环境等多维生物大数据整合关联技术;研发生物大数据跨库智能检索系统;研发新一代原始组学序列快速比对技术。

4. 新发突发传染病的快速信息整合与追踪预警技术发展面向新发突发传染病的多组学数据整合与快速数据获取技术,构建基于大数据的快速鉴定与追踪预警体系,实现从数据-信息到知识的一体化应用。

信息计算部

定位和目标:面向快速增长的生命大数据解析建模需求,发展大数据解析关键技术和理论,开发核心算法,构建超高维数据的展示预测和模拟仿真平台,为国家生物信息中心建设提供生命健康大数据分析及展示的关键算法与软件支持。

一、关键科学问题

生命多维组学大数据呈现指数级增长态势,生命多层次信息的集成分析正在改变生命科学多领域的研究范式,如何对高维、异质且相互关联的数据进行高效注释、整合及知识挖掘是当前领域内的巨大挑战。信息计算部要解决的关键科学问题在于研发生命多维组学大数据的注释、解析和展示等核心高效算法,攻克制约生物信息学、群体遗传学和分子流行病学等领域发展的核心算法瓶颈。

二、核心技术

1. 高维异质数据融合解析和信息挖掘发展面向复杂、多维、异构的生物大数据融合解析和信息挖掘新方法和新技术,推动生物大数据驱动的科学发现。发展基因、表型、环境等多维生物大数据整合关联技术;研发生物大数据跨库智能检索系统;研发新一代原始组学序列快速比对技术;通过与深度学习、机器学习、模式识别等人工智能理论和方法的前沿交叉,研发多维生物大数据系统解析与深度挖掘关键技术。

2. 生物大数据智能因果推断和演化超算算法发展生物数据驱动与关键生命科学问题引导相结合的人工智能数学模型与理论,开发多维异构数据融合解析新方法与工具,揭示复杂表型的遗传基础和分子动态演变规律,实现对复杂生命过程中关键元素间动态因果关系的推断与生物风险因子的识别鉴定。开发细粒并行超算算法,突破百亿亿次每秒的运算瓶颈,绘制生命微观到宏观演化的过程图谱,助力对生命过程的推演与预测。通过与深度学习、机器学习、模式识别等人工智能理论和方法的前沿交叉,研发多维生物大数据系统解析与深度挖掘关键技术。

3. 生命过程大数据实时仿真及可视化算法生命过程中生物分子的结构和相互作用都在动态变化,基于多组学数据对结构及其动态变化进行推断和展示,是解析和理解生命过程动态规律的关键。开发新的智能算法,建立染色质在多维时空的映射,实现在结构域尺度上对染色质结构动态调控的实时仿真,达到交互实时沉浸式的展现该尺度下染色质结构的动态变化过程,推动对基因组高级结构、功能和进化的理解。

未来技术部

定位和目标:建立贯穿生命组学数据获取、解析、整合、存储的创新技术体系:面向生命科学研究和应用前沿,开发多维度、跨尺度、高分辨率的生命组学数据获取、解析及整合的组学技术体系;面向未来重大应用需求,发展大数据存储、单分子测序等未来技术体系。

一、关键科学问题

多模态跨尺度的复杂生命大数据呈现指数级增长态势,科学前沿和生命健康的管理和实践都依赖于大数据的获取、汇交和挖掘,因此,未来技术部要解决的关键科学问题在于研发生命大数据的获取、编码、存储、汇交和解析等核心技术,解决制约生命大数据科学基础和应用瓶颈。

二、核心技术

1.组学新技术体系结合已有表观遗传盒单细胞组学优势,开发多维度、跨尺度、高分辨率的生命组学数据获取技术,研发贯穿融合分子机制、亚细胞及细胞过程到人体功能的跨组学、多模态信息分析技术。包括:涵盖多种核酸修饰的单细胞表观转录组学技术、基于单细胞技术和化学生物学标记的细胞通讯组学、基于单分子测序的多维组学集成测序技术

2.新一代单分子测序技术针对国内基因组技术缺乏底层技术创新,组织开发新一代单分子测序技术的原理测试平台、信号解析软件和数据生态系统,直接读取核酸序列及其修饰。

3.信息的生物编码与存储技术针对传统数据存储技术的诸多缺点(保存时间有限,占用空间大、电能损耗大等),从数据的写、存、读三个层面,创新开发高效、精准的大数据编码、解码和加密算法,研制低成本、全自动化的大数据存取一体机集成示范系统,促进海量数据的快速精准大数据存储。

健康科学部

定位和目标:面向人民生命健康的国家重大需求,建立基于人群队列和大数据人工智能分析的精准医学和转化医学研究的新范式,切实推进生物信息大数据对于“精准医疗”和“全民健康”等战略目标的科学支撑,实现基础研究和转化医学的有效衔接。

一、关键科学问题

针对健康科学研究碎片化、生命大数据和医学人工智能等原创性理论基础薄弱、基因组学大数据自主创新型产品缺失、人工智能等前沿学科汇聚融合不足等重点难点问题,开展创新性的重大疾病风险评估、预测预警、早期筛查、分型分类、个体化治疗、预后和安全性预测及监控等精准防诊治和临床决策支持研究,以有效支撑全面筛查、全生命周期管理、全方位联动的全民健康管理服务体系,努力满足人民群众的健康需求。

二、核心技术

1. 基于多维生命组学大数据的生殖、衰老的精准防控技术针对肿瘤异质性的分子机制,结合多维组学数据解析与临床诊疗效果,研发确立肿瘤低剂量化疗标准及新的适应性治疗策略,发现适用于临床应用的肿瘤早期诊断、进展和复发特异的关键分子标记物,实现肿瘤精准分型和鉴定精准治疗新靶点;研发确立基于多维组学数据智能解析的肿瘤早诊液体活检策略及标准;基于化疗和靶向治疗等耐药现象,筛选关键分子靶标,开发有效组合疗法策略;基于单细胞能量代谢图谱,研发针对肿瘤细胞代谢的临床新靶标,实现肿瘤精准诊治。

2. 生殖、衰老与遗传性疾病的精准防控技术基于哺乳动物早期胚胎的多维组学数据,研发解析人类早期胚胎遗传信息异常的核心技术,确立适用DNA甲基化图谱等表观遗传技术筛选胚胎用于辅助生殖的方法,建立筛选标准,提高新生婴儿的健康;开发研究衰老的分子、细胞、器官、个体乃至群体规律的前沿技术及平台,精准鉴定延缓衰老关键靶点,发展延缓和防治衰老相关疾病的有效手段;基于人工智能、计算机科学等前沿技术,通过对生物医学大数据的智能解析,研发心血管疾病、肺纤维化及脑相关疾病等复杂疾病的风险预测模型和药物重定位模型,推动临床转化应用。

3. 基于全生命周期组学大数据的健康管理和疾病风险防控技术应用临床医学、大数据和计算机科学、临床医学、流行病学、公共卫生学、医学信息学、生命组学、等多学科交叉融合研究的新手段,研发符合伦理规范的、整合多维组学和疾病表型信息的健康大数据规范和标准化技术体系;基于多维度生命组学大数据,研发疾病风险分析及预警、健康动态监测、精准干预及个体化管理技术;开发基于个体化医疗的基因组学与表观遗传信息深度挖掘技术;开发精确到单核酸位点的深度学习模型,实现适用于多种复杂疾病的对遗传因子的精准功能预测;利用人工智能和大数据解析技术,研发健康人群罹患肿瘤、心脑血管疾病等风险预测、早期筛查、分子分型及疗效评估等软硬件一体化临床决策支持系统,开展示范应用。

数据安全部

定位和目标:围绕国家生物数据安全管理和合理利用的基本需求,制定生物数据安全存储及管理的策略和规范,研发数据授权访问和安全管理的保护技术,构建安全、可靠的数据安全和网络安全防护体系,保障国家生物数据与信息安全。

一、关键技术问题

针对生物信息大数据安全管理、规范应用的核心技术与体系建设问题,开展生物大数据存储、管理和应用的信息安全保障技术研发与网络安全保障的主动攻击防范关键技术研发。

二、核心技术

1. 生物信息大数据安全管理保障技术面向国家生物信息中心的大量数据库资源,建立生物信息数据库系统的身份认证与数据授权技术,同时,基于WEB应用系统的日志分析、统计和访问监测系统,动态监测和管理国家中心数据流量,采用人工智能技术自动判别非法访问或非法入侵,并对其进行干预和阻止,保障生物数据的安全管理。

2. 生物大数据远程同步与实时备份技术针对生物大数据的安全管理和容灾备份需求,研发适用于生物信息大数据的跨地域传输与同步技术,构建数据同步与备份管理系统,切实落实数据物理存储安全。

3. 网络安全管理与应用技术针对生物数据共享应用实际需求,研发病毒入侵及网络攻击预警分析技术及网络安全保障的主动攻击防范技术,同时,加强信息安全系统等级保护体系建设与运行,确保网络安全。