高性能计算集群

发布者:系统管理员发布时间:2016-10-13浏览次数:1167

生物信息学(Bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白质组学(Proteomics)两方面,从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。

生物信息学在短短十几年间,已经形成了多个研究方向,其中与高性能计算相关的主要研究重点包括序列比对、序列拼接、基于结构的药物设计等等。总结起来,生物信息学对于高性能计算的需求有下列几个特点:数据量巨大、内存的需求大、计算量大。

我们实验室结合自身科研需求,配置了曙光公司的高性能计算集群,用于全基因组序列拼接、序列比对和其他生物信息学分析工作。基本配置简介如下:

胖节点:配置八路服务器I980-G10,内存配置4TB,处理器E7-8850v2,配置8块本地硬盘,总容量7.2T,计算时文件可临时存放在本地存储。

普通节点:配置机架式服务器I620-G20,内存配置1TB4Intel Xeon E7-4800v2处理器,硬盘2.7T

管理节点:配置一台I620-G20,主要用作管理登录、按照作业调度等。

存储系统:配置高性能、可扩展的并行存储系统,实际可用容量达到200TB,能够实现全局文件的统一访问和并发读写;存储系统有数据控制器和索引控制器组成,存储容量可调整数据控制器的数量,容量和性能随数据控制器的数量线性增加。

系统配置曙光Gridview集群管理系统,提供集群管理、监控、作业调度等功能,方便集群的管理和使用。