高性能计算集群

发布者：系统管理员发布时间：2016-10-13浏览次数：1600

生物信息学（Bioinformatics）是在生命科学的研究中，以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一，同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学（Genomics）和蛋白质组学（Proteomics）两方面，从核酸和蛋白质序列出发，分析序列中表达的结构功能的生物信息。

生物信息学在短短十几年间，已经形成了多个研究方向，其中与高性能计算相关的主要研究重点包括序列比对、序列拼接、基于结构的药物设计等等。总结起来，生物信息学对于高性能计算的需求有下列几个特点：数据量巨大、内存的需求大、计算量大。

我们实验室结合自身科研需求，配置了曙光公司的高性能计算集群，用于全基因组序列拼接、序列比对和其他生物信息学分析工作。基本配置简介如下：

胖节点：配置八路服务器I980-G10，内存配置4TB，处理器E7-8850v2，配置8块本地硬盘，总容量7.2T，计算时文件可临时存放在本地存储。

普通节点：配置机架式服务器I620-G20，内存配置1TB，4颗Intel Xeon E7-4800v2处理器，硬盘2.7T。

管理节点：配置一台I620-G20，主要用作管理登录、按照作业调度等。

存储系统：配置高性能、可扩展的并行存储系统，实际可用容量达到200TB，能够实现全局文件的统一访问和并发读写；存储系统有数据控制器和索引控制器组成，存储容量可调整数据控制器的数量，容量和性能随数据控制器的数量线性增加。

系统配置曙光Gridview集群管理系统，提供集群管理、监控、作业调度等功能，方便集群的管理和使用。