AMET采用PBS Professional 管理新的高性能集群

 

项目介绍AMET(应用机电工程和技术)成立于1999年,其前身为都灵理工大学的机电实验室。如今,...



项目介绍

AMET(应用机电工程和技术)成立于 1999 年,其前身为都灵理工大学的机电实验室。如今,这家位于都灵的公司 (www.amet.it) 拥有广泛的客户群,涵盖全球众多行业内的很多知名公司,其中包括航空航天、铁道机车以及汽车等行业。该公司的产品全部基于高性能的计算仿真,从人体模型到房门检验器,涵盖各种工程和流程设计服务,技术堪称一流。

挑战 

AMET的客户数量与日俱增,这使得对于 HPC周期的需求激增,公司只好借助外部 HPC服务来处理超负荷的工作。首席技术官 Paolo Cavallo和他的 HPC团队对此解决方案进行了成本分析。

“我们发现,购买服务的成本非常高——甚至远远高出了购买新的、速度更快的集群以及额外软件许可的费用,”Cavallo这样说道,“我们决定购买更多的集群,但是更需要的是扩展性好、能灵活处理工作载荷并满足用户需求的解决方案。因此,我们采用了PBS Professional。”



解决方案

目前,AMET已经将单核和多核系统集成到了一个异构72核 Linux 集群中,其硬件制造商为HP、SGI以及一家当地的原始设备制造商。它包括一个具有8个Itanium2处理器的SGI Prism系统、四个SGI Altix XE系统(总共使用了8个双核 Xeon处理器)以及48个AMD64处理器(位于一个小型系统集群中)。从 Altair HyperWorks到 LS-DYNA、Abaqus 以及 NASTRAN 软件均可在其上运行。而 PBS Professional 是确保其正常运行的有力保证。

“它是一个单集群,我们通过组织提交过程,使用户可以将他们的作业交由最合适的平台进行处理,”AMET系统管理员Dario Dorella这样说道,“例如,我们通常会在8核SGI Itanium2 Altix系统上运行Altair OptiStruct,因为该系统的磁盘运行速度非常快。而在另外两个集群上运行RADIOSS。”

PBS Professional可以轻松地应对此类复杂问题,因此 AMET一直在使用它。四年前,公司在其旧集群上同时运行了LSF Platform与Open PBS。目前公司最终统一使用了 PBS Professional。

由于公司在斯洛伐克和土耳其设有分支机构,同时工程师们又需要在远程客户站点工作,因此,AMET 需要采用一种简单的方式来远程访问其HPC集群。PBS Works的 e-Compute(注:Computer Manager的前身)便成为了解决该问题的不二选择。

Cavallo说道:“我们使用 e-Compute是出于两个目的,首先是为了与在客户方现场办公的同事保持联系。他们可能会离开公司长达几天甚至数周。另外一个目的是便于从其它 AMET办公室的工作站进行访问。这样也便于使用我们的软件许可;所有的软件许可都安装在本地,但可以通过 e-Compute 远程使用。这样,我们就不必在其它位置安装许可了。”

“使用e-Compute后,我们的用户通过普通的Web界面就可以在都灵使用当地的计算资源。”Dorella 这样说道,“工程师甚至可以在网吧查看计算进度。我非常喜欢该软件,因为通过它可以随时随地地查看进度并进行相应的修正。”

大约有30名AMET的员工要使用集群,而对于他们当中的大多数或全部人员来说,其各自任务的截止日期已近在咫尺或日程安排非常紧张。他们需要定期访问集群,且不能出现任何的延迟。如果有人越权使用了过多的机时,便会出现问题。Cavallo 使用 PBS Professional 来管理和解决此问题。

Cavallo 说道:“我们需要一个能真正灵活安排任务的解决方案,确保应用公平的使用策略,有了 PBS Professional,用户之间的大部分冲突得以顺利解决。”

AMET还可通过 PBS Professional来分析处理器和外部计算资源的使用情况,以获得最具成本效益的解决方案。以前,当处于使用高峰期,AMET不得不从外部购买机时。现在,Cavallo和Dorella对PBS帐户日志进行研究,这样一来,通过改变任务的提交方式并修改任务安排策略,AMET可以提高其 CPU利用率,也不再需要外包任何工作,同时一年内无需购买额外集群来扩展资源。从而极大地节约了成本。

 

结论

Dorella说道:“我们也使用 PBS Professional 来帮助我们的用户更好地利用他们的软件许可,通过在 PBS日志文件中查看许可的使用情况,我们注意到,以前整个周末都在运行的一些程序在出现错误时通常还会占用软件的许可但未执行任何操作。现在大家已意识到对他们的状态进行监控的必要性了。”


    关注 Altair


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册