关于高算

管理
当前位置: 首页 > 关于高算 > 管理 > 正文

1. 在门户界面不能终止作业

答:在terminal中执行jctrl kill -f作业号 终止作业。

2. 使用win7 64-bit英文版系统打开文件传输客户端出错

答: 先尝试卸载重装,不行将自动升级卸载,下图所示卸载

G@O0`JT_D9WU%$3J{Y[0K$K

3. 打开terminal显示无可用资源

答:目前一个用户只能打开一个terminal,检查我的会话中上传会话是否关闭,可以选择连接或注销会话

4. 安装软件问题

答:如果用户想要自行安装软件可以将其安装在家目录底下,如果想要多人共同使用软件,可以将其安装在/opt/software/user-software/目录下。安装软件使用terminal执行命令进行安装。

5. 作业提交问题

答: 使用jsub命令提交作业,最后的参数是可执行程序或脚本,不支持源代码直接运行。

6. 作业运行时间限制问题

答:作业运行时间使用队列进行控制,如果不知道队列,则使用默认队列blade_small 运行480分钟,24个核心,使用jqueues查看所有队列,使用jqueues -l队列名 查看队列详细信息,RUNLIMIT显示运行时间限制,PROCLIMIT显示运行时间限制。

7. 命令行和图形化界面,上传了脚本,执行命令都是./

答:新版高算集群和老高算集群使用命令上有些出入,提交作业时可以使用如下命令来提交作业:

#!/bin/sh

#JSUB -q gpu_normal

#JSUB -app tensorflow

#JSUB -cwd “作业目录路径”

#JSUB -e error.%J

#JSUB -o out.%J

python “python程序”

cwd 参数试作业提交路径,默认当前提交作业路径,在那个目录路径下提交提交作业,默认就是这个目录路径

因本例中使用的是python作业,所以指定作业队列为gpu_normal,具体提交作业时可以根据作业类型来选择队列。

8. 图形化界面没法选择 队列 或者-app,以及指定运行命令,都是按照./执行的,运行sh脚本的话,运行个C的程序都还得写gcc -o编译然后./out执行,文件路径也弄得不是很清楚。对python来说比较好写,但是对先编译后运行的,c或者java,就感觉有点麻烦

答:建议先自行编译好再在集群中使用命令行提交作业。

9. 用脚本提交一个作业,只有error文件出现,没有output文件,但是用命令提交就都有

答:命令行和脚本运行作业执行结果是一致的,出现此类问题建议仔细检查脚本是否编写有误。

10.我看了手册,我们的CUDA程序好像没有编译和提交的方法。

答:CUDA库目前已经集成到集群中了,您如果要运行GPU程序,您可以选择GPU队列,队列名称:gpu_normal 选择这个队列的话,您的程序就只在GPU机器上运行。目前集群中GPU资源较少,不建议运行大型GPU计算作业。

11. mpicc hello.c -o hello

/opt/software/mpich/mpich-3.3.2/bin/mpicc: line 285: icc: command not found

答:使用module load mpi/openmpi/4.0.5加载openmpi在执行,出现commend not found建议仔细查看用户手册,一般是提交作业方式有误。

12.用户反映提交作业后,在作业管理中查看提交的作业状态不明。

答:经后台查看用户使用两个节点在运行作业,其中有一台机器于作业运行期间宕机,导致作业运行状态变为“状态不明”。

7.按照原先的方法使用VPN登陆,不能成功登陆了。

答:目前平台老账户已经不能使用了,需要在一网通办以老师申请课题组的方式,将用户添加至课题组。申请时注明学号,老用户用户名,联系方式等信息。账号申请后,可以通过学校官方网站,高算平台网站,平台系统内桌面等方式查看用户使用手册,用户手册详细介绍了新平台使用方法,请仔细阅读。

13.运行vsp程序使用mpi并行作业时作业只能分配到单节点运行

答:测试时使用老师的脚本运行作业可以正常多节点并行运算。原用户使用Intel mpi运行作业,建议老师使用mpich运行作业后,可以多节点运行。

14.japps命令可以查看应用,japps命令查出来后没有自己想要使用的软件可以自己安装吗?可以使用docker吗?

答:japps是为了方便用户,系统内集成大多数人会使用到的软件,用户也可以在自己的用户家目录安装自己需要的软件,目前操作系统版本为Redhat6.4,docker支持的最低Linux版本为centos6.8,不支持docker.

15.目前能否使用conda创建新的环境,能否安装第三方库?

答:集群不能连接到外部网络,可以在本地创建一个虚拟环境,打包上传使用。或者在自己家目录安装python环境,离线安装。

上一篇:上机指南