본문 바로가기

전체 글

Mellanox Connect-X infiniband 연결 확인Device information 확인z641@z641:~$ ibv_devinfohca_id: mlx5_0 transport: InfiniBand (0) fw_ver: 16.35.4030 node_guid: 0c42:a103:0017:3b2e sys_image_guid: 0c42:a103:0017:3b28 vendor_id: 0x02c9 vendor_part_id: 4119 hw_ver: 0x0 board_id: MT_0000000023 phys_port_cnt: 1 port: 1 state: PORT_DOWN (1) max_mtu: 4096 (5) active_mtu: 4096 (5) sm_lid: 0 por.. 더보기
AMD Threadripper Hybrid MPI+OMP export OMP_NUM_THREADS=4export OMP_PROC_BIND=closeexport OMP_PLACES=coresmpirun -np 8 \ --rankfile rankfile.txt \ --report-bindings \ lmp -in in.ST1.MSCDSS -sf omp -pk omp 4 p620@p620:~$ ps -u $USER | grep lmp 115108 pts/1 00:01:46 lmp 115109 pts/1 00:01:47 lmp 115110 pts/1 00:01:47 lmp 115111 pts/1 00:01:47 lmp 115112 pts/1 00:01:47 lmp 115113 pts/1 00:01:47 lmp 115114 pts.. 더보기
CPU Pinning and Affinity Check Here’s an analysis of your hybrid MPI+OpenMP LAMMPS run using:export I_MPI_PIN=1export OMP_NUM_THREADS=4mpirun -np 12 lmp -in in.ST1.MSCDSS -sf intel -pk intel 0 omp 4 1. What the Configuration Does -np 12: Launches 12 MPI processesOMP_NUM_THREADS=4: Each MPI process spawns 4 OpenMP threadsSo the total logical concurrency demand is: 12 MPI x 4 OMP = 48 threadsI_MPI_PIN=1: Requests Intel MPI to .. 더보기
Possible Acclerations fix wall/gran : kokkosfix rigid/small : ompfix gravity : kokkosfix viscous : kokkospair_style gran/hertz/history : omp---- optional pair_style gran/hooke : omppair_style gran/hooke/history : kokkos---- kokkos accelerator는 fix pour와 함께 사용이 불가하다. - kokkos의 gpu, omp 모두 불가 - stage 2, 3에서는 fix pour를 사용하지 않으니 kokkos가 가능할지도 gpu accelerator는 granular simulation에서 딱히 지원되는 fix나 pair style이 현존하지 않는다.gpu .. 더보기
LAMMPS on Intel Xeon https://www.intel.com/content/www/us/en/developer/articles/guide/lammps-tuning-guide.html LAMMPS Tuning Guide on 3rd Generation Intel® Xeon® Scalable...The LAMMPS tuning guide includes optimizations for Intel® AVX-512 on Intel® Xeon® Scalable Processors that can significantly speed up simulations.www.intel.com1. lstopo $ lstopo numa_simple.svg 물리코어는 48개 이지만, Hyper threading을 하므로 논리코어는 96개 이다.위의 .. 더보기
LAMMPS Process Mapping in OpenMPI - (3) --map-by ppr:<N>:<resource> ppr : process per resourceresources : numa, socket, core.. OpenMPI에서 --report-bindings은 stderr로 보내진다. 따라서, stderr을 파일로 보내려면, 이렇게2> bindings.log 리눅스 쉘에서 2는 stderr을 의미한다. ppr 테스트, rank 8개씩 NUMA 노드로 분배mpirun -np 32 --map-by ppr:8:numa --report-bindings lmp[dell7875:528836] Rank 0 bound to package[0][core:0-7,32-39,64-71][dell7875:528836] Rank 2 bound to package[0][core:0-7,32-39,64-71][dell7875:528.. 더보기
LAMMPS Process Mapping in OpenMPI - (2) --map-by numa:PE PE=n의 효과 PE=n을 적용하지 않으면, NUMA 노드 범위 내에서 프로세스는 떠 있는다.[dell7875:527316] Rank 1 bound to package[0][core:0-7,32-39,64-71][dell7875:527316] Rank 0 bound to package[0][core:0-7,32-39,64-71][dell7875:527316] Rank 2 bound to package[0][core:0-7,32-39,64-71][dell7875:527316] Rank 4 bound to package[0][core:0-7,32-39,64-71][dell7875:527316] Rank 3 bound to package[0][core:0-7,32-39,64-71][dell7875:527316.. 더보기
LAMMPS Process Mapping in OpenMPI - (1) Basic CPU 코어 구성확인lstopo --of svg --no-io --no-os numa_simple.svg 뒤따라 나오는 에러는 무시해도 된다.아래는 Threadripper 7995WX Pro Numa Node는 총 4개, L#는 논리코어 넘버, P#는 물리코어 넘버이다.NUMA Node 0 : [core:0-7,32-39,64-71]NUMA Node 1 : [core:8-15,40-47,72-79]NUMA Node 2 : [core:16-23,48-55,80-87]NUMA Node 3 : [core:24-31,56-63,88-95]32개 프로세스로 테스트, --report-bindings 옵션을 쓰면 프로세스 배치 결과가 나온다mpirun -np 32 --report-bindings 배치결과, NUMA .. 더보기