Lustre Monitoreo

De usuarios.nlhpc.cl
Revisión a fecha de 15:00 10 may 2018; Nlhpc (Discusión | contribuciones)

(dif) ← Revisión anterior | Revisión actual (dif) | Revisión siguiente → (dif)
Saltar a: navegación, buscar

MDS[0-1]

MDT NIDS

Los archivos en /proc/fs/lustre/mdt/home-MDT0000/exports/ contienen la información acerca de cada uno de los NIDS conectados MDT.

Cada 1 minuto se envían los datos a centreon (lustre_mdt_export) y a grafana.

[root@mds0 ~]# cat /proc/fs/lustre/mdt/home-MDT0000/exports/192.168.51.236@o2ib/stats 
snapshot_time             1523996378.72414 secs.usecs
open                      9739667 samples [reqs] close                     9738464 samples [reqs]
mknod                     1 samples [reqs]
link                      175672 samples [reqs]
unlink                    275267 samples [reqs]
mkdir                     45583 samples [reqs]
rmdir                     44567 samples [reqs]
rename                    9 samples [reqs]getattr                   1899623 samples [reqs]setattr                   53348 samples [reqs]
getxattr                  28555 samples [reqs]
setxattr                  2 samples [reqs]
statfs                    6806 samples [reqs]
sync                      87840 samples [reqs]
samedir_rename            9 samples [reqs]

MDT home mds

Estadísticas del MDT a nivel global para la partición lustre home.

Cada 1 minuto se envían los datos a centreon(lustre_mdt_home_mds) y a grafana (md[0-1]: mdt home mds).

[root@mds0 ~]# cat /proc/fs/lustre/mdt/home-MDT0000/md_stats
snapshot_time             1523997231.714237 secs.usecsopen                      278905730 samples [reqs]close                     264685052 samples [reqs]
mknod                     39039 samples [reqs]
link                      190153 samples [reqs]
unlink                    9546636 samples [reqs]
mkdir                     116253 samples [reqs]
rmdir                     85148 samples [reqs]
rename                    3340891 samples [reqs]getattr                   189271928 samples [reqs]
setattr                   36444771 samples [reqs]
getxattr                  53755813 samples [reqs]
setxattr                  12355 samples [reqs]
statfs                    795185 samples [reqs]
sync                      165284 samples [reqs]
samedir_rename            3289305 samples [reqs]
crossdir_rename           51586 samples [reqs]

MDS mdt

Estadísticas del MDS a nivel global.

Cada 1 minuto se envían los datos a centreon (lustre_mds_mds_mdt) y a grafana (md[0-1]: mds MDS mdt).

[root@mds0 ~]# cat /proc/fs/lustre/mds/MDS/mdt/stats
snapshot_time             1523997301.642476 secs.usecs
req_waittime              617603529 samples [usec] 3 20323 7971441875 264379403273
req_qdepth                617603529 samples [reqs] 0 12 673486 749704
req_active                617603529 samples [reqs] 1 17 707664429 953752705req_timeout               617603529 samples [sec] 1 317 754702261 5639881795
reqbuf_avail              1267629338 samples [bufs] 60 64 81111621259 5190094475591ldlm_plain_enqueue        741583 samples [reqs] 1 1 741583 741583
ldlm_flock_enqueue        1950582 samples [reqs] 1 1 1950582 1950582
ldlm_ibits_enqueue        534616235 samples [reqs] 1 1 534616235 534616235
mds_getattr               1634553 samples [usec] 10 362357 755927758 5731343460944
mds_getattr_lock          190844 samples [usec] 13 97920 7315730 38233052528
mds_connect               1185 samples [usec] 18 4522 89158 30228500
mds_disconnect            22 samples [usec] 49 51425 55919 2651622229
mds_getstatus             318 samples [usec] 5 44 5897 122353
mds_statfs                795480 samples [usec] 4 1173 14989664 325328674
mds_sync                  165324 samples [usec] 68 495053 385669251 7831211197373
mds_quotactl              76720 samples [usec] 7 18318 1978317 593288687
mds_getxattr              19466682 samples [usec] 8 6980 367953242 8555522682
mds_hsm_state_set         94883 samples [usec] 14 25009 6769548 30772115240
obd_ping                  7898324 samples [usec] 4 386 139567616 2903246020
quota_acquire             190421 samples [usec] 8 112969 12855468 164368428776

OSS[0-3]

OST I/O

Estadísticas del OST a nivel global, de como los clientes hacen solicitudes hacia los OST.

Cada 1 minuto se envían los datos grafana (md[0-1]: ost OSS ost_io).

[root@mds0 ~]# cat /proc/fs/lustre/ost/OSS/ost_io/stats
snapshot_time             1523997322.377684 secs.usecs
req_waittime              61150824 samples [usec] 4 41006 2717533870 426044262254
req_qdepth                61150824 samples [reqs] 0 8 173459 342105
req_active                61150824 samples [reqs] 1 84 228825970 1642855234
req_timeout               61150824 samples [sec] 1 102 353869729 11892753595
reqbuf_avail              128623861 samples [bufs] 28 157 14590335068 1745279752564ost_read                  23313662 samples [usec] 43 87999628 396006083623 4139885690418760287ost_write                 32314036 samples [usec] 120 100015194 261852565144 539292321167903148ost_punch                 5523126 samples [usec] 32 9840239 3041883666 458497762432636

lltop

Con el utilitario de lltop se obtiene la cantidad de bytes escritos/leídos y cantidad de solicitudes por cada NID hacia los OST[0-3] en un periodo de tiempo. Permite saber que NID esta siendo usado por OST ya sea por escritura, lectura junto al trafico/paquetes del switch permite relacionar carga.

Cada 3 minutos se obtiene las stats de lo ocurrido el ultimo minuto y esto es enviado a grafana (md[0-1]: oss[0-3]) y el total.

192.168.51.102@o2ib 126396 0 4
192.168.51.116@o2ib 1765 0 2
192.168.51.12@o2ib 51380224 0 100
192.168.51.134@o2ib 1314016 0 6
192.168.51.136@o2ib 16777216 0 37
192.168.51.139@o2ib 0 0 2
192.168.51.13@o2ib 434 0 2
192.168.51.140@o2ib 0 0 4
192.168.51.142@o2ib 0 2961408 14
192.168.51.143@o2ib 3143048 0 6

Switch Mellanox

Se obtienen estadísticas de trafico y paquetes por cada puerto del switch asociandalas a cada nodo.

Extracción de datos cada 1 minuto enviados a centreon (BW Interfaces LY-X) y grafana (traffic y paquetes).

Grafana

Listado de dashboards:


Referencias