Comment j’ai déployé Ceph en PROD : épisode 4

16/10/2017/0 Commentaires/dans Data, Infrastructures /par Clément Hampaï

Comment j’ai déployé Ceph en PROD : épisode 4

Comme promis en fin de l’article précédent, passons maintenant par la case « Monitoring ». Cette étape est indispensable pour la suite des opérations. En effet cela va nous permettre de mesurer l’impact des différents benchmarks sur l’infrastructure Ceph.

Monitoring real time

Deux outils de monitoring ont été utilisés durant ce projet.

Le premier, Netdata, a été installé sur les six serveurs afin d’obtenir des metrics en temps réel mais également pour animer un dashboard créé pour l’occasion.

Cet outil est basé sur les informations fournies par le protocole snmp et s’installe de manière « Stand alone » sur chacun des serveurs à surveiller.

Fin de l’installation de Netdata sur les 6 serveurs Ceph

Netdata est accessible sur le port TCP 19999, prenez garde à bien ouvrir le port sur les différents firewalls éventuels vous séparant des serveurs.

Dès lors, il est possible d’accéder à l’interface web fournie par Netdata via l’url http://fqdn.monserveur.net:1999 :

Exemple de metrics collectées par Netdata. Ici des informations relatives au disque /dev/sda

Dashboard

Le dashboard ci-dessus permet d’avoir une vue en temps réel de l’activité du cluster. Dans le cas présent, seuls les 3 serveurs OSD sont affichés.

Pour chaque serveur, l’utilisation CPU, l’utilisation réseau du côté des clients Ceph, l’utilisations du réseau du cluster ainsi que l’activité des disques sont surveillés.

Ce dashboard à été créé à partir de l’API Netdata documentée ici: https://github.com/firehol/netdata/wiki/Custom-Dashboards.

Monitoring à long terme

Pour le monitoring à long terme ainsi que l’alerting, notre client a pour habitude d’utiliser Centreon.

A l’aide des plugins Ceph fournis ici: https://github.com/ceph/ceph-nagios-plugins il est possible de surveiller l’état du cluster et des différents services.

Actuellement, les informations suivantes sont surveillées:

Espace de stockage global utilisé
État de santé du cluster (« OK, « Warning » ou « Error »)
État de santé des serveurs métadata (MDS)
État de santé des moniteurs (MON)
État de santé des serveurs OSD,

Sur les serveurs OSD, le nombre de disques appartenant au cluster sont également monitorés:

Petite particularité, les scripts Centreon fournis par Ceph sont exécutés directement sur la machine virtuelle d’administration Ceph au travers d’une connexion SSH. Cela permet d’éviter de donner l’accès au storage Ceph à la machine de monitoring Centreon.

Benchmarks et finalisation du projet

A l’aide des outils présentés durant cet article, il est maintenant possible de conduire des tests de performances dans de bonnes conditions. En effet, le dashboard va permettre d’identifier un éventuel goulet d’étranglement très rapidement. Quant au monitoring Centreon, il sera particulièrement utile lors des tests de DR (disaster recovery).

Suite au prochain et dernier épisode pour les résultats de la batterie de tests.