Crashs périodiques en DIY RPI4 - Comment analyser les logs

Bonjour,

Mon installation domotique DIY fonctionne très mal depuis le mois d’avril :
Après 24/48h, je suis contraint de couper l’alimentation pour redémarrer.

/// J’ai suivi les conseils de Loic (détails plus bas):

Vérifier le système de stockage
Brancher un écran sur le Pi
Désactiver les plugins

Aussi, étant en DIY (Rpi4) je m’adresse à la communauté.
J’ai parcouru le forum maintes fois (merci au contributeurs),
ce qui m’a permis de réaliser plusieurs test coté Rpi et coté Jeedom.

Il y a surement des pistes dans les logs,
mais vu le nombre de lignes et que les heures sont incohérentes après les crashs,
leur lecture est complexe et je ne sais pas où et quoi chercher.

Merci

/// Specs de mon installation domotique :

Hardware :

Rpi4 2G
Alimentation officielle Rpi4
Onduleur Back-UPS
Boot sur SSD 30G
Clé conbee II Port 8089 Canal 15
Noeuds Zigbee : 40

Software :

Debian 11.8
Jeedom 4.3.21
Linux jeedom 6.1.21-V8+
Database : 10.5.21

Réseau :

LAN : Rpi4 (RJ45) → Asus ZenWifi (Wifi) → LAN
WAN : Rpi4 (RJ45) → Asus ZenWifi (RJ45) → Netgear LM1200 (4G) → WAN

Plugins (à jour) :

Agenda
Alarme
Délestage
Gestion Lumières
Mode
Monitoring
Onduleur APC
Open VPN
Rosée - Givre - Tendance
Simulation Présence
Telegram
Thermostat
Virtuel
Weather
Zigbee

/// Lorsque le Pi ne répond plus :

Hardware :

Ecran sur le Pi en HDMI : OK, console du Pi
Clavier sur le Pi en USB : NOK, Pas de réponse
Multimètre sur le Pi en USB : OK, 5.15V

Software :

Interface Routeur : OK, le Pi a son IP
LAN : NOK, Pas de réponse
DNS Jeedom : NOK, 500 Internal Server Error

Commandes testées en LAN :

ssh <user@IP du Pi> : NOK, Pas de réponse
ping : OK, entre 2 et 400ms (Moyenne à ± 5ms)
arp - a : OK, le Pi a son IP

/// Au redémarrage du Pi (après un Hard Reset) :

Coté Jeedom :

Mises à jour Jeedom : OK
Mises à jour OS/DB : OK sauf des PIP3 obsoletes qui apparaissent régulièrement
Santé : OK
CPU usage : Le max est 1.4% pour [kswapd0]
Memory Usage : Le Max est 486000 pour /usr/sbin/mariadbd

Coté RPi :

cd /var/log
ls -lh --sort=size

15M : syslog
14M : daemon.log
05M : auth.log

lsblk

sda1 : 256M
sda2 :29.6G

df-K

/dev/root : Use 36%
/dev/sda1 : Use 13%

Bonjour,

Souvent l’alim qui faiblit.
Faire dmesg -H après un crash pour avoir plus d’infos.

Ou essayer une autre alim.

Voir aussi du côté de la carte SD : essayer avec une nouvelle.

Bonjour,
merci pour votre réponse.

En effet, l’alim est un pb récurrent sur les Pis.
J’ai commandé cette alim : Lien Amazon
à tester

Pour la SD, je boot sur SSD. J’avais suivi les posts suivants pour mon installation :

EDIT : alim à tester : Amazon.fr

J’ai justement fait un dmesg en ssh ce matin,
avez-vous des liens qui m’indiqueraient comment utiliser cette commande correctement ?

EDIT : je précise que j’ai exploré en sudo nano les logs suivants :

  • user.log
  • debug
  • syslog
  • daemon.log
  • auth.log

Mais que mes compétences ne me permettent pas d’identifier les raisons des crashs.

Le -H permet une sortie « lisible par les humains ».
Sinon rien de mystérieux c’est le log système.

Tu peux filtrer avec grep concernant l’alim : Aïe... Jeedom KO :-( - #16 par Fabrice

Merci pour le lien

Ne doit rien retourner : OK
Pas eu de coupure de courant : OK, le Pi est branché sur un onduleur/batterie APC

Il faut lire le log de préférence après un crash.

OK, je vais changer l’alim, brancher un multimètre FNB58 pour enregistrer les fluctuations éventuelles, et refaire la commande précédente juste après le prochain crash. Je précise que j’ai laissé un écran 7" sur le Pi, pour justement voir si des « low voltage warnings » étaient détectés. Ce qui n’a pas été le cas jusqu’à présent.

Une copie d’ecran de la page santé jeedom aurait été un plus.

As-tu testé en desactivant une partie des plugins?

Le ssd est-il ancien? C’est quoi comme ssd? 30Go c’est pas beaucoup.

Antoine

Bonsoir,
voici une capture de la page santé,
le ssd est celui du tutoriel de @akenad : * SSD 32 Go Transcend (TS32GMSA370)
j’ai supprimé la plupart de mes plugins, scénarios, équipements… afin d’avoir une config minimale pour identifier la panne.
Il me reste les plugins officiels, à jour, pour avoir un minimum de domo entre les pannes :

La charge me semble élevée pour un pi4 avec peu de plugin.
Si tu as la possibilité, tester un autre support?
Il est vieux cet ssd?

Utilises tu les ports usb3?

Antoine

J’ai commandé un Pi4 8GB et un nouveau SSD pour tester.
le SSD actuel n’est pas si vieux, j’ai commencé Jeedom il y a un an.
et tout a fonctionné correctement les premiers mois.

Le SSD est en USB 3.0. Je sais que cela n’est pas recommandé mais j’avais testé USB 2.0 et c’est très lent.

La charge me semble élevée pour un pi4 avec peu de plugin.

j’ai la commande htop qui tourne en ssh.
on est loin des limites du Pi4,
mais est-ce normal d’avoir apache 2 en tête de liste ?
j’ai aussi souvent fail2ban qui remonte.

Côté hardware, j’ai donc changé l’alim et mis la conbee II sur un hub USB2.0 alimenté.
Côté Jeedom, j’ai continué à tester avec/sans plugins.
Mais j’ai toujours des pannes.
Je continue d’explorer les logs Jeedom et Raspian.
J’ai souvent cette erreur dans les messages, mais je doute que cela fasse planter le Pi :
Echec de la requête HTTP : http://127.0.0.1:8089/device/all cURL error : Operation timed out after 60001 milliseconds with 0 bytes received

Je tente aussi un scénario qui reboot toutes les 24h.

Help !