Plantage total RPi4b - Serveur de temps NTP

Bon ben ça correspond à ton erreur

Jun 16 09:17:05 RPi4b-Jeedom fake-hwclock[114]: Tue 16 Jun 07:17:01 UTC 2020
Jun 16 09:17:05 RPi4b-Jeedom ntpd[503]: kernel reports TIME_ERROR: 0x41: Clock Unsynchronized

Donc tu peux sans doute suspendre cette tache pour l’instant, sans coupure de courant, tu devrais pouvoir garder l’heure a peu pret à jour.

Tu es certain qu’il y a un reboot ? Pour le reste des réponses, si je les avaient…

Par ailleurs, tu aurais pas migré depuis jessie par hasard (et donc gardé cette tache lors de la migration) ?

https://www.raspberrypi.org/forums/viewtopic.php?t=200385

Oui c’est bien le fake-hwclock.

J’ai regardé mes autres RPi3b, ils ont aussi ce script fake-hwclock qui tourne et ils n’ont pas de souci.

Oui, en plus, j’ai l’onduleur

Oui, il reboot complètement mais mal, on le voit dans les log système

Non, installe clean à chaque fois.

Mouais. Que de bidouilles !

J’avais justement choisi le RPi4 pour sa compatibilité afin de ne pas être le seul à avoir un problème particulier.

Rhooo, rentrer dans la norme c’est pas drôle ! Celà dit, on est au moins 2 à avoir un souci et pas forcement le même en plus

Cela fait des mois que j’essaie d’avoir un système domotique « fiable ».
Donc, tous les problèmes de ce genre m’amusent de moins en moins !

Jute pour compléter les log

Dans le log http.error de Jeedom, on voit qu’il redémarre bien à 9h18 et ensuite, il s’emmêle les pinceaux avec les time stamps

2020-06-16 09:18:02 starting Jeedom	tar: 00/5b636d64436163686541747472313830335d5b315d.doctrinecache.data: time stamp 2020-06-16 09:29:15 is 670.789042481 s in the future
tar: 00: time stamp 2020-06-16 09:29:15 is 670.788403086 s in the future
tar: 01/5b636d64436163686541747472313332305d5b315d.doctrinecache.data: time stamp 2020-06-16 09:30:04 is 719.788271552 s in the future
tar: 01/5b636d6443616368654174747238305d5b315d.doctrinecache.data: time stamp 2020-06-16 09:29:51 is 706.788190961 s in the future
tar: 01/5b636d64436163686541747472313833315d5b315d.doctrinecache.data: time stamp 2020-06-16 09:29:17 is 672.788112944 s in the future
tar: 01/5b636d64436163686541747472323730385d5b315d.doctrinecache.data: time stamp 2020-06-16 09:28:38 is 633.78803539 s in the future
tar: 01/5b636d644361636865417474723533385d5b315d.doctrinecache.data: time stamp 2020-06-16 09:28:38 is 633.787958077 s in the future
tar: 01/5b636d644361636865417474723536315d5b315d.doctrinecache.data: time stamp 2020-06-16 09:28:34 is 629.787850394 s in the future

Remarque : je n’ai pas ce type d’erreur à chaque plantage, c’est la 2ième fois.

Dans les options boot de raspi-config, j’ai sélectionné « attendre la connexion réseau au démarrage »

1 « J'aime »

A priori c’est courant quand même…

https://forum.jeedom.com/viewtopic.php?t=42058

Ça recommence… toujours à la 17ième minute Jul 25 01:17:04
Le système a tenu 1 mois cette fois ci. Je n’avais pas fait de MAJ du système depuis la dernière

**Ça bug, le RPi redémarre (voir les log, il y a tout le cycle du redémarrage)
Jeedom se lance (j’ai reçu le mail d’alerte à 1h18)
Pourquoi le RPi et Jeedom ne redémarrent pas correctement ?
Jeedom se retrouve en vrac, instance inaccessible, la partie GSM ne fonctionne pas, les modules Z-Wave non plus, le réseau n’a pa pu redémarrer.
Je coupe puis je remets l’alim du RPi et tout rentre l’ordre, mais ça me gonfle.

Je mets les fichiers log
kern.log.txt (42,2 Ko)
user.log.txt (3,7 Ko)
debug.txt (10,0 Ko)
syslog.txt (109,9 Ko)
messages.txt (51,1 Ko)

Ça plante à Jul 25 01:17:04 Je ne sais pas ce qui ne va pas avec cette horloge. Dans le log, je vois qu’il y a un décalage de 5 minute. On passe de 01:22:02 à 01:17:04 Certains fichier log sont corrompu juste avant

Jul 25 01:15:01 RPi4b-Jeedom CRON[20154]: (www-data) CMD (/usr/bin/php /var/www/html/core/php/jeeCron.php >> /dev/null)
Jul 25 01:16:01 RPi4b-Jeedom CRON[21526]: (www-data) CMD (/usr/bin/php /var/www/html/core/php/jeeCron.php >> /dev/null)
Jul 25 01:17:01 RPi4b-Jeedom CRON[22705]: (www-data) CMD (/usr/bin/php /var/www/html/core/php/jeeCron.php >> /dev/null)
Jul 25 01:17:01 RPi4b-Jeedom CRON[22706]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
Jul 25 01:18:01 RPi4b-Jeedom CRON[23896]: (www-data) CMD (/usr/bin/php /var/www/html/core/php/jeeCron.php >> /dev/null)
Jul 25 01:18:57 RPi4b-Jeedom systemd[1]: Starting Certbot...
Jul 25 01:19:01 RPi4b-Jeedom CRON[25068]: (www-data) CMD (/usr/bin/php /var/www/html/core/php/jeeCron.php >> /dev/null)
Jul 25 01:20:01 RPi4b-Jeedom CRON[26276]: (www-data) CMD (/usr/bin/php /var/www/html/core/php/jeeCron.php >> /dev/null)
Jul 25 01:20:01 RPi4b-Jeedom CRON[26277]: (root) CMD (/usr/bin/php /var/www/html/core/php/watchdog.php >> /dev/null)
Jul 25 01:20:07 RPi4b-Jeedom certbot[25004]: Attempting to renew cert (matthieuleboulaire.ddns.net) from /etc/letsencrypt/renewal/matthieuleboulaire.ddns.net.conf produced an unexpected error: Failed authorization procedure. matthieuleboulaire.ddns.net (http-01): urn:ietf:params:acme:error:connection :: The server could not connect to the client to verify the domain :: Fetching http://matthieuleboulaire.ddns.net/.well-known/acme-challenge/-fNLFhni7AwYqFX6eCSwaiFHny7pNtbj2UNqq0TIoEE: Timeout during connect (likely firewall problem). Skipping.
Jul 25 01:20:07 RPi4b-Jeedom certbot[25004]: All renewal attempts failed. The following certs could not be renewed:
Jul 25 01:20:07 RPi4b-Jeedom certbot[25004]:   /etc/letsencrypt/live/matthieuleboulaire.ddns.net/fullchain.pem (failure)
Jul 25 01:20:07 RPi4b-Jeedom certbot[25004]: 1 renew failure(s), 0 parse failure(s)
Jul 25 01:20:08 RPi4b-Jeedom systemd[1]: certbot.service: Main process exited, code=exited, status=1/FAILURE
Jul 25 01:20:08 RPi4b-Jeedom systemd[1]: certbot.service: Failed with result 'exit-code'.
Jul 25 01:20:08 RPi4b-Jeedom systemd[1]: Failed to start Certbot.
Jul 25 01:21:01 RPi4b-Jeedom CRON[27638]: (www-data) CMD (/usr/bin/php /var/www/html/core/php/jeeCron.php >> /dev/null)
Jul 25 01:22:02 RPi4b-Jeedom CRON[28829]: (www-data) CMD (/usr/bin/php /var/www/html/core/php/jeeCron.php >> /dev/null)
ul 25 01:17:04 RPi4b-Jeedom fake-hwclock[124]: Fri 24 Jul 23:17:01 UTC 2020
Jul 25 01:17:04 RPi4b-Jeedom systemd-fsck[133]: e2fsck 1.44.5 (15-Dec-2018)
Jul 25 01:17:04 RPi4b-Jeedom systemd-fsck[133]: rootfs: clean, 109979/7646464 files, 2159408/31192064 blocks
Jul 25 01:17:04 RPi4b-Jeedom systemd[1]: Started udev Coldplug all Devices.
Jul 25 01:17:04 RPi4b-Jeedom systemd[1]: Starting Helper to synchronize boot up for ifupdown...

J’ai bien compris que le RPi n’avait pas d’horloge, mais il a toujours accès à internet et j’ai activé l’option « attendre le réseau avant de démarrer » pour être sûr qu’il obtienne la bonne heure avant de commencer. Comme peut-on avoir plusieurs minutes de décalage sachant qu’il se synchronise régulièrement avec internet ? On est loin d’avoir un truc autonome avec ce Pi.

Il y a tout un tas de trucs qui se lancent autour de cet horaire chez toi. Plusieurs cron dans jeedom, la vérification certbot… Bref essaye de faire la liste et de repartir ça sur une plus longue période…
Que les fichiers soient corrompus c’est juste la conséquence du changement d’heure en plein milieu de leur utilisation…
Il y a aussi un cron jeedom toutes les minutes à vérifier

Qu’il y ait bug et qu’il redémarre : OK
Mais que Jeedom n’arrive pas à redémarrer correctement, ce n’est vraiment pas cool.
Les daemons de certains plugins démarrent bien, d’autres non

Dans le log du http.error, on remonte dans le temps.

[Sat Jul 25 01:19:50.928893 2020] [mpm_prefork:notice] [pid 651] AH00171: Graceful restart requested, doing restart
[Sat Jul 25 01:19:51.095838 2020] [mpm_prefork:notice] [pid 651] AH00163: Apache/2.4.38 (Raspbian) OpenSSL/1.1.1d configured -- resuming normal operations
[Sat Jul 25 01:19:51.095882 2020] [core:notice] [pid 651] AH00094: Command line: '/usr/sbin/apache2'
[Sat Jul 25 01:20:07.619671 2020] [mpm_prefork:notice] [pid 651] AH00171: Graceful restart requested, doing restart
[Sat Jul 25 01:20:07.767821 2020] [mpm_prefork:notice] [pid 651] AH00163: Apache/2.4.38 (Raspbian) OpenSSL/1.1.1d configured -- resuming normal operations
[Sat Jul 25 01:20:07.767864 2020] [core:notice] [pid 651] AH00094: Command line: '/usr/sbin/apache2'
[Sat Jul 25 01:17:06.415592 2020] [mpm_prefork:notice] [pid 575] AH00163: Apache/2.4.38 (Raspbian) OpenSSL/1.1.1d configured -- resuming normal operations
[Sat Jul 25 01:17:06.415984 2020] [core:notice] [pid 575] AH00094: Command line: '/usr/sbin/apache2'

Je pense qu’une dérive temporelle de 3 minutes sur un mois est possible et j’ai l’impression que l’horloge du Pi n’est pas synchronisée. Elle est simplement vérifiée toutes les heures. Puis lorsque la dérive temporelle est trop importante, ce qui fini tôt ou tard par arriver, le Pi fait un reset. Là, il y a une resynchronisation brutale de l’heure au redémarrage. Jeedom bloque car sa base de données est remontée dans le temps. D’ailleurs, lors du prochain redémarrage, qui a lieu généralement assez longtemps plus tard, tout se passe bien.

Possible, sauf que c’est pas un comportement classique. J’ai rarement eu ce genre d’erreur et de décalage temporel.
Comme c’est assez peu probable que ce soit un souci hardware, il faut chercher du côté des applications et de la configuration matérielle

Oui, je pense que c’est du soft et qu’il n’y a pas de synchro
La commande timedatectl retourne

               Local time: Mon 2020-07-27 14:27:13 CEST
           Universal time: Mon 2020-07-27 12:27:13 UTC
                 RTC time: n/a
                Time zone: Europe/Paris (CEST, +0200)
System clock synchronized: yes
              NTP service: inactive
          RTC in local TZ: no

Le service NTP n’est pas actif chez moi !

J’ai viré le service NTP et utilisé le service systemd-timesyncd à la place

Maintenant, la commande timedatectl retourne

               Local time: Mon 2020-07-27 15:24:48 CEST
           Universal time: Mon 2020-07-27 13:24:48 UTC
                 RTC time: n/a
                Time zone: Europe/Paris (CEST, +0200)
System clock synchronized: yes
              NTP service: active
          RTC in local TZ: no

Pour info, je me suis inspiré de ceci

Mon fichier /etc/systemd/timesyncd.conf contient

[Time]
#NTP
#NTP=ntp.serveur1.fr ntp.serveur2.fr
#FallbackNTP=0.debian.pool.ntp.org 1.debian.pool.ntp.org 2.debian.pool.ntp.org 3.debian.pool.ntp.org
FallbackNTP=0.debian.pool.ntp.org 1.debian.pool.ntp.org 2.debian.pool.ntp.org 3.debian.pool.ntp.org
#RootDistanceMaxSec=5
#PollIntervalMinSec=32
#PollIntervalMaxSec=2048

Enfin, la commande sudo service systemd-timesyncd status montre


● systemd-timesyncd.service - Network Time Synchronization
   Loaded: loaded (/lib/systemd/system/systemd-timesyncd.service; enabled; vendor preset: enabled)
  Drop-In: /lib/systemd/system/systemd-timesyncd.service.d
           └─disable-with-time-daemon.conf
   Active: active (running) since Mon 2020-07-27 15:24:15 CEST; 2min 52s ago
     Docs: man:systemd-timesyncd.service(8)
 Main PID: 11074 (systemd-timesyn)
   Status: "Synchronized to time server for the first time 213.136.0.252:123 (0.debian.pool.ntp.org)."
    Tasks: 2 (limit: 4915)
   CGroup: /system.slice/systemd-timesyncd.service
           └─11074 /lib/systemd/systemd-timesyncd

Jul 27 15:24:15 RPi4b-Jeedom systemd[1]: Starting Network Time Synchronization...
Jul 27 15:24:15 RPi4b-Jeedom systemd[1]: Started Network Time Synchronization.
Jul 27 15:24:15 RPi4b-Jeedom systemd-timesyncd[11074]: Synchronized to time server for the first time 213.136.0.252:123 (0.debian.pool.ntp.org).

À voir si ça tient dans le temps cette fois

Je suis tombé la dessus par hasard

/var/www/html/core/php/watchdog.php


/********************************Date****************************************/
echo 'Check Date => ';
echo date('Y-m-d')."\n";
if(date('Y') < 2019 || date('Y') > 2040){
	echo 'Invalid date found, try correct it';
	exec('sudo service ntp stop;sudo ntpdate -s time.nist.gov;sudo service ntp start');
}

/********************************Free space****************************************/

et jeedom.class.php

	public static function forceSyncHour() {
		if(config::byKey('disable_ntp','core',0) == 1){
			return;
		}
		shell_exec(system::getCmdSudo() . 'service ntp stop;' . system::getCmdSudo() . 'ntpdate -s ' . config::byKey('ntp::optionalServer', 'core', '0.debian.pool.ntp.org') . ';' . system::getCmdSudo() . 'service ntp start');
	}

ça fait pas avancer le truc, mais ça montre quand même qu’il ya potentiellement des actions que l’on ne soupçonne pas

vous avez tenter sa car depuis j’ai plus de problème perso

1 « J'aime »

Oui, j’avais coché le truc, mais plantage tout de même, puis entre la distribution linux et Jeedom, qui prend vraiment le contrôle du « temps » parmi tous ces machins NTP ?

Petit coup de gueule : on est en 2020, le RPi est connu pour ne pas avoir son horloge RTC, le RPi a une distribution linux dédiée et on est encore emm.rdé par des trucs basiques.

Suite à mes dernières modifications, je n’ai pas en de plantage depuis…

Le deux mon capitaine !

  • Watchdog ne se pose pas d’autre question qu’une date hors de la plage 2019 et 2040…
  • La class Jeedom se base sur la config par contre

Personnellement je ne comprends pas l’intérêt que watchdog a d’arrêter le service, même s’il ne fonctionne pas… ça n’empêche pas de lancer la commande ntp toute seule. Surtout que le service est relancé ensuit

Ben j’ai viré le service NTP ! :grinning:

Amélioration côté Jeedom : Pour éviter que la database de Jeedom plante lorsque la resynchro remonte dans le temps, il faudrait que Jeedom se mette en pause et attende les quelques minutes tant que la database ne soit plus dans le passé puis reparte proprement une fois dans le présent.

Violent comme solution… Personnellement je ne penses pas que ce soit à Jeedom de gérer le ntp… Rien n’empêche de faire tourner la config avec un décalage en plus ou en moins par rapport à la réalité… Même plusieurs heures … tant que ça reste comme ça pas de souci globalement
ça risque de poser souci pour quelques fonctions (otp par exemple) mais rien d’obligatoire…et pas forcement le cas le plus présent

C’est pas aussi simple, si le décalage est de quelques secondes pourquoi pas, mais si on arrive dans des cas comme dans ce sujet de plusieurs heures… C’est juste pas possible…

Oui, mais avec le service systemd-timesyncd, cela me permet ceci

System clock synchronized: yes
NTP service: active

Le service NTP n’était pas actif par défaut

Tout à fait, c’est au système Linux d’avoir la bonne heure. J’ai re-décoché la gestion NTP dans Jeedom.

Le décalage est de quelques minutes et non pas plusieurs heures. En cas de de plantage, une attente de 3 minutes supplémentaires après le redémarrage pour avoir un Jeedom fonctionnel est acceptable. C’est toujours mieux que d’avoir un Jeedom qui reste en rade indéfiniment jusqu’au prochain reboot manuel en coupant l’alimentation.

Bonjour,
Le soucis que tu rencontres n’a rien a voir avec jeedom mais avec mariadb/mysql (jeedom s’appui dessus) et l’OS. Ce n’est pas a jeedom de gerer ce genre de soucis il n’en ai pas capable et n’en sera jamais capable.

Je comprends bien que le problème de base n’a rien à voir avec Jeedom. J’essaie juste d’avoir une solution Jeedom plus robuste.

J’ai de nouveau eu un plantage. Jeedom est cette fois-ci fonctionnel en partie. J’ai accès à distance (heureusement car n’étant pas présent sur place). La page Santé est toute au vert. Les daemons sont tous au vert aussi. Certains plugins (RFPlayer, ZWave) ne remontent plus les infos des capteurs, leurs daemons sont bien vert mais plus fonctionnel en réalité. Difficile de s’en rendre compte rapidement. Et rien dans les log, c’est comme si les choses étaient en pause.

Un redémarrage des daemons et les infos remontent de nouveau. Mais dans ces conditions, je ne peux pas savoir qui est réellement NOK. Je préfère redémarrer proprement Jeedom depuis l’interface Jeedom afin que tout rentre dans l’ordre et refonctionne jusqu’à la prochaine fois.

[EDIT] 8h d’uptime seulement !

Ça m’a vraiment gonflé, alors j’ai viré cette m.rde de fake-hwclock qui se lance toutes les heures à la 17ième minute comme ici
https://stackoverflow.com/questions/61155895/raspberry-pi-raspbian-reboot-issue-with-ssd

sudo apt-get remove fake-hwclock
sudo rm -f /etc/cron.hourly/fake-hwclock