Congelamento regolare su sistema basato su Ryzen, 16.04 LTS e kernel più recente

4

Ho una CPU Ryzen 1700X e sto facendo calcoli. Ogni tanto il sistema si blocca, mentre è in esecuzione 16.04 LTS (Kernel 4.10). Il sistema non si riavvia. Non c'è segnale sul display e la tastiera + il mouse non funzionano. Non riesco a connettermi tramite SSH.

Ho salvato il kern.log e syslog file durante l'esecuzione di 16.04 LTS.

Dopo aver letto diversi post e aver letto i problemi relativi alla nuova architettura e ai problemi, ho deciso di provare il kernel più recente e sono passato a 4.12.8 (datato 16 agosto 2017) da qui . Ho usato questo post su AskUbuntu per aggiornare il kernel. Il sistema è stato avviato correttamente e la mia applicazione ha funzionato bene per circa 10 ore ora.

Dopo circa ~ 11 ore il sistema si è nuovamente bloccato, con gli stessi messaggi in syslog come visto con il kernel 4.10 su 16.04 LTS, indicato di seguito. {File Kernel e syslog, con kernel 4.12: kern.log con nuovo kernel e syslog con nuovo kernel }

Aug 18 17:27:13 vriksha systemd[1]: Starting Cleanup of Temporary Directories...
Aug 18 17:27:13 vriksha systemd-tmpfiles[4661]: [/usr/lib/tmpfiles.d/var.conf:14] Duplicate line for path "/var/log", ignoring.
Aug 18 17:27:13 vriksha systemd[1]: Started Cleanup of Temporary Directories.
Aug 18 17:28:25 vriksha ntpd[1516]: 209.242.224.117 local addr 192.168.2.15 -> <null>
Aug 18 17:35:01 vriksha CRON[4821]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Aug 18 17:35:40 vriksha systemd[1]: Started Session 5 of user vani.
Aug 18 17:42:18 vriksha sensord: Chip: amdgpu-pci-2700
Aug 18 17:42:18 vriksha sensord: Adapter: PCI adapter
Aug 18 17:42:18 vriksha sensord:   fan1: 1423 RPM
Aug 18 17:42:18 vriksha sensord:   temp1: 43.0 C
Aug 18 17:42:18 vriksha sensord: Chip: asus-isa-0000
Aug 18 17:42:18 vriksha sensord: Adapter: ISA adapter
Aug 18 17:42:18 vriksha sensord:   cpu_fan: 0 RPM
Aug 18 17:45:01 vriksha CRON[6142]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Aug 18 17:55:01 vriksha CRON[6431]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Aug 18 18:05:01 vriksha CRON[6607]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Aug 18 18:09:52 vriksha kernel: [ 3459.913711] perf: interrupt took too long (2529 > 2500), lowering kernel.perf_event_max_sample_rate to 79000
Aug 18 18:12:18 vriksha sensord: Chip: amdgpu-pci-2700
Aug 18 18:12:18 vriksha sensord: Adapter: PCI adapter
Aug 18 18:12:18 vriksha sensord:   fan1: 1431 RPM
Aug 18 18:12:18 vriksha sensord:   temp1: 40.0 C
Aug 18 18:12:18 vriksha sensord: Chip: asus-isa-0000
Aug 18 18:12:18 vriksha sensord: Adapter: ISA adapter
Aug 18 18:12:18 vriksha sensord:   cpu_fan: 0 RPM
Aug 18 18:15:01 vriksha CRON[6785]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Aug 18 18:17:01 vriksha CRON[6825]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
Aug 18 18:25:01 vriksha CRON[6967]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)

Dopo l'ultima riga nel messaggio precedente (in syslog ) il sistema si è bloccato. Ho dovuto reimpostare per riavviare di nuovo. Questo è successo di nuovo con il nuovo kernel.

Dettagli del sistema:

CPU-1700X Ryzen, No SMT, BIOS version- 3401 dated 12/08/2017 (AGESA 1071)
RAM 32 GB
AMD RX 470 GPU 
Lubuntu 16.04 LTS, LXDE with Openbox

Qualcuno può darmi una mano.

Aggiornamenti

L'applicazione che sto utilizzando non sta utilizzando gcc , g++ .

  1. % output di co_de% è qui .

  2. % output di co_de% è qui

  3. lspci è correlato al pacchetto dmesg | egrep 'drm|radeon' che ho rimosso. Il problema esiste ancora.

  4. L'output (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1) per la GPU AMD RX 470 è indicato di seguito

    glxinfo | grep -i open 
    OpenGL vendor string: X.Org
    OpenGL renderer string: Gallium 0.4 on AMD POLARIS10 (DRM 3.15.0 / 4.12.8-041208-generic, LLVM 4.0.0)
    OpenGL core profile version string: 4.5 (Core Profile) Mesa 17.0.7
    OpenGL core profile shading language version string: 4.50
    OpenGL core profile context flags: (none)
    OpenGL core profile profile mask: core profile
    OpenGL core profile extensions:
    OpenGL version string: 3.0 Mesa 17.0.7
    OpenGL shading language version string: 1.30
    OpenGL context flags: (none)
    OpenGL extensions:
    OpenGL ES profile version string: OpenGL ES 3.1 Mesa 17.0.7
    OpenGL ES profile shading language version string: OpenGL ES GLSL ES 3.10
    OpenGL ES profile extensions:
    
  5. Ho collegato solo un display a questo computer. Gli arresti anomali si verificano solo quando si eseguono attività intensive della CPU per lunghi periodi di tempo. (Lascio il sistema con il suo display spento, controllandolo, controllandolo da una connessione SSH. Dopo 5-6 ore circa, la connessione SSH diventa non disponibile. Dopo essere tornati alla macchina, lo spostamento del mouse e della tastiera non fa nulla per portare il display indietro. È necessario un hard reset.

  6. Per verificare se questo è dovuto alla GPU o meno, sono passato a nVidia GTX 1080 per cui ho installato il driver proprietario e ancora sotto il carico simile, il sistema si blocca. Sono tornato alla GPU AMD e lì il problema persiste. Escludo questo comportamento a causa del tipo di build della GPU. Per la scheda nVidia segue l'output sysstat ;

    OpenGL vendor string: NVIDIA Corporation
    OpenGL renderer string: GeForce GTX 1080/PCIe/SSE2
    OpenGL core profile version string: 4.5.0 NVIDIA 384.81
    OpenGL core profile shading language version string: 4.50 NVIDIA
    OpenGL core profile context flags: (none)
    OpenGL core profile profile mask: core profile
    OpenGL core profile extensions:
    OpenGL version string: 4.5.0 NVIDIA 384.81
    OpenGL shading language version string: 4.50 NVIDIA
    OpenGL context flags: (none)
    OpenGL profile mask: (none)
    OpenGL extensions:
    OpenGL ES profile version string: OpenGL ES 3.2 NVIDIA 384.81
    OpenGL ES profile shading language version string: OpenGL ES GLSL ES 3.20
    OpenGL ES profile extensions:
    
    1. Aggiornato il BIOS alla versione 3401 (12/08/2017, AGESA 1071) e il problema persiste.
posta ankit7540 19.08.2017 - 05:57

2 risposte

2

Ho avuto lo stesso problema ... Cosa ho fatto per risolvere questo problema:

Performance:

sudo cpufreq-set -r -g performance

Impostato all'avvio:

sudo apt-get install cpufrequtils
echo 'GOVERNOR="performance"' | sudo tee /etc/default/cpufrequtils
sudo systemctl disable ondemand
    
risposta data 05.10.2018 - 03:41
1

Ho avuto lo stesso problema di te. Ryzen 1800x

Ti suggerisco di:

Riattiva SMT: non è necessario disabilitarlo.

Torna al normale kernel corrente per Ubuntu 16.04 che è attualmente 4.4.0-93

Disabilita tutte le opzioni "Global C-State" nel BIOS. "

Disabilita anche l'opzione cool n quiet.

Aumentare la tensione del SoC a 1.1 per la stabilità, questo è raccomandato. Come affermato in questo video: link

Il consiglio sopra riportato è valido se stai stressando la CPU o se stai lavorando al minimo.

Scarica i driver AMD più recenti sul sito Web di AMD per la tua scheda. Puoi anche provare i driver open-source più recenti tramite: "Driver aggiuntivi" in "Software e aggiornamenti". Consiglio innanzitutto questa opzione.

Prima di fare quanto sopra, resetta il BIOS al valore predefinito e controlla se è disponibile una versione più recente.

    
risposta data User08721 13.09.2017 - 23:20

Leggi altre domande sui tag