Skocz do zawartości
c3rb3r

WHEA-Logger 18 /uszkodzone cpu czy mobo?

Rekomendowane odpowiedzi

Hej, dzisiaj podczas przeglądania yt komputer się zrestartował. Po restarcie w Event Viewerze zobaczyłem standardowy błąd krytyczny kernel-power 41. Natomiast moją uwagę przykuł zaraz potem WHEA-Logger 18. Z tego co się dowiedziałem na teraz, to jest to jakiś błąd sprzętowy. Ogólnie przez ostatni czas trawiły mnie kilka razy w tygodniu kernel-powery, ale odkąd w tamtym tygodniu wymieniłem zasilacz na corsaira rm750x wszystko było ok. Reszta sprzętu: b450 tomahawk (wersja biosu 1.E0), rtx 3070, ryzen 3600.
Teraz nie wiem co sprawdzać, ale pewnie zacznę od memtestu86. Proszę o wszelki porady, bo nie uśmiecha mi się odsyłać cpu i mobo do serwisu, kiedy nie jestem pewien co jest uszkodzone, a potrzebuję teraz komputera. Dodatkowo ten błąd był na tyle losowy, że nie wiem czy w serwisie go odtworzą. 

Wystąpił krytyczny błąd sprzętowy.

Zgłoszone przez składnik: rdzeń procesora
Źródło błędu: Machine Check Exception
Typ błędu: Cache Hierarchy Error
Identyfikator kontrolera APIC procesora: 12

- <Event xmlns="http://schemas.microsoft.com/win/2004/08/events/event">

- <System>

  <Provider Name="Microsoft-Windows-WHEA-Logger" Guid="{c26c4f3c-3f66-4e99-8f8a-39405cfed220}" />

  <EventID>18</EventID>

  <Version>0</Version>

  <Level>2</Level>

  <Task>0</Task>

  <Opcode>0</Opcode>

  <Keywords>0x8000000000000000</Keywords>

  <TimeCreated SystemTime="2021-05-04T13:16:01.4302442Z" />

  <EventRecordID>71818</EventRecordID>

  <Correlation ActivityID="{a1a4eeac-fe7c-4eff-86f5-d5e04bb27481}" />

  <Execution ProcessID="3480" ThreadID="4184" />

  <Channel>System</Channel>

  <Computer>DESKTOP-86A73JH</Computer>

  <Security UserID="S-1-5-19" />

  </System>

- <EventData>

  <Data Name="ErrorSource">3</Data>

  <Data Name="ApicId">12</Data>

  <Data Name="MCABank">5</Data>

  <Data Name="MciStat">0xbea0000000000108</Data>

  <Data Name="MciAddr">0x1f80668c7b72a</Data>

  <Data Name="MciMisc">0xd01a0ffe00000000</Data>

  <Data Name="ErrorType">9</Data>

  <Data Name="TransactionType">2</Data>

  <Data Name="Participation">256</Data>

  <Data Name="RequestType">0</Data>

  <Data Name="MemorIO">256</Data>

  <Data Name="MemHierarchyLvl">0</Data>

  <Data Name="Timeout">256</Data>

  <Data Name="OperationType">256</Data>

  <Data Name="Channel">256</Data>

  <Data Name="Length">936</Data>

  <Data Name="RawData">435045521002FFFFFFFF03000100000002000000A8030000390F0D00040515140000000000000000000000000000000000000000000000000000000000000000BDC407CF89B7184EB3C41F732CB57131FE6FF5E89C91C54CBA8865ABE14913BB4E16149DE740D70102000000000000000000000000000000000000000000000058010000C00000000003000001000000ADCC7698B447DB4BB65E16F193C4F3DB0000000000000000000000000000000001000000000000000000000000000000000000000000000018020000800000000003000000000000B0A03EDC44A19747B95B53FA242B6E1D0000000000000000000000000000000001000000000000000000000000000000000000000000000098020000100100000003000000000000011D1E8AF94257459C33565E5CC3F7E8000000000000000000000000000000000100000000000000000000000000000000000000000000007F010000000000000002010000000000100F87000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000C00000000000000000000000000000000000000000000000000000000000000000000000000000007000000000000000C00000000000000100F870000080C0C0B32D87EFFFB8B170000000000000000000000000000000000000000000000000000000000000000F50157A5EFE3DE43AC72249B573FAD2C03000000000000009F000206000000002AB7C76806F8010000000000000000000000000000000000000000000000000002000000020000008BD9769EE740D7010A0000000000000000000000000000000000000005000000080100000000A0BE2AB7C76806F8010000000000FE0F1AD0000000000C00000000000000B00005000000004D0000000079000000230000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000001B00000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000</Data>

  </EventData>

  </Event>

Edytowane przez c3rb3r

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

Prawdopodobnie procesor, ,,WHEA" zdażało się zarówno na amd 3000 i 5000. Wymiany na nowe sztuki rozwiazywało problemy. Zrób update biosu jezeli jest jeszcze jakis nowszy. Ale nie jestem pewien poczytaj o tym w necie.

Edytowane przez DaffyDuck

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

Wersję biosu mogę zaktualizować do jakieś bety, która wyszła pod koniec kwietnia, ale spróbuję jutro po kolokwium. Jakbym dzisiaj miał na nowo stawiać cały system z maszyną wirtualną, bo coś się zepsuje, to nie wiem czy bym się wyrobił.
Jak wygląda sprawa reklamacji procesorów amd (konkretnie ryzen 5 3600), jeżeli procesor zakupiłem w sklepie xtreem.pl, który swego czasu przestał istnieć? Najbliższy serwis amd z tego co znalazłem jest w Monachium, ale jak to wszystko powinienem załatwić?
Dziwi mnie podejrzewanie procesora o tyle, że grałem ostatnio w dużo gier, gdzie procek chodził dość długo na wysokim wykorzystaniu, wygrzewałem OCCT po zmianie psu i nic się nie działo. A nawet jeżeli faktycznie jest gdzieś w nim problem, to jest on na tyle losowy, że w serwisie również mogą go nie doświadczyć.

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

Wykonałem dzisiaj 4h test stabilności cpu w aidzie64 i nic się nie działo. Czy naprawdę procek może być uwalony, jeżeli radzi sobie bez problemu z 4h stress testem? O temperatury proszę się nie martwić, pasta i tak będzie w tym miesiącu  zmieniana, bo już trochę się od 2019 zasiedziała

stabilitytest.png

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

Samą pamięć RAM też przetestowałeś?

Jeśli to by była faktycznie wina CPU, to teoretycznie wywalałoby na testach typu cinebench czy geekbench, czy właśnie po testach stresu.


Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

Zrobiłem memtest i też wszystko przeszło bez żadnych problemów. Jakieś pomysły o co może w takim razie chodzić?memtest.thumb.png.d102ea8ec983d3614397d22e9e0b8ad0.png

Edytowane przez c3rb3r
formatowanie tekstu

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

Nie pozostało zatem nic innego, jak zaktualizować BIOS twojej płyty to najnowszego -nawet jeśli jest to beta. Ja mam tą płytę i używam beta biosów. Problemem może być złe podawanie napięć w stosunku do obciążenia procesora. Chodzi o to, że jeśli komp nie jest bardzo obciążony, napięcia mogą zachodzić zbyt nisko, co powoduje błędy. Podczas testów stresu podawane jest od razu maksymalne napięcie i dlatego nic te testy nie wykazują. Także zaktualizuj BIOS przynajmniej na następny po tym, który masz i jeśli problemy nadal nie ustąpią, spróbuj pobawić się różnymi planami zasilania w opcjach zasilania. Ustaw np tryb AMD wysoka wydajność.
Zainstaluj też najnowsze sterowniki chipsetu AMD.

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

Co do reszty sterowników, to raczej wszystko aktualizuję na bieżąco, bo nie lubię mieć żadnych zaległości, także nawet używam testowych wersji Windowsa, możliwe że jakaś beta gdzieś się wysypuje. Spróbuję zaktualizować bios i zobaczymy czy spotkam jeszcze jakiś problem. Co do planów zasilania to do tej pory właśnie cały czas używałem amd ryzen High Perfomance - spróbuję to pomodyfikować albo coś innego. 

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

Stabilność FCLK leży. Przyjrzyj się temu tematowi od nowa.

Najlepiej po prostu wyresetuj BIOS/UEFI do ustawień fabrycznych, nie aplikuj profilu XMP/D.O.C.P. na pamięciach i sprawdź stabilność poniższym benchmarkiem:

https://opendata.blender.org

Puść wszystkie testy, wszystkie sceny, oczywiście na procesorze, a nie na GPU. Jeżeli wyrzuci Ci błędy lub ostrzeżenia WHEA w dzienniku systemowym to masz procka do reklamacji. Test chwilę trwa i nieźle wygrzewa procka.

Jeżeli zaś wszystko będzie w porządku, ustaw profil XMP na pamięciach lub zapodaj z powrotem Twoje stabilne ustawienia i sprawdź raz jeszcze. Istnieje wielkie prawdopodobieństwo, że masz po prostu zbyt niskie napięcie na SoC. Wszystko zależy od tego jak masz ustawione pamięci.

...

Mógłbyś jeszcze zapodać screena z programu ZenTimings przy obecnych ustawieniach:

https://zentimings.protonrom.com

...

Aha, procesor zakupiony jako BOX możesz reklamować bezpośrednio u AMD. Nawet nie potrzebujesz dowodu zakupu jeżeli data produkcji widoczna na procesorze nie przekracza trzech lat.

Tyle ode mnie. Miłej zabawy i rozwiązania problemu :)

Życzę Ci powodzenia!

  • Upvote 2

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

Szczerze mówiąc, to wczoraj kiedy właśnie wykonywałem testy memtestem nie mogłem zmienić kolejności bootowania. Nawet po przerzuceniu dysku na ostatnie miejsce i zapisaniu dalej bootowało winde. Z tego względu zresetowałem bios wyjmując baterię i dopiero wtedy udało mi się zmusić komputer do włączenia z pendrive (włączyłem jedynie wirtualizację cpu i profil xmp, konkretnie 1. jeżeli ma to jakieś znaczenie). Potem po wykonaniu memtestów kiedy wróciłem już na w10 data dość długo nie chciała wrócić na aktualną i musiałem ręcznie wymusić synchronizację - może bateria na mobo już niedomaga? Zaraz spróbuję jeszcze raz zresetować bios do fabrycznych i zrobię tak jak mówisz, tzn. nie włączę xmp i zrobię te benchmarki. Do tej pory nie dotykałem kompletnie żadnych ustawień napięć czy czegokolwiek takiego, dlatego dziwi możliwe za niskie napięcie na cpu. Dołączam dodatkowo screen z zentimings przy obecnych ustawieniach, na których wykonałem memtesta

1963227729_aktualneustawienia.png.3d9ed60f54302085fcad0863b3adc189.png645028759_aktualneustawieniaB2.png.a5a3ce67bbcbb6808c6ce89696d346d3.png

Edytowane przez c3rb3r
dodanie informacji o braku aktualnej daty po powrocie na w10

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

Zrobiłem Blender Benchmark bez włączonego profilu XMP. Wcale nie wygrzał specjalnie jakoś cpu, bo max miałem coś koło 73°C, a przy OCCT potrafiło być przy granicy 85-90°C
Cały test przebiegł bez problemu, załączam wyniki image.thumb.png.4cdddbb1a6afd823ef9a69dd61f3ca82.png

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

Czy pojawiły się żółte błędy WHEA (ostrzeżenia) w dzienniku systemowym po przejściu Blendera?

Jeżeli nie, to masz wszystko jak najbardziej w porządku. Napięcia są w normie i wszystko powinno działać poprawnie.

Jeżeli jednak pojawiłby się znów błąd WHEA, to możesz delikatnie zwiększyć napięcie na SoC (VSOC -SVI2) do 1,1000V lub nawet 1,1250V i spróbować ponownie. Mowa o domyślnym ustawieniu z włączonym XMP.

...

Wyciągając baterię wyresetowałeś datę i godzinę. To naturalne. No i jeżeli nie ustawiłeś jej ręcznie w BIOSie/UEFI, to Windows mógł mieć z tym problem. Dobrze sobie poradziłeś z tym problemem. Tutaj wszystko jest ok.

...

Reszta napięć oraz ustawień pamięci jest w porządku jak na XMP. Niczego bym nie ruszał.

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

W dniu 7.05.2021 o 18:26, c3rb3r napisał:

Zrobiłem Blender Benchmark bez włączonego profilu XMP. Wcale nie wygrzał specjalnie jakoś cpu, bo max miałem coś koło 73°C, a przy OCCT potrafiło być przy granicy 85-90°C
Cały test przebiegł bez problemu, załączam wyniki image.thumb.png.4cdddbb1a6afd823ef9a69dd61f3ca82.png

Udało Ci się naprawić problem? Mam dokładnie to samo. Komputer resetuje się samoczynnoie w przypadkowych momentach. Ten Sam procek, ta sama mobo....

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

16 godzin temu, c3rb3r napisał:

Wydaje mi się, że błąd zanikł. Pomogła zmiana zasilacza na corsaira rm750x i format systemu. Na pewno masz wystarczający/sprawny zasilacz?

Mam juz wymienioną kartę, i zasilacz. komputer czasem wcale się nie wyłącza, a są dni kiedy wyłącza się w idle cały czas. Testy sprawnosci (blender, pi. occT, wszystkie przechodzi...)

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

mam ten sam problem. AMD Radeon RX 6650 XT, AMD Ryzen 5 5600 6-Cores. Komputer złożony blisko rok temu. Przeważnie działa bez zarzutu ale raz na miesiąc czy dwa zdarza się dzień, kiedy przy włączaniu jakiegokolwiek tytułu gamingowego (CS2, BF1, LOL) komputer się resetuje. Wszystkie sterowniki zaktualizowane, włącznie z systemem windows. Podgląd zdarzeń wypluwa dwa komunikaty:

1#
Nie można uruchomić usługi AMDRyzenMasterDriverV22 z powodu następującego błędu: 
Nie można odnaleźć określonego pliku.

2#
Wystąpił krytyczny błąd sprzętowy.

Zgłoszone przez składnik: rdzeń procesora
Źródło błędu: Machine Check Exception
Typ błędu: Cache Hierarchy Error
Identyfikator kontrolera APIC procesora: 10

Wszystkie podzespoły kupowane w x-komie. Zwracać coś na gwarancję czy co robić? :(

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

16 godzin temu, silnasmax napisał(a):

mam ten sam problem. AMD Radeon RX 6650 XT, AMD Ryzen 5 5600 6-Cores. Komputer złożony blisko rok temu. Przeważnie działa bez zarzutu ale raz na miesiąc czy dwa zdarza się dzień, kiedy przy włączaniu jakiegokolwiek tytułu gamingowego (CS2, BF1, LOL) komputer się resetuje. Wszystkie sterowniki zaktualizowane, włącznie z systemem windows. Podgląd zdarzeń wypluwa dwa komunikaty:

1#
Nie można uruchomić usługi AMDRyzenMasterDriverV22 z powodu następującego błędu: 
Nie można odnaleźć określonego pliku.

2#
Wystąpił krytyczny błąd sprzętowy.

Zgłoszone przez składnik: rdzeń procesora
Źródło błędu: Machine Check Exception
Typ błędu: Cache Hierarchy Error
Identyfikator kontrolera APIC procesora: 10

Wszystkie podzespoły kupowane w x-komie. Zwracać coś na gwarancję czy co robić? 😞

#1 się nie przejmuj, to normalne przy Adrenalin Software - on oferuje OC procka, ale wymaga do tego AMDRyzenMasterDriverV22 - domyślnie program tylko sprawdza czy jest obecny. 

WHEA ERROR Logger 18 to przeważnie błąd niestabilności OC - RAM lub CPU. Wyskakuje jeśli np. ustawienia PBO, Curve Optimizer, timingi, napięcia na RAM są niestabilne. 

Najprostsza droga dedukcji - zresetować BIOS do domyślnych ustawień, sprawdzić stabilność, jak nic nie wywali, wejść w bios aktywować XMP, sprawdzić stabilność, jak nic nie wywali kontynuować wprowadzać zmiany aż się wywali - wtedy znajdujemy niewłaściwe ustawienie.

Aktualizacje sterowników chipsetu, GPU, aktualizacje Windows wprowadzają zmiany, które w danej chwili mogą wywołać większe wymagania odnośnie procka lub pamięci - dlatego nauczyłem się, że żadne OC nie jest stabilne na zawsze. 

Edytowane przez vlad_8011

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

Dołącz do dyskusji

Możesz dodać zawartość już teraz a zarejestrować się później. Jeśli posiadasz już konto, zaloguj się aby dodać zawartość za jego pomocą.

Gość
Dodaj odpowiedź do tematu...

×   Wklejono zawartość z formatowaniem.   Przywróć formatowanie

  Dozwolonych jest tylko 75 emoji.

×   Odnośnik został automatycznie osadzony.   Przywróć wyświetlanie jako odnośnik

×   Przywrócono poprzednią zawartość.   Wyczyść edytor

×   Nie możesz bezpośrednio wkleić grafiki. Dodaj lub załącz grafiki z adresu URL.

Ładowanie


×
×
  • Dodaj nową pozycję...