Vorgestern machte ich ein Gentoo-Kernel Update von 2.6.12-gentoo-r10 auf 2.6.13-gentoo-r3 und auf einmal hing sich das System auf, aber auch nicht richtig, da außer der Tastatur so ziemlich alles lief. Ich warf einen Blick in die Logs und fand folgendes:
Oct 24 22:57:57 [kernel] Unable to handle kernel NULL pointer dereference at 0000000000000020 RIP:
Zuerst dachte ich mir: O.K., dann machste wieder den alten Kernel drauf und alles wird laufen… Leider war das nur ein Gedanke, denn der Fehler tratt auf einmal auch mit dem alten Kernel auf, obwohl ich ihn nicht neu kompiliert habe!?
Also begab ich mich auf die Suche, zuerst in den Gentoo Foren, dann im Web allgemein. Ich fand eine unheimliche Anzahl an Beiträgen, die die gleichen Symptome beschrieben und angeblich aus Problemen mit dem Kernel und dem nvidia-Treiber hervorgingen. Blindäugig versuchte ich also mein Bestes, probierte verschiedene Treiberversionen mit den beiden Kerneln aus und versuchte alle möglichen Kombinationen durchzutesten, leider ohne Erfolg. Als nächsten Schritt deaktivierte ich einfach den nvidia-Treiber und trug “nv” anstatt “nvidia” in die xorg.conf ein - auch dies verlief ohne positive Resultate. Dadurch wusste ich, dass es einfach nicht an der Grafikkarte liegen kann. Parallel dazu ließ ich noch einige Male MemTest86+ durchlaufen um zu sehen, dass der Speicher nicht kaputt ist, da solche Fehlermeldungen oft die Ursache für solch einen Defekt sind. Der Test lief mehrere Male durch, so dass ich mir sicher gehen konnte diese Fehlerquelle auch auszuschließen.
Anschließend recherchierte ich ein wenig nach der Funktion do_dbs_timer, da sie anscheinend die Ursache für den Kernelhänger war. Sofort fand ich heraus, dass die Funktion für das “CPU Frequency Scaling” verwendet wird, inklusive PowerNow! Also deaktivierte ich das Frequency Scaling in der local.start und alles läuft seitdem problemlos. Schade, dass ich PowerNow! nicht mehr verwenden kann, da heutige Prozessoren viel Strom verbrauchen und ich gerne Energie sparen würde. Die Frage, die sich mir stellt, ist, ob ich einen Bug posten soll oder ob es an meiner Kernelkonfiguration bzw. dem Prozessor liegt? Für jegliche Anregungen / Problemlösungen wäre ich dankbar.