TweakPC



AMD Athlon 600 MHz

Hardware/CPUs

Testindex: Einleitung Die Technik Benchmarks Overclocking Fazit

The next Generationhlineb.gif (44 Byte)

Der Athlon Prozessor ist ein Prozessor der siebten Generation und dem PIII daher auch eine Generation voraus. Ganze 22 Millionen Transitoren verrichten im Athlon ihre Arbeit. Zum Vergleich, beim PIII sind es gerade mal 9,5 Millionen. Auf dem Bild unten kann man sehr schön den schematischen Aufbau der CPU sehen. In dem Prozessor können bis zu 9 Funktionseinheiten (rot) parallel arbeiten. Da sind zum einen drei Integer Einheiten (Integer Execution Unit, IEU) und die drei Adressberechnungseinheiten (Adress Generetion Unit, AGU) sowie auf der anderen Seite die 3 Einheiten der FPU mit Namen FSTORE, FADD und FMUL.

Damit der Athlon Prozessor seine drei IEUs auch richtig ausnutzen kann, ist der Instruction Decoder in der Lage pro Takt drei x86-Befehle zu dekodieren. Dekodieren bedeutet dabei, daß der Prozessor die x86-Befehle in sogenannte ROPs umwandelt. ROPs sind einfache, RISC ähnlich Befehle, die der Prozessor direkt verarbeiten kann, also sozusagen "Befehlsatome". Ein vierter Decoder wandelt zusätzlich komplexe Befehle über ein Microcode ROM in mehere ROPs um. Die ROPs werden dann in der Instruction Control Unit zwischengespeichert bevor sie verarbeitet werden, wobei bis zu 72 Stück in der Instruction Control Unit zwischengelagert werden.

Im Pentium III läuft das prinzipiell genauso ab, dieser verfügt aber nur über zwei parallel arbeitende Decoder. Der dritte Decoder ist, wie beim Athlon der vierte, ein langsamerer Microcode Interpreter. Außerdem kann der PIII nur 20 Basisbefehle zwischenspeichern. Der PIII verfügt auch nur über zwei IEU Ports, von denen einer zusätzlich noch mit einer Menge anderer Aufgaben belastet wird. Dort finden sich nämlich noch die FPU Einheiten, die beim Athlon-Design abgekoppelt sind.

Damit die Einheiten der CPU möglichst gut parallel arbeiten, wandern die Befehle durch sogenannte Pipelines. Dabei ist vor allem die Länge der Pipeline wichtig, denn eine zu lange Pipeline kann bei Sprungbefehlen im Programmecode können zu langen Wartezeiten, da die Pipline erst wieder mit neuen Befehlen "bestückt" werden muß. Um dieses Problem zu umgehen muß man also eine möglichst gute Sprungvorhersage treffen. Wenn man schon vorher ziemlich genau weiß, wo es weitergeht, kann die Pipeline auch höchstwarscheinlich richtig gefüllt werden.

Auch bei eben dieser Sprungvorhersage steckt der Athlon den PIII in die Tasche. Er verwalten dazu nämlich in seiner Branch Prediction Table zwei Buffer. In dem einen Buffer werden die Zieladressen und in dem anderen das Sprungverhalten gespeichert. Die beiden Buffer können 2048 bzw 4096 Einträge speichern. Die Vorhersageeinheit soll damit in 95% aller Fälle richtig liegen. Die Vorhersageeinheit der PIII arbeitet lediglich mit einem 512 Einträge großen Buffer, der die Zieladressen verwaltet. Bedenkt man nun, daß die Pipelines beim PIII länger sind als die des Athlon - also auch der Aufwand bei Fehlvorhersagen größer ist -, so kann man sich vorstellen, daß der Athlon in diesem Bereich optimaler arbeitet.

Der Athlon besitzt noch keine Prozessorseriennummer, wie sie der Intel Pentium III hat. Das heißt aber nicht, das AMD nicht an ein solches "Feature" gedacht hat. Um den Sicherheitsdiskussionen aus dem Weg zu gehen, will man bei AMD folgenden Weg einschlagen: Es soll Versionen mit und ohne Prozessorseriennummer geben, so daß sich jeder die CPU auswählen kann, die er wünscht. Also dort, wo Sicherheit gefragt ist, mit Seriennummer und zu Hause, im privaten Bereich, ohne. Dabei wird die Seriennummer nicht einfach ausgeschaltet, sondern sie wird von der Hardwareseite aus nicht im Prozessor integriert.

Man sieht also recht deutlich, daß der Athlon eine stark verbesserte und durchdachte Architektur aufweist. Es ist eben ein Prozessor einer neuen Generation. Ein Vergleich zum PIII ist also in der Tat - wie AMD so gerne betont - ein wenig unfair. Richtig interessant wird es also, wenn der erste Intel Prozessor der siebten Generation an die Tür klopft.

Flexibler Cache
hlineb.gif (44 Byte)

Vergleicht man die rein technischen Daten des Athlon mit denen des Pentium III Prozessors, so fällt schon als erstes auf, daß der Athlon von seinen Erbauern mit einem größeren Cache gesegnet wurde. Der L1-Cache des Athlon ist zwei mal 64 KByte groß, was - nebenbei bemerkt - der Speicherkapazität von zwei Commodore C64 entspricht :). Der L1-Cache des Pentium ist nur 1/4 so groß, nämlich 2 mal 16 KByte.

Beim L2 Cache findet man zur Zeit noch keine Unterschiede. Der L2 Cache befindet sich genau wie beim PIII extern auf dem Prozessormodul, ist 512KByte groß und wird mit halbem Prozessortakt betrieben. AMD hat in seiner Roadmap aber bereits einen gesockelten Athlon in Planung, der den L2 Cache (wie der K6-III) auf dem Die (Prozessorkern) haben wird. Dafür wird es allerdings wieder einen neuen Sockel mit dem EV6 Busprotokol geben.

In Zukunft wird sich beim Athlon in Sachen Cache aber einiges tun. Der Cache-Controller ist beim PIII Prozessor in einem separaten Chip auf dem Modul untergebracht. Dies ist beim Athlon anders, hier befindet sich der Cache-Controller mit auf dem Die. Der Controller ist zudem äußerst anpassungsfähig, denn er erlaubt Taktraten von 1:1, 1:2, 2:3 und 1:3. Außerdem kann er Cachegrößen von 512 Kbyte bis zu 8 Megabyte verwalten. Der Cache wird dabei über einen 72 Bit Bus angesteuert in dem 8 Bit für Fehlerkorrektur benutzt werden.

Die Möglichkeit, den Prozessor mit verschiedenen Cachegrößen und mit verschiedenen Taktraten zu bestücken wird uns in Zukunft sicher verschiedene Athlon Modelle bescheren, die aber alle den gleichen Prozessorkern besitzen werden. Zum einen werden das Athlon-Prozessoren mit kleinem, schnellen Cache und zum anderen solche mit großem, langsameren Cache für den Serverbetrieb sein. Letztere Prozessoren werden direkte Konkurrenten zu Intels Xeon Prozessor und vermutlich auch genauso teuer sein Wahrscheinlich werden diese Prozessoren mit kleinen Namen Add-Ons versehen. Wie wäre es zum Beispiel mit Athlon Ultra oder Athlon Pro?

Wer hat die beste FPU
hlineb.gif (44 Byte)

Das schwarze Schaf bei AMD Prozessoren war bisher immer die FPU (Floating Point Uit = Fließkommaeinheit). Währen die Intergerleistung einige Male die der Intel-Prozessoren hinter sich ließ, mußte AMD bei der FPU immer zurückstecken. Auch dies hat sich nun geändert. Im Athlon Prozessor sind (wie im obigen Schema schön zu sehen) drei Einheiten für FPU, MMX oder 3DNow! zuständig. Eine davon ist für das Abspeichern zuständig (FStore), die zweite erledigt normale FPU Operationen (FADD) und die dritte ist für die Multiplikationen (FMUL) zuständig.

Die FPU ist beim Athlon jetzt auch wie beim PII/III "fully Pipelined", was bedeutet, daß er bereits nach einem Takt mit der Bearbeitung des nächsten FPU Befehls beginnen kann. Der PII Prozessor war vor allem aus diesem Grund dem K6 III in der FPU Leistung überlegen, denn der K6 III hat keine Pipeline für den FPU Betrieb. Die bessere Leistung der FPU beim Athlon hat aber noch andere Gründe. Die FPU des Athlon ist einfach leistungsfähiger, und zwar um ca. 50%. AMD hat nämlich schlicht und ergreifend die Rechenzeiten in der FPU optimiert.

Auch bei MMX und 3DNow! hat AMD noch einmal in Vergleich zum K6-III zugelegt. Der Athlon hat nun denselben MMX Befehlssatz wie der PIII besitzt, indem er mit 19 zusätzlichen Befehlen bestückt wurde. Aber auch die 3D-Now-Instruktionen wurden von 21 auf 26 Stück erhöht. Man muß also sagen, daß AMD in Sachen FPU mächtig zugelegt und jetzt die Nase vorn hat. Hoffen wir, daß die Software auch rege Gebrauch davon machen wird. Die Erweiterungen 3DNow! und ISSE sind nun in etwa gleichwertig und, so wie es aussieht, auch genauso gut unterstützt.

Der Athlon unterscheidet sich aber nicht nur vom inneren Aufbau her vom Pentium III, sondern auch in der Verbindung zur "Außenwelt"

Alle Mann an den Bushlineb.gif (44 Byte)

Wenn man den Athlon Prozessor in der Hand hält könnte man schnell in Versuchung kommen, diesen in ein Slot 1 Motherboard zu stecken. Leider hat man da, wie bereits erwähnt, keine Chance. Der von AMD verwendete Slot A ist zwar rein mechanisch gesehen zum Slot 1 kompatibel, aber das von AMD verwendete Busprotokoll ist grundverschieden.

Beim Bus hat sich AMD nämlich dazu entschlossen das Rad nicht zweimal zu erfinden und deshalb das EV6-Busprotokol von Digital lizensiert, das beim Alpha 21264 Prozessor eingesetzt wird. Dieser Bus arbeitet mit 100MHz auf beiden Seiten der Taktflanke bei 64 Bit, also praktisch mit 200MHz. Damit besitzt er eine maximale Transferrate von 1,6 GByte/s und ist damit doppelt so schnell wie der von Intel beim Slot 1 verwendete GTL+ Bus. Bedenkt man, daß über diesen Bus auch DRAM (100MHz), AGP (66MHZ) und PCI (33MHz) bedient werden und addiert diese Werte, so kommt man hier auch auf insgesamt 200MHz (im unteren Bild sehr gut zu sehen). Der Bus könnte also theoretisch alle drei Einheiten mit voller Taktrate ansteuern. Später soll dieser Bus bei AMD übrigens auch mit 133 MHz und letztendlich sogar mit 200MHz betrieben werden (auf beiden Seiten der Taktflanke), was vor allem bei AGP 4x zum Tragen kommen könnte. Damit sind dann Transferraten von 3.2 Gbyte/s möglich.

schema2_300.jpg (14972 Byte)Der wohl größte Unterschied zwischen dem EV6 und dem PIII-Busprotokol tritt beim Multiprozessorbetrieb zum Vorschein. Das EV6 Protokoll basiert nämlich auf einer Point to Point Verbindung. Dabei verfügt jeder Prozessor praktisch über seinen eigenen Bus, er besitzt sozusagen seine "eigene Straße" zum System.

Dies hat auf der einen Seite den Vorteil, daß ein Prozessor sich die Bandbreite nicht mit den anderen Prozessoren teilen muß, wie das beim Penitium II/III mit zwei Prozessoren oder beim Xeon sogar mit bis zu vier Stück der Fall ist.

Auf der anderen Seite wird dadurch das gesamte Boarddesign erheblich aufwendiger. Zum Glück hat auch hier Digital schon einiges an "Vorarbeit" geleistet und einen Dualprozessor Chipsatz names Tsunami entwickelt. AMD kann also auch hier auf eine solide Gundlage zurückgreifen. Ein solches Board dürfte allerdings seinen Preis haben. Bisher gibt es noch keinen Chipsatz für ein vier Prozessor System, wie es zum Beipspiel für den Xeon zur Verfügung steht. Das Problem ist dabei gar nicht die Theorie, das EV6 Busprotokol selbst kann theoretisch bis zu 14 Prozessoren unterstützen, sondern die Praxis. Der Aufwand ein Athlon System mit so vielen Prozessoren zu entwicklen ist so groß, daß es einfach viel zu teuer würde. Selbst ein System mit 4 Prozessoren würde wahrscheinlich im Vergleich zur Leistungssteigerung deutlich zu viel kosten.

Aber nun genug der grauen Theorie. Wie verhält sich der AMD in der Praxis? Kann der Athlon seinen Technikvorsprung auch bei den Benchmarks unter Beweis stellen?

Nächste Seite

ueber TweakPC: Impressum, Datenschutz Copyright 1999-2024 TweakPC, Alle Rechte vorbehalten, all rights reserved. Mit * gekennzeichnete Links sind Affiliates.