AMD Athlon 600 MHz |
Hardware/CPUs |
|
|
|
The next Generation
Der Athlon Prozessor ist ein Prozessor der
siebten Generation und dem PIII daher auch eine Generation voraus. Ganze 22 Millionen
Transitoren verrichten im Athlon ihre Arbeit. Zum Vergleich, beim PIII sind es gerade mal
9,5 Millionen. Auf dem Bild unten kann man sehr schön den schematischen Aufbau der CPU
sehen. In dem Prozessor können bis zu 9 Funktionseinheiten (rot) parallel arbeiten. Da
sind zum einen drei Integer Einheiten (Integer Execution Unit, IEU) und die drei
Adressberechnungseinheiten (Adress Generetion Unit, AGU) sowie auf der anderen Seite die 3
Einheiten der FPU mit Namen FSTORE, FADD und FMUL.
Damit der Athlon Prozessor seine drei IEUs auch richtig ausnutzen kann, ist
der Instruction Decoder in der Lage pro Takt drei x86-Befehle zu dekodieren. Dekodieren
bedeutet dabei, daß der Prozessor die x86-Befehle in sogenannte ROPs umwandelt. ROPs sind
einfache, RISC ähnlich Befehle, die der Prozessor direkt verarbeiten kann, also sozusagen
"Befehlsatome". Ein vierter Decoder wandelt zusätzlich komplexe Befehle über
ein Microcode ROM in mehere ROPs um. Die ROPs werden dann in der Instruction Control Unit
zwischengespeichert bevor sie verarbeitet werden, wobei bis zu 72 Stück in der
Instruction Control Unit zwischengelagert werden.
Im Pentium III läuft das prinzipiell genauso
ab, dieser verfügt aber nur über zwei parallel arbeitende Decoder. Der dritte Decoder
ist, wie beim Athlon der vierte, ein langsamerer Microcode Interpreter. Außerdem kann der
PIII nur 20 Basisbefehle zwischenspeichern. Der PIII verfügt auch nur über zwei IEU
Ports, von denen einer zusätzlich noch mit einer Menge anderer Aufgaben belastet wird.
Dort finden sich nämlich noch die FPU Einheiten, die beim Athlon-Design abgekoppelt sind.
Damit die Einheiten der CPU möglichst gut
parallel arbeiten, wandern die Befehle durch sogenannte Pipelines. Dabei ist vor allem die
Länge der Pipeline wichtig, denn eine zu lange Pipeline kann bei Sprungbefehlen im
Programmecode können zu langen Wartezeiten, da die Pipline erst wieder mit neuen Befehlen
"bestückt" werden muß. Um dieses Problem zu umgehen muß man also eine
möglichst gute Sprungvorhersage treffen. Wenn man schon vorher ziemlich genau weiß, wo
es weitergeht, kann die Pipeline auch höchstwarscheinlich richtig gefüllt werden.
Auch bei eben dieser Sprungvorhersage steckt der
Athlon den PIII in die Tasche. Er verwalten dazu nämlich in seiner Branch Prediction
Table zwei Buffer. In dem einen Buffer werden die Zieladressen und in dem anderen das
Sprungverhalten gespeichert. Die beiden Buffer können 2048 bzw 4096 Einträge speichern.
Die Vorhersageeinheit soll damit in 95% aller Fälle richtig liegen. Die Vorhersageeinheit
der PIII arbeitet lediglich mit einem 512 Einträge großen Buffer, der die Zieladressen
verwaltet. Bedenkt man nun, daß die Pipelines beim PIII länger sind als die des Athlon -
also auch der Aufwand bei Fehlvorhersagen größer ist -, so kann man sich vorstellen,
daß der Athlon in diesem Bereich optimaler arbeitet.
Der Athlon besitzt noch keine
Prozessorseriennummer, wie sie der Intel Pentium III hat. Das heißt aber nicht, das AMD
nicht an ein solches "Feature" gedacht hat. Um den Sicherheitsdiskussionen aus
dem Weg zu gehen, will man bei AMD folgenden Weg einschlagen: Es soll Versionen mit und
ohne Prozessorseriennummer geben, so daß sich jeder die CPU auswählen kann, die er
wünscht. Also dort, wo Sicherheit gefragt ist, mit Seriennummer und zu Hause, im privaten
Bereich, ohne. Dabei wird die Seriennummer nicht einfach ausgeschaltet, sondern sie wird
von der Hardwareseite aus nicht im Prozessor integriert.
Man sieht also recht deutlich, daß der Athlon
eine stark verbesserte und durchdachte Architektur aufweist. Es ist eben ein Prozessor
einer neuen Generation. Ein Vergleich zum PIII ist also in der Tat - wie AMD so gerne
betont - ein wenig unfair. Richtig interessant wird es also, wenn der erste Intel
Prozessor der siebten Generation an die Tür klopft.
Flexibler Cache
Vergleicht man die rein technischen Daten des
Athlon mit denen des Pentium III Prozessors, so fällt schon als erstes auf, daß der
Athlon von seinen Erbauern mit einem größeren Cache gesegnet wurde. Der L1-Cache des
Athlon ist zwei mal 64 KByte groß, was - nebenbei bemerkt - der Speicherkapazität von
zwei Commodore C64 entspricht :). Der L1-Cache des Pentium ist nur 1/4 so groß, nämlich
2 mal 16 KByte.
Beim L2 Cache findet man zur Zeit noch keine
Unterschiede. Der L2 Cache befindet sich genau wie beim PIII extern auf dem
Prozessormodul, ist 512KByte groß und wird mit halbem Prozessortakt betrieben. AMD hat in
seiner Roadmap aber bereits einen gesockelten Athlon in Planung, der den L2 Cache (wie der
K6-III) auf dem Die (Prozessorkern) haben wird. Dafür wird es allerdings wieder einen
neuen Sockel mit dem EV6 Busprotokol geben.
In Zukunft wird sich beim Athlon in Sachen Cache
aber einiges tun. Der Cache-Controller ist beim PIII Prozessor in einem separaten Chip auf
dem Modul untergebracht. Dies ist beim Athlon anders, hier befindet sich der
Cache-Controller mit auf dem Die. Der Controller ist zudem äußerst anpassungsfähig,
denn er erlaubt Taktraten von 1:1, 1:2, 2:3 und 1:3. Außerdem kann er Cachegrößen von
512 Kbyte bis zu 8 Megabyte verwalten. Der Cache wird dabei über einen 72 Bit Bus
angesteuert in dem 8 Bit für Fehlerkorrektur benutzt werden.
Die Möglichkeit, den Prozessor mit
verschiedenen Cachegrößen und mit verschiedenen Taktraten zu bestücken wird uns in
Zukunft sicher verschiedene Athlon Modelle bescheren, die aber alle den gleichen
Prozessorkern besitzen werden. Zum einen werden das Athlon-Prozessoren mit kleinem,
schnellen Cache und zum anderen solche mit großem, langsameren Cache für den
Serverbetrieb sein. Letztere Prozessoren werden direkte Konkurrenten zu Intels Xeon
Prozessor und vermutlich auch genauso teuer sein Wahrscheinlich werden diese Prozessoren
mit kleinen Namen Add-Ons versehen. Wie wäre es zum Beispiel mit Athlon Ultra oder Athlon
Pro?
Wer hat die beste
FPU
Das schwarze Schaf bei AMD Prozessoren war
bisher immer die FPU (Floating Point Uit = Fließkommaeinheit). Währen die
Intergerleistung einige Male die der Intel-Prozessoren hinter sich ließ, mußte AMD bei
der FPU immer zurückstecken. Auch dies hat sich nun geändert. Im Athlon Prozessor
sind (wie im obigen Schema schön zu sehen) drei Einheiten für FPU, MMX oder 3DNow!
zuständig. Eine davon ist für das Abspeichern zuständig (FStore), die zweite erledigt
normale FPU Operationen (FADD) und die dritte ist für die Multiplikationen (FMUL)
zuständig.
Die FPU ist beim Athlon jetzt auch wie beim
PII/III "fully Pipelined", was bedeutet, daß er bereits nach einem Takt mit der
Bearbeitung des nächsten FPU Befehls beginnen kann. Der PII Prozessor war vor allem aus
diesem Grund dem K6 III in der FPU Leistung überlegen, denn der K6 III hat keine Pipeline
für den FPU Betrieb. Die bessere Leistung der FPU beim Athlon hat aber noch andere
Gründe. Die FPU des Athlon ist einfach leistungsfähiger, und zwar um ca. 50%. AMD
hat nämlich schlicht und ergreifend die Rechenzeiten in der FPU optimiert.
Auch bei MMX und 3DNow! hat AMD noch einmal
in Vergleich zum K6-III zugelegt. Der Athlon hat nun denselben MMX Befehlssatz wie der
PIII besitzt, indem er mit 19 zusätzlichen Befehlen bestückt wurde. Aber auch die
3D-Now-Instruktionen wurden von 21 auf 26 Stück erhöht. Man muß also sagen, daß AMD in
Sachen FPU mächtig zugelegt und jetzt die Nase vorn hat. Hoffen wir, daß die Software
auch rege Gebrauch davon machen wird. Die Erweiterungen 3DNow! und ISSE sind nun in etwa
gleichwertig und, so wie es aussieht, auch genauso gut unterstützt.
Der Athlon unterscheidet sich aber nicht nur vom
inneren Aufbau her vom Pentium III, sondern auch in der Verbindung zur
"Außenwelt"
Alle Mann an den Bus
Wenn man den Athlon Prozessor in der Hand hält
könnte man schnell in Versuchung kommen, diesen in ein Slot 1 Motherboard zu stecken.
Leider hat man da, wie bereits erwähnt, keine Chance. Der von AMD verwendete Slot A ist
zwar rein mechanisch gesehen zum Slot 1 kompatibel, aber das von AMD verwendete
Busprotokoll ist grundverschieden.
Beim Bus hat sich AMD nämlich dazu entschlossen
das Rad nicht zweimal zu erfinden und deshalb das EV6-Busprotokol von Digital lizensiert,
das beim Alpha 21264 Prozessor eingesetzt wird. Dieser Bus arbeitet mit 100MHz auf
beiden Seiten der Taktflanke bei 64 Bit, also praktisch mit 200MHz. Damit besitzt er eine
maximale Transferrate von 1,6 GByte/s und ist damit doppelt so schnell wie der von Intel
beim Slot 1 verwendete GTL+ Bus. Bedenkt man, daß über diesen Bus auch DRAM (100MHz),
AGP (66MHZ) und PCI (33MHz) bedient werden und addiert diese Werte, so kommt man hier auch
auf insgesamt 200MHz (im unteren Bild sehr gut zu sehen). Der Bus könnte also theoretisch
alle drei Einheiten mit voller Taktrate ansteuern. Später soll dieser Bus bei AMD
übrigens auch mit 133 MHz und letztendlich sogar mit 200MHz betrieben werden (auf beiden
Seiten der Taktflanke), was vor allem bei AGP 4x zum Tragen kommen könnte. Damit sind
dann Transferraten von 3.2 Gbyte/s möglich.
Der wohl größte Unterschied zwischen
dem EV6 und dem PIII-Busprotokol tritt beim Multiprozessorbetrieb zum Vorschein. Das EV6
Protokoll basiert nämlich auf einer Point to Point Verbindung. Dabei verfügt jeder
Prozessor praktisch über seinen eigenen Bus, er besitzt sozusagen seine "eigene
Straße" zum System.
Dies hat auf der einen Seite den Vorteil, daß
ein Prozessor sich die Bandbreite nicht mit den anderen Prozessoren teilen muß, wie
das beim Penitium II/III mit zwei Prozessoren oder beim Xeon sogar mit bis zu vier Stück
der Fall ist.
Auf der anderen Seite wird dadurch das gesamte
Boarddesign erheblich aufwendiger. Zum Glück hat auch hier Digital schon einiges an
"Vorarbeit" geleistet und einen Dualprozessor Chipsatz names Tsunami entwickelt.
AMD kann also auch hier auf eine solide Gundlage zurückgreifen. Ein solches Board dürfte
allerdings seinen Preis haben. Bisher gibt es noch keinen Chipsatz für ein vier Prozessor
System, wie es zum Beipspiel für den Xeon zur Verfügung steht. Das Problem ist dabei gar
nicht die Theorie, das EV6 Busprotokol selbst kann theoretisch bis zu 14 Prozessoren
unterstützen, sondern die Praxis. Der Aufwand ein Athlon System mit so vielen Prozessoren
zu entwicklen ist so groß, daß es einfach viel zu teuer würde. Selbst ein System mit 4
Prozessoren würde wahrscheinlich im Vergleich zur Leistungssteigerung deutlich zu viel
kosten.
Aber nun genug der grauen Theorie. Wie verhält
sich der AMD in der Praxis? Kann der Athlon seinen Technikvorsprung auch bei den
Benchmarks unter Beweis stellen?
Nächste
Seite
|