Mortimer
Intel Pentium III FC-PGA Coppermine 500 és 500 MHz
Az elmúlt hat-hét év folyamán a CPU-k órajele minden évben megduplázódott. Ez a fejlődés gyorsabb volt, mint bárki gondolta volna, és főként a processzorpiacon tapasztalható erős versennyel magyarázható. A vesztesek nem csak a vásárlók, akiknek villámgyorsan amortizálódnak rendszereik, hanem a cégek is, mivel jóval hosszabb ideig tart kifejleszteni egy terméket, mint az a piacon megállná a helyét. Az új processzormegjelenésekről való tudósítás rutinná vált, de a fő problémákat nem oldották meg a fejlesztők. A lapka méretének csökkentésével rövidebbé vált a jelek útja, rövidebb ideig mennek egyik pontból a másikba. Emelett kisebb feszültséget igényelnek, hidegebbek maradnak, de ez sem elég a gyorsabb chipek kisebb felületén történő nagyobb hőtermelődés problémájának megoldására.
A fejlesztés során az órajelnövelés mellett a bonyolultság foka, a működés hatékonysága is nőtt. Jó példa erre a cache; külső modulok helyett közvetlenül a magba helyezték. Legjobb példa az Intel Celeronja vagy az AMD K6-III-ban lévő integrált L2-es memória. A meleg sziliciumlapkára újabb réteget helyezve ismét csökkentek a hőelvezetés lehetőségei.
Mindenki tudja, hogy napjaink CPU-inak tetején hőelnyelő és ventillátor van, csak ezekkel tud a rendszer stabilan müködni. Nyilvánvaló, hogy a chip maga alul van, socket foglalat esetén az alaplap mellett. Ebből következően triviális, hogy a hűtés optimizálható az alaplap és a chip közötti forró levegő elszívásával. Jópár embertársunk megpróbálkozott vele, nem sok sikerrel. De miért nem fordítjuk meg a CPU-t a tetejére, hogy az alsó, meleg része legyen felül a ventillátor közelében? Ez az - egyszerűen nagyszerű - megoldás a Flip Chip (FC) nevet kapta.
nyitott mérnöki minta, az Intel hozzájárulásával

Általános felépítés
Sebbességfokozatok: 500 és 550 Mhz
Külső CPU frekvencia (FSB): 100 Mhz
0.18 µm-os gyártási eljárás
106mm2-es lapkaméret
28 millió tranzisztor
Voltbeállítások: 1.1V-1.7V
Lapkán lévő 256 Kb méretű teljes sebességű cache (Advanced Transfer Cache, ATC) rendszerbuffereléssel (Advanced System Buffering), ezt a chipen "E" betűvel jelölik
32 Kb (16 Kb adat/16 kb utasítás) nem blokkoló elsőszintű cache P6 dinamikus végrehajtású (Dynamic Execution) felépítés többszörös elágazáselőrejelzéssel, adatforgalmi analízissel és spekulatív végrehajtással (a chip megpróbálja előrejelezni a soron következő utasításokat)
Internet Streaming SIMD bővítés 70 új utasítással a fejlettebb ábrázolások, 3D hatások, folyamatos audió-, videólejátszás és szövegértés érdekében
MMX utasításkészlet a multimédia alkalmazások gyorsítására Kettős független buszrendszer felépítés (Dual Independent Bus, DIB); a rendszerbusz és a cachebusz fizikailag szeparált, mindkettő más sebességgel müködik
Maximum 4 Gb címezhető cachememória, maximum 64 Gb fizikai rendszermemória
Hibakorrekciós kód, tévedéselemzés és helyreállítás
Intel processzorazonosító-szám
Beépített önteszt (Built-in Self Test, BIST)
Lapkán lévő dióda a hőmérséklet jelzésére
A 256 Kb-os L2 cache-t is jelentősen továbbfejlesztették:
- az adatbuszt 256 bitesre növelték
- csökkentették az interface várakozási idejét
- 6 töltőbuffer (a Katmainál 4 volt)
- 4 iróbuffer (a Katmainál 1 volt)
- 8 busz előtti buffer (a Katmainál 4 volt)
A chip megfordításának egyértelmű előnye a jobb hűtés, mivel az FC-PGA tokozásban a sziliciumlapka közvetlen kapcsolatban áll a hűtőbordákkal. Legfőbb hátránya, hogy visszafelé nem kompatibilis a jelenlegi Socket 370 rendszerekkel és nem felel meg az Intel hivatalos feszültségspecifikációival. Ebből következően nem építhető be egyetlen hagyományos alaplapba sem; várni kell a jövő foglalataira, vagy a Slocket II-re.
Az új, fejlettebb cache egyértelműen fejlődés a Katmai L2 gyorsítótárjához képest. A cache a független duális buszrendszer egy része, tehát a bemenő adatok 256 bites sávon haladnak; minden második ciklusban 32 byte megy oda vissza (256/8=32). Az alaplapon lévő cache-el szemben gyorsasága nővelhető a mag sebességével együtt. Ez azt jelenti, hogy gyorsabb processzor esetén a chip és a cache közötti kommunikáció is gyorsabb lesz, mivel a cache sebbessége független az alaplap sebességétől. Ez a gyorsabb kapcsolat 500 Mhz-en 8 Gb/ms-et jelent, míg 550 Mhz-en 8.8 Gb/ms-et. Természetesen túlhúzásnál ez tovább nő: 700 Mhz-nél 11.2 Gb/ms. Tehát, mivel a belső adatút fizikailag el van választva a külső busztól, az nem fogja vissza teljesítményét, és teljes kapacitáson müködhet.
Az integrált L2 gyorsítótár késése (latency) negyedére csökkent, ez nagyban csökkenti az L1 cache hiányából adodó veszteségeket. A fejlettebb cache előnyeit könnyen érzékeltethetjük a Xeonnal, ahol már alkalmazták ezt a technikát: az új felépítés 20-szor gyorsabb. A különbség persze nem lesz ekkora, mivel a Xeon cachemérete jóval nagyobb, így az PC-PGA gyorsulása is kisebb lesz.
Az előrejelzések egy 8 utas, 1024 beállítású táblázatba vannak felirva, ami az eredményeknél csökkenti a tévedés esélyét. A becslések szerint a cache teljesítményét 3%-al emeli egész számos műveleteknél, ami az irodai alkalmazásoknál lehet hasznos.
A Pentium III architektúra fő hibája, hogy nagyon gyors a bemenő részen (adatbevitel) de a CPU hátsó része jelentősen le van maradva ettől. A rendszer optimalizálására másfélszeresére nővelték a töltőbufferek számát, ami hasonló növekedést okoz az ezekkel dolgozó cacheműveleteknél is. A busz előtti várakozóbuffereket megduplázták (négyről nyolcra), hogy a rendszer tartsa a tempót a 133 Mhz-re nővekvő rendszerbusz teljesítményével. A visszairó buffereket megnégyszerezték, tehát jóval kevesebbszer kell a gyorsítótárnak a rendszermemóriához fordulnia adatokért, hatékonyabban müködhet. Ezek azt is jelentik, hogy több adatművelet történik a chip magas órajelsebességével, és nem kell külső, lassító tényezőkre támaszkodni.

A diagram összegzi a Katmai rendszerbufferelési felépítését.

A Coppermine optimalizált rendszerbufferelése
A diagrammon láthatók a busz előtti újabb bufferek, a töltőbufferek és a visszairóbufferek, melyek csökkentik az adatkérés és az adatok megkapása között eltelő halott időt.
Tesztek
A sok elmélet után, lássuk a Coppermine hogy teljesít a valós alkalmazásokban, teljesítményét főleg a Katmaihoz hasonlítva. Az FC-PGA főként az i810(E) chipsethez van igazítva, de ez (néhány szűk keresztmetszet miatt) számos teljesítménybeli visszaesést okozna. Mivel a CPU potenciális teljesítményére vagyunk kiváncsiak, a jól megalapozott BX platformot használtuk az Iwill Slocket II csatolójával. A tesztkonfiguráció az alábbiakból állt:
Intel FC-PGA-E (nyitott mérnöki minta)
Iwill Slocket II
MSI BX Master/Aopen AX6BC Pro II Millennium Edition (Turbo BIOS beállítások)
128 MB Corsair PC 133 SDRAM vagy EMS HSDRAM
Matrox G400
IBM DJNA 370910 9.1G UATA HDD
ASUS 40x CDROM
CL Soundblaster Live
Windows98
Ziff Davis benchmarks
Megfontoltuk CPU Mark 99 és FPU Winmark használatát is, melyek függetlenebbek a rendszer teljesítményétől, de több lefutattás után látható volt, hogy még nem alkalmazhatóak az FC-PGA mérésére. A CPU Mark99 nagyon korlátozott mennyiségű memóriát igényel, ezért a buszsebesség csak másodlagos szerepet játszik eredményeiben. Mindazonáltal világosan látható az eredményekből, hogy még ezen korlátozott, mesterséges beállítások mellett is rengeteg függ az FSB frekvenciájától.

ZiffDavis CPU Mark
Aktuális órajelek: 715, 700, 688, 650, 600 és 550 MHz
Az FPU Winmark mutatója szigorúan az órajeltől függ, az FSB semmilyen szerepet nem játszik benne.

ZiffDavis FPU WinMark
Az órajelek megegyeznek a fentivel.
Winstone99
Több WS99 eredmény alulpörgetve vagy 4.5-ös szorzóval történt, hogy közvetlen összehasonlítást nyújthasson a Katmai-al, így látható a fejlettebb cache okozta eredménykülönbség az üzleti alkalmazások terén és multitaszking környezetben. Mint látható, a különbség elég csekély. Mivel a WS99 eredményeit elég bonyolult módon számolja, nem lehet pontosan megmondani az alkalmazásokbeli különbséget, de nagyjából 3-5% a sebességnövekedés a Katmaihoz képest.

Winstone99 eredmények PIII-mon és FC-PGA-n. A beállítás 112, 133, 150 és 155 Mhz volt, 4.5-ös szorzóval és Promise Ultra66 csatolóval.
Grafikus teljesítmény
Több teszt felhúzott rendszeren történt, a rendszerbusz sebessége elérte a 155 Mhz-et is, 102 Mhz-es AGP mellett. A teszteknél Matrox G400-at használtunk, ami ugyan nem OpenGL alatti gyorsaságáról híres, de megelőz minden QuakeII alatti hibás eredményt.
Futuremark 3Dmark 99 Max
A 3DMark 99 Max szabvánnyá vált a grafikus kártyák és a CPU 3D teljesítmények tesztelésének terén.

3DMark 99 Max
Az órajelbeállítás 715, 700, 688, 650, 600 és 550 MHz volt. Fontos megjegyezni, hogy a buszsebesség erősen befolyásolja a grafikus teljesítményt. Néhány eredményt a túlhúzott AGP busznak lehet tulajdonítani, de a megnövekedett memóriaátviteli gyorsaság is jelentős szerepet játszott.

3D-CPU eredmények
Az órajelbeállítás 715, 700, 688, 650, 600 és 550 volt; a magassabb buszsebesség itt is megtette a hatását.
Caligari trueSpace 4.2
Ez a teszt remekül mutatja be az SSE utasítások jótékony hatását. A tesztek iránti előítéletekkel ellentétben az eredményei egyértelműen jelzik a Coppermine lehetőségeit és a rendszeroptimalizálás előnyeit. Főként a CAD alkalmazásoknál kell figyelembe venni ezeket a mutatókat.

D3D frissitési ráta Caligari trueSpace 4.2 alatt. A trueSpace tökéletes SSE utasításokra optimalizálása segítségével az FC-PGA az eddig látott legmagasabb eredményeket érhette el.
Összegzés
Az új FC-PGA 500 / 550E CPU nagyságrendbeli ugrást jelent a Socket 370-es platformon. A Katmai-al azonos órajelent történt összehasonlítása alapján az új cache és a fejlettebb bufferelés a Coppermine előnyét jelzi, üzleti alkalmazásoknál egyértelműen gyorsabb. Ehhez társul az FC-PGA bár a Celeronoknál jóval magasabb, de versenyképes ára. Mint látható volt, jelentős túlhúzási lehetőségek vannak benne, gond nélkül elérte a 700 Mhz-et. Azonban fel kell hívni a figyelmet arra is, hogy a magasabb órajel (stabil rendszer mellett) még nem biztosan jelent magasabb teljesítményt is; 715 Mhz-nél csökkennés látható, amit a cache utasításelőrejelzéseknél előforduló hibázásával magyarázhatunk. A mag feszültségének 1.65 - 1.7V-ra történő emelése nem nőveli az elérhető órajelnagyságot, és nem ellenszere a 700 Mhz feletti órajelnél a tesztekben tapasztalható teljesítménycsökkenésnek.
A potenciális - jelenleg Socket 370-es alaplapot használó (mindegy hogy BX vagy VIA chipsetes) - vásárlókat fontos figyelmeztetni platformjuk inkompatibilitására. Ha az alaplap nem tesz eleget a VRM 8.4-es szabványnak, melynek elrendezése más, mint a régebbi (PPGA Celeronoknál használatos) VRM 8.2-es szabvány, az FC-PGA nem fog működni. Az eltérések BIOS frissitéssel is áthidalhatóak.
Jelenleg még nincsenek világos információk az FC-PGA duál rendszerekbeli (SMP) használhatóságáról, de előzetes hírek szerint nem fog működni többprocesszoros rendszerekben.
Mindent egybevetve, az új processzor teljesíménye a várakozásokkal megegyezik, a Slocket II gyártóknak (IWill, MSI, Soltek) köszönhető közepes árfekvése vonzó lehet a Slot-1 alaplaptulajdonsoknak. A teljesség kedvéért meg kell jegyezni azt az apróságot is, hogy az PC-PGA procik 1-2%-ában van egy apró bug: nem bootol be a rendszer teljes kikapcsolása után, hanem még egy plusz resetet kell nyomni.
Forrás: LostCircuits