Franczy

Prescott: a következő generációs Pentium 4

Mint az ismeretes, az Intel közel egy hónappal ezelőtt mutatta be első, 0,09 mikronos gyártási technológiával készített SRAM memóriachip prototípusát. Ekkor sokan úgy vélték, hogy a 0,09 mikronos csíkszélességgel rendelkező vadonatúj Pentium 4-es (Prescott) processzorokról is elárul némi információt a chipgyártó, azonban erre végül nem került sor, most viszont végre némileg okosabbak lehetünk ez ügyben. Az alábbi információkkal kapcsolatban azért meg kell jegyeznem, hogy korántsem hivatalos információk, tehát kéretik némi fenntartással kezelni őket!

Magukat megnevezni nem kívánó források szerint a közeljövőben debütáló Prescott nem egyszerűen egy 0,09 mikronos gyártási technológiával készített Northwood mag lesz, ugyanis a Prescotton az Intel mérnökei állítólagosan nagyon komoly fejlesztéseket hajtanak végre. A Northwood és Prescott mag közötti legnagyobb különbség abban rejlik, hogy utóbbi magban jelentősen nagyobb elsőszintű gyorsítótár kap majd helyet. Ezen információt egymástól független források is megerősítették, és azt állították, hogy a Prescott magban kétszer, vagy akár négyszer nagyobb L1 cache lesz, mint a Willamette és Northwood magokban, vagyis körülbelül 16-32 KB. Ezzel párhuzamosan a Prescott magba integrálandó Instruction Trace Cache mérete is növekedni fog, ebben az esetben azonban nincs összehasonlítási alapunk, ugyanis nem lehet pontosan tudni, hogy a jelenlegi Pentium 4-es magokban mekkora ezen cache mérete.

Ugyancsak figyelemreméltó változás, hogy a Prescott magos új Pentium 4-es processzorok másodszintű gyorsítótára jelentősen nagyobb lesz az elődök L2 cache méreténél. Különböző források szerint a Prescott mag 1 MB másodszintű gyorsítótárral fog rendelkezni, vagyis kétszer akkorával, mint amekkorával a Northwood, és négyszer akkorával, mint amekkorával a Willamette rendelkezik. A legfrissebb pletykák szerint az Intel a Prescott esetében egy továbbfejlesztett Hyper Threading technológiát is hadrendbe kíván állítani. Mint az köztudott, a jelenleg forgalomban lévő Xeon MP (Prestonia) processzorokban is megtalálható a Hyper Threading technológia, mely chip ily módon képes úgy működni, mintha nem egy, hanem több processzor lenne.

Egyre valószínűbbnek tűnik az is, hogy az Intel az utóbbi időkben enyhén misztikussá vált Yamhill technológiát is beveti majd a Prescott esetében. Amennyiben egyébként erre ténylegesen sor kerül majd, a processzormag mérete mindössze 2 százalékkal fog növekedni. Végül pedig tegyünk említést arról, hogy a Prescott magos következő generációs Pentium 4-es processzorok kezdőfrekvenciája 3-4 GHz körül alakul majd, a működésükhöz szükséges feszültség pedig várhatóan 1,2-1,3 V lesz.

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
  • Supergamer_real #27
    "Az EV8 8 utas processzor lett volna és hasított volna rendesen. Az Intel nemhiába vette meg, hisz a McKinley/Madison-t
    lenyomta volna."

    Az EV8 4 utas - lasd a tavalyi Mikroprocessor forum anyagat vagy a compaq weboldalat - lett voltna es szinten SMT-t alkalmaztak volna benne.A 4utas termeszetesen az SMTre vonatkozik, azt hittem ez nyilvanvalo....
  • Rive #25
    Hm... Hihi... Mégis mindenki a Cl2-t választja, ha teheti ;)

    A várakozási ídő megfelelő dimenzióba helyezéséhez pedig képzeljünk el egy rosszul optimalizált ciklust, ami egy DivX film minden egyes pixelére vár 100 utasításnyi fölösleget ;)

    Egyébként, a viccet félretéve, valóban nem túl egyszerű a dolog.

    A sávszélesség növekedése ellenére a processzornak minden cache-miss esetén meg kell várnia, amíg a memória feltölti a teljes cacheline-t.

    Mért adatok: http://www.hwsw.hu/perl/ultimatebb.cgi?ubb=get_topic&f=1&t=002202

    Azaz, Tbird, 64Byte cacheline, DDR, a latency 150 órajel, ca. 200 utasítás...

    P4: 350 órajel, ca. 400 utasítás, bár ez SD-RAM :(

    Ha átlag 10-es szorzót veszünk ( :D ), akkor a chipset-latency kiiktatásával a TBird ca. 20 utasítást spórol. Ahhoz, hogy ezt FSB emeléssel be lehessen hozni, a 266 helyett 300 kellene... A Hammer valószínűleg eleve a 333-as ramokat támogat majd...

    Vigyázat! Ez azért nem ennyire egyszerű. Elég sok helyen bele lehet kötni (jogosan), de a tendenciát jól mutatja... Kéretik az egészet tájékoztató jellegűnek tekinteni!
  • Supergamer_real #24
    Ez a kerdes ennel joval osszetettebb.Most sajnos nincs idom megmagyarazni miert... kesobb (de talan Rivenak van egy kis "szabad ideje".
  • fotel #22
    enyhén misztikussá vált Yamhill technológiát is beveti majd a Prescott esetében. Amennyiben egyébként erre ténylegesen sor kerül majd, a processzormag mérete mindössze 2 százalékkal fog növekedni - A Yamhill az intel szónok szerint nem 32/64es proci, hanem más gyártástechnológia - és én ebből is ezt olvasom ki!
  • Supergamer_real #20
    "Ui.: Hi, Supergamer (a valódi), nagyon beindultunk ;)"

    :) Ez van, jolesik hozzaertokkel beszelgetni.
  • Rive #19
    >> negyutas processor eseteben a 0.8-2.3 orajelet tudunk atlagosan elerni.

    Hozzá kell tenni, hogy a második érték az leginkább a kézzel optimalizált programokra vonatkozik, a standard C fordítók átlag 1.5 körüli értékeket produkálnak.

    Ez azért is érdekes, mert ugye átlagosan a programok minden ötödik utasítása elágazás. A branch-predict ezek jelentős részét megjósolja, de pl. a P4 90%-os eredményességénél minden 33. órajel egy pipeline-ürítést hoz... Ugyanakkor a pipe hossza >20, legalább 30 utasítás megy a szemétbe...
    Alighogy teleszalad utasításokkal, már lehet is kidobni az egészet...

    Az Athlon sorozatban az eredményesség valahol 95%-nál jár, a pipe tfh. 10 lépcső: minden 60 órajel hoz pipe ürítést, aholis 'csak' 15 utasítást kell 'dobni'...

    A pontos adatokat mindenki helyettesítse be magának, csak a trendekre szerettem volna rávilágítani ;)

    Ui.: Hi, Supergamer (a valódi), nagyon beindultunk ;)
  • Supergamer_real #17
    "alatt a CPU nem csak egy utasítást hajtana végre"

    Ehhez egy kis adalek.Bar kisse meglepo elofordulhat (es elo is fodul), hogy akar egy olyan "egyszeru" kalkulaciot mint a 2*2 sem kepes a processor egyetlen orajel alatt elvegezni.Hozza kell tennem ez sok minden mason is mulik.

    Az intel eseteben (HT) 2utas megoldasrol beszelhetunk.Mai processoroknal negyutas processor eseteben a 0.8-2.3 orajelet tudunk atlagosan elerni.Ez egy atlagos processorra igaz.A fennmarado 3.2-1.7 utasitas horizontalis veszteseg.Ezeket illetve a vertikalis vesztesegeket lehet kikuszobolni a kulonbozo multi-threading eljarasokkal.

    Az intelfanoknak - akiket altalaban eddig nem erdekelnek a reszletek , tisztelet a kivetelnek - mindenkeppen emlitesre melto, hogy a iNTEL processora az elso (inkabb az egyik elso) a szimultan tobbszalas megoldasok kozul.Ez a multithreading talan legnehezebben megvalosithato valtozata (idaig) . A compaq leallt a 4 utas (! - mind az intele es a Sun-e 2 utas) EV821464 alpha fejlesztesevel.A Sun mar publikalta a dokumentaciojat a sajat megoldasanak igy hamaroosan ez a processor is "elerheto" lesz.
  • Rive #16
    NASAtm, ide is beírhatnád...
  • Supergamer-real #15
    Nagyon jó irányban halad az Intel csak gratulálni tudok hozzá. Azért jó lenne ha már az 1E-11111... mikronnál járnának ezek az okos gyerekek, hogy végre tényleg lenyomják az amd-t.
  • Rive #14
    Továbbiak.

    A mai rendszer-tervezés során a kritikus kérdés a processzorok ellátása megfelelő mennyiségű adattal. Ebbe csak besegít a cache, de nem képes megoldani a problémákat: jelenleg az a max. 2-3 megabyte, amit a cache kezelni képes, csak a legfontosabb adatok (a kód is adat) elérését képes meggyorsítani. Ennél egy egyszerű program is nagyságrendekkel nagyobb memóriát igényelhet...

    A gondok hatványozottan jelentkeznek akkor, ha a fizikai memória nem csak egy processzort szolgál ki. Ekkor ugyanis a maximális sávszélesség töredéke jut az egyes processzorokra, behatárolva ezzel az elérhető teljesítményt.

    Hasonló gondokat okoz a memória késleltetése is. Gondoljunk bele: a memória sebessége (DDR) 200MHz, a processzoré 2GHz. Amíg a memóriából megérkezik az adat, addigra 8-9 FSB órajelis eltelhet: ez 80-90 CPU órajelet jelent, és tekintve, hogy egy órajel alatt a CPU nem csak egy utasítást hajtana végre, a fizikai memória elérése minden további nélkül okozhat 100-150 utasításnyi késleltetést.

    Ennek a lecsökkentésére szolgál a prefetch: ez azonban csak néhány CPU-órajelnyi időt nyer, hiszen a jóslás már csak az utasítás végrehajtásának megkezdése után történhet meg.

    Megoldás lehet a többszálúság bevezetése, hiszen ekkor a külső adatra várakozó szál helyett egy olyan fog futni, amelyiknek minden adat a rendelkezésére áll. Ennek a módszernek az alkalmazása megkívánja a cache méretének növelését, tehát drága... Ugyanakkor, pont azokon a helyeken mond totális csődöt, ahol az extra teljesítményre szükség lenne: azokat a rutinokat, amelyeknek _igazán_ gyorsan kell lefutniuk, ma is kézzel optimalizálják, és bizony ügyelnek mind a futószalag maximális kitöltöttségére, mind a SW prefetchre...

    A harmadik lehetőség a memória késleltetésének csökkentése: ha a chipset késleltetése kimarad, máris nyertünk 20-30 utasításnyi időt...

    Az Intel az első két megoldást preferálja, az AMD az elsőt és az utolsót: verseny végére, ahogy Supergamer mondta, valóban nem érdemes tippelni, nagyon kétesélyes, és nem csak a memóriával kapcsolatos ügyek miatt...