80
  • dez
    #40
    Azt az 1 Tflops-t felejtsd el. Marketing-anyagokban volt, nem 1, hanem 2 Tflops, és nem a Cellre, hanem az egész PS3-ra vonatkozott, a GPU fixfunkciós egységeit is beleszámolva.

    A mai csúcs GPU-k peak (elméleti max.) FLOPS értéke a Cellé többszöröse. Azonban, ezt csak a legegyszerűbb számítások sokasága esetén tudják elérni. Összetettebb számítások sokkal jobban megfektetik őket, így kiegyenlítődik, vagy épp meg is fordul a dolog. Miközben a mai 65nm-es Cell fogyasztása és mérete sokkal kisebb, mint az említett GPU-ké. És most jön csak a 45nm-es. Aztán ~1 év múlva a megtöbbszörözött magszámmal rendelkező változat, ami már tényleg 1 TFLOPS-os lesz (ami felér 4-5-6 GPU-s TFLOPS-szal).
  • dez
    #39
    "Igen, ezen nagyon elamultam anno amikor PII-es procikon hardveres gyorsitas nelkul ugyanezt demoztak a BeOS fejlesztoi."

    A fantáziálásod elérte a sci-fi-t, gratulálok. :P
    Figyelmedbe ajánlanám, hogy 48 full-HD streamről van szó. Egy PII-es valószínűleg 1db-ot sem tud real-time dekódolni. A BeOS-esek gondolom azt demonstrálták, hogy 2-3 SD video ablakot úgy lehetett ide-oda pakolgatni, hogy nem akadoztak, mint jellemzően Windowson.

    "Aztan rajottem, hogy ez a legjobban optimalizalhato batch feladatok egyike, mivel nincs benne emberi interakcio."

    Ha csak ettől függene... Egyébként nem is talált, mert volt interaktivitás: különféle elredezésekben lehetett megjeleníteni a video-ablakokat.

    "Igen, pl. azt hogy az osszes mag latja a teljes memoriat. [bla-bla-bla]"

    Köszi, hogy most ilyen bő lére eresztve fejtetted ki újra ugyanazt. Csak kár, hogy az általam írottakat nem akaródzott felfognod.

    "Ezzel szemben egy hagyomanyos processzor vagy egy mai programozhato shader 1 utasitasban es atlag 1 orajel alatt megoldja azt, ami egy cell spe-nek a dma egysegre torteno varasbol fog allni aminek a beallitasa mar eleve sok ezer utasitast igenyelt."

    Ez több szempontból hülyeség (az utolsó egyenesen marhaság, nem únod még?):
    1. A memória-hozzáférés akármilyen procinak sok-sok órajel-ciklus.
    2. A DMA művelet elindítása néhány utasítás. Így az utóbbinál az ebből fakadó óverhead többtíz KB-os blokk esetén néhány százalék.

    "Ha meg feldaraboljuk oket, akkor az spe az ido jo reszeben varni fog a blokkok betoltesere. (ugyanis meg multithreading sincs bennuk)"

    Újabb fantáziálás. Jó szórakozás mindenféle hülyeséget tényként leírkálni? Az erről szóló Celles anyagokban szépen le van írva a várakozást kiküszöbölő double-buffering módszer.

    A DMA egységeket akár "rendszerszó" hosszon is lehet használni.

    ps. és jó lenne, ha végre megtanulnál címezni ("válasz erre"). Tudod, kicsit jobban árt az áttekinthetőségnek, ha össze-vissza idézel mindenkitől forrásmegjelölés nélkül, mint az, hogy én adott esetben 2-3-4 egymás utáni, külön címzett hsz-ben válaszolok...
  • krajcsovszkig
    #38
    Az 1 TFLOPs-ot valami cikkekben láttam, több helyen, többször (igaz, nem kifejezetten szaklapokban :D) És attól, hogy egy viszonylag friss és emmiatt nem szanaszét optimalizált "fehérjeszámolgató" progi sok db, az egész Földön szanaszét szórt és különböző sebességű, nagyrészt csak 1-2 megabites, magas pinges, ingadozó sebességű nettel összekötött JÁTÉKKONZOLon ilyen sz.rul teljesít, még nem jelenti azt hogy a cell ilyen gyenge. Egyébként valahol olvastam hogy ez a progi is csak valami 25-35%-ban bírja a cellt kihasználni...
  • dez
    #37
    1. Nem TFLOP, hanem TFLOPS. Az az "s" a per second, és nem a többesszám jele (1-nél nagyobb értéknél)! Mint ahogy nem 80 km a sebességhatár, hanem 80 km/h. 1 Tflop az 1 milliárd fp művelet, akármennyi idő alatt.

    2. A Cell peak FLOPS értéke ~230 GFLOPS. (De ez a rugalmasabb felépítés miatt felér 1 TFLOPS-szal GPU-knál. De már többször bizonyítást nyert.)

    3. Már egyszer megbeszéltük, és ki is másoltam neked a fejlesztők erről szóló felhívását, hogy értelmetlen így számolni.
  • Doktor Kotász
    #36
    "A Cell felépítése visszaszoktatja a programozókat, hogy ne pazarlóan bánjanak a memóriával, hanem optimálisan használják ki az SPE-k rendelkezésére álló (egyenként) 256 KB sramot. Ha ez megvan (márpedig az IBM-es programozók már bizonyították, hogy ez nem akkora ördöngősség, csak nem frissdiplomás amatőrökre kell bízni), akkor egy eddig elképzelhetetlen teljesítmény-sűrűséget produkál a cucc. (Nem csak nyers FLOPS-okat, mint a GPU-k.)"

    Úgy kell felvenni a programozókat, hogy a Pong (az első asztaliteniszkonzol) játékot írd meg assemblyben 1K-ba!
  • Doktor Kotász
    #35
    Szerintem ez a cikk arról szól, hogy valaki az Nvidia részvényeket akarja "jóárasítani", hogy jól bevásároljon belőlük.
  • kvp
    #34
    "Amúgy 48 egymástól független video-stream párhuzamos feldolgozását is valahogy megoldották egy demonstrácio során."

    Igen, ezen nagyon elamultam anno amikor PII-es procikon hardveres gyorsitas nelkul ugyanezt demoztak a BeOS fejlesztoi. Aztan rajottem, hogy ez a legjobban optimalizalhato batch feladatok egyike, mivel nincs benne emberi interakcio.

    ...
    "A könnyűség nem attól függ, hogy x86 vagy más uarc. A LArrabee-nek is meglehetnek azok a belső törvényei, amit figyelembe kell venni."

    Igen, pl. azt hogy az osszes mag latja a teljes memoriat. Igy kepesek egyszerre _veletlen_modon_ elerni egy oriasi meretu adathalom elemeit. Azok az algoritmusok amik nem tudnak batch modban par kilobyte-os adatcsomagokon dolgozni, mert sokkal nagyobb az adatkeszletuk es az nem darabolhato egyertelmuen, sokkal jobb teljesitmennyel futnak egy kisebb sebessegu processzoron is. Ilyen pelda az octree-k esete, amiket raytracing-hez, hagyomanyos renderinghez, foglaltsag es utkereso terkepekhez hasznalnak. Ezek az adatok a mai jatekokban sokkal nagyobbak, minthogy beleferjenek egy cell spe-be. Ha meg feldaraboljuk oket, akkor az spe az ido jo reszeben varni fog a blokkok betoltesere. (ugyanis meg multithreading sincs bennuk) Ezzel szemben egy hagyomanyos processzor vagy egy mai programozhato shader 1 utasitasban es atlag 1 orajel alatt megoldja azt, ami egy cell spe-nek a dma egysegre torteno varasbol fog allni aminek a beallitasa mar eleve sok ezer utasitast igenyelt.

    Ami egy mai cpu/gpu eseten fontos, hogy konnyu legyen ra fejleszteni:
    -nagymeretu kozvetlen memoria elerese
    -rendszerszo alapu veletlen memoria eleres a teljes rendszermemoriara
    -alapveto matematikai muveletek nativ tamogatasa
    -vezerelheto ugrasok tamogatasa
    ennyi...

    Ebbol a cell spe az elso kettot nem tudja. De hianyzik meg belole az smt tamogatas is, hogy ha mar var az spe a dma-ra, akkor legalabb legyen mit csinalnia addig is. A szoftveres taszkvaltas pedig megfelezi az spe amugy is kis meretu lokalis ram-jat es megtobb idot vesz el a munkatol. X86-on utoljara a valos modban futo szegmentalt memoriakezelesu 16 bites rendszerek hasznaltak overlay alapu adatkezelest es valositottak meg a felhasznaloi programok szintjen szoftveres taszkvaltast. Ezek a trukkok csak az akkori limitek megkerulesere szulettek es manapsag ilyen mesterseges limitekkel cpu-t epiteni eleg rossz otlet.

    Egy fejlesztoi szempontbol idealis processzor a memoriat egy hatalmas lapos tombnek mutatja, amin alapveto matematikai muveletek lehet vegezni, majd a program folyasat ezen muveletek fuggvenyeben lehet befolyasolni. Ezt hivjuk ma Neumann architekturanak, bar Zuse hamarabb epitett ilyen elven mukodo gepet. Barmilyen trukkozes csak a programozo eletet bonyolitja, ezert is van az, hogy a mai operacios rendszerek mindent megtesznek azert, hogy a futo programok ilyennek lassak a gepet. (a kereskedelmi unix-ok, a linux es meg a windows is ezt a modellt koveti) A cell ezzel szemben a 60-70-es evek mikrovezerloinek elveit es trukkjeit koveti, amik elmeletben nagyobb teljesitmeny hoznak, a gyakorlatban viszont sikertelennek bizonyultak. Az ido nagyobb resze mindig az adatok pakolgatasara ment el, a tenyleges feladat megoldasa helyett.

    A tapasztalatok fenyeben ki lehet jelenti, hogy ha nem vektoros feladatrol van szo, akkor a cell elverzik szinte minden valos feladton, belertve a nem vektorizalhato adatkeszleteken vegzett tudomanyos szamitasokat is. Ezzel szemben egy atlag x86-os vagy egy atlag ppc, ami mind 32, mind 64 bites modban kepes biztositani a szabvany neumann architektura felteteleit es gond nelkul hoz altalanosan jo teljesitmenyt barmilyen feladat eseten. (tehat semmiben sem jo, viszont semmiben sem rossz, ezert minden celra megfelel)

    Ha a cell helyett valaki egy gyors, egyszeru es olcso processzort akarna csinalni, akkor fogjon N darab altalanos risc-es magot es epitsen ezekbol cpu-t. Mondjuk mivel az x86-ok eseten belul mar jo ideje risc-es magok vannak, ezert ugy nez ki az intel most eppen pont ezt teszi, csak az utasitasokat tomoritve tarolja (cisc-es x86-os formatumban), amit utasitasdekoderek pakolnak ki futtatas elott. Minden mas szemontbol egy 64 bites x86 pont megfelel az idealis Neumann rendszeru gepnek.
  • dez
    #33
    Egyébként a jelen cikk forrásául szolgáló cikket egy bizonyos Charlie Demerjian írta, aki köztudottan és megszállottan Sony és PS3 ellenes, így állandóan hülyeségeket írkál a témában. Egy Sony illetékes már cáfolta is, fantáziadús sci-fi-nek címkézve. :)
  • dez
    #32
    Az a cikk egy teljes félrevezetés volt, mert egy fél évvel ezelőtti interjút szedtek elő, amiben azt nyilatkozta egy Sony-fejes, hogy 2008-ban nem terveznek árcsökkentést. Most meg 2009 van...
  • dez
    #31
    Hogy miért hülyeség: mert 1 x86 mag ugyanúgy 1-1 SIMD műveletet tud egyszerre.

    Mellesleg hiába ~3.0 az elméleti max. IPS (nem-SIMD utasítások esetén), ha a programok 99%-a ezt is 1.0 IPS körül használja ki. (PerfMon-nal ellenőrízhető.)

    Egyébként ez is hülyeség:
    "A cell spe-jei ezzel szemben skalar egysegek, tehat nem tudnak 1 ips fole menni."

    Nem éppen, mert az SPE-k is dual-issue-sek: 1 SIMD, és mellette 1 Load-Store utasítást tudnak párhuzamosan. Jó lenne, ha végre befejeznéd a hónapok óta tartó FUD-hadjáratodat a PS3/Cell ellen.
  • dez
    #30
    "Igy 1 intelligensebb x86-os mag azonos orajelen kepes tobb spe-nyi utasitast vegrehajtani. (az atom ketszer annyit, egy core2 mag akar 4-5-szor annyit es van 4 magos core2-es, ami kb. 16 spe-nek felel meg optimalizacio nelkul)"

    Ilyen hülyeségeket meg jó lenne, ha nem beszélnél...
  • dez
    #29
    Te valamit nagyon nem értesz a Cellben, és a lokális ramok szerepében. Hiába van a Larrabee-ben minden magnak közvetlen memóriahozzáférése, ha az ehhez szükséges hatalmas sávszélességet nem tudják biztosítani. Ezt a belső cache-eik sem tudják teljes mértékben kompenzálni. Ráadásul a cache-memória hely és tranyó-igénye az sram többszöröse. Tehát, ahol pl. 256 KB sram fér el (SPE-k), ott ennek töredéke cache-ben.

    Továbbá, a L1 sebességű lokális sram feleslegessé teszi a kifinomult branch-predictiont is, ezzel sokkal kisebbé válik 1-1 mag (SPE). Tehát, ahol x SPE fér el, ott töredék ennyi hagyományos CPU mag (akár Atom).

    Ergo, a Cell mindig nagyobb teljesítményű lesz, mint pl. a Larrabee...

    Csak annyi, hogy nem csak abból áll a programozás, hogy keresztül-kasul futtatunk rajta mindenfélét gondolkodás nélkül. Bár szerintem ezt a Larrabee-vel sem lehet megcsinálni...

    A Cell felépítése visszaszoktatja a programozókat, hogy ne pazarlóan bánjanak a memóriával, hanem optimálisan használják ki az SPE-k rendelkezésére álló (egyenként) 256 KB sramot. Ha ez megvan (márpedig az IBM-es programozók már bizonyították, hogy ez nem akkora ördöngősség, csak nem frissdiplomás amatőrökre kell bízni), akkor egy eddig elképzelhetetlen teljesítmény-sűrűséget produkál a cucc. (Nem csak nyers FLOPS-okat, mint a GPU-k.)

    A Cellben a PPE (központi "normál" proci-mag) pont olyan, mint az Atom (egyszerűsített mag, 2-szálas In-Order Exection). A Larrabee kb. olyan, mintha a Cellt x db PPE alkotná. Csakhogy, kb. 6db SPE fér el akkora területen, mint 1 Atom/PPE. Ki lehet számolni, mekkora teljesítmény-sűrűség különbség van a kettő között...
  • dez
    #28
    "Ha egy magot kap a halozat, egy magot kap az MI, egy magot (na jo tobbet) kap a fizika, akkor a maradek magokon mehet a rendereles."

    Ezt a Cellel is meg lehet tenni, elég önállóak hozzá az SPE-k. A fejlesztés alatt álló új generációs Cellel (2 PPE + 32 SPE, valószínű mindkét féle mag tovább is fejlesztve) meg főleg.

    "Arrol nem is beszelve, hogy egy x86-os alapu chipre sokkal konnyebb fejleszteni mint cell-re."

    A könnyűség nem attól függ, hogy x86 vagy más uarc. A LArrabee-nek is meglehetnek azok a belső törvényei, amit figyelembe kell venni.
  • dez
    #27
    "Igaz, hogy az uj ibm fele cell nem nagyon alkalmas konzolokhoz es az intel fele larrabee igen"

    Attól még nem igaz, hogy te kitaláltad. ;)
  • narumon
    #26
    "A CELL 1TeraFLOPS-os, ha jól tudom. Igazság szerint az a legfőbb baj vele, hogy túl erős"

    Ez érdekelne honnan szedted ezt a fantázia 1Tflop teljesitményt. Ez max elméleti eredmény lehet. Egyébként pl Folding at home számolás sorámn 48.759 db Ps3 számol 1375TFLOP teljesítménnyel, ami darabonként 0,028TFLOP / gép. Ez a realitás.
  • NEXUS6
    #25
    Őöööö...., hát azért ennél valszeg összetettebb a dolog, de a jelenlegi szinten kb ez a helyzet!:D
  • roliika
    #24
    A cikk megint a semmiről szól..gratula.
  • krajcsovszkig
    #23
    Hát igen, az ismeréssel van itt a fő probléma :)

    Meg eredetileg a cell számolta volna a grafikát is, csak rájöttek, hogy az az architektúra hibái/hiányosságai/más célokra tervezettsége miatt nem lehetséges, és akkor odamentek az nvidiához, hogy "csá Tibi, van 3 hónapotok csinálni egy f.sza GPU-t a PS3-ba", ami persze ennyi idő alatt nagyon nem lett f.sza (ezért is voltak/vannak grafikai bugok és az élsimítás is gyönge), viszont a celltől elvették a feladatainak a legnagyobb részét (mert ugye a grafika számolása a legteljesítményigényesebb), így gyakorlatilag 8-10%-ban használják ki a cellt a programok, a többi sok% meg fölöslegesen melegszik, fogyasztja az áramot és fölöslegesen fizetjük ki a gép megvételekor. Ezért jobb az xbox, legalábbis lenne, ha nem lenne a minősége annyira teszkós. :D
  • NEXUS6
    #22
    2TFLOPS a PS3 teljes számítási teljesítménye az RSX-szel(kb, 1.8TFLOPS) együtt.
    A GPU teljesítménye tehát ennyivel nagyobb, csak ugye ezek elég speciális műveletek, a cell meg sokkal általánosabb célú. De ott ahol nem kell a GPU-val összemérhető nagyságú, de a grafikát mégis csak érintő számítási képesség, pl bizonyos vertex shader funkciók, post effect-ek ott a cell nagyon is jól be tud segíteni (lásd KZ2). Kicsit olyan mintha 2 GPU lenne a gépben, ráadásul eltérő memória területen tudnak dolgozni egyszerre, ami a totális memória sávszélességget is 2X-esére növeli!

    A PS3 nagyon jó kis architektúra, csak ismerni kell ahhoz, hogy a maximumot ki lehessen hozni belóle!
  • NEXUS6
    #21
    Ezen én is kicsit meghökkentem!;)))

    Lásd a lentebb említett 48 független videostream demót. A kétmagos procim, igaz csak AMD X2, de egy sima onlájn video nézegetése közben 20-30%-os proci leterheltséget produkál. Egy core2 duo legyen mondjuk 2X olyan erős, kis jóindulattal, mint ez. Az akkor valós időben optimalizáltan kb 10-15 ilyen video streamet jelent. Hol van ez a 48-hoz képest??!!
    ;)))
  • NEXUS6
    #20
    Pedig azért itt rendesen fantázia szag van. Az eredeti cikk is kőkeményen a GPU-ról szól, és még csak találgatni se nagyon akarnak a CPU-t illetően.
    (Pláne, hogy az egész dolog még csak minimálisan sincs megerősítve!).

    Mondjuk még nem programoztam cellt (sem), de Linux alatt (ahol már nem is tudom hogy hány magot engedélyeznek), 3 db gépet összekötve valós időben ray-tracing-gel renderelt egy elég összetett autó modellt (elvileg 75X annyira összetett, mint a jelelenlegi játékokban használt objektek). Szal nem olyan lehetetlen dolog ez. Amúgy 48 egymástól független video-stream párhuzamos feldolgozását is valahogy megoldották egy demonstrácio során. Szal biztos valós korlátok azok amiket írtál, csak a gyakorlatban, hogy mennyire érvényesülnek az meg egy más kérdés. Jelenleg a cell belső busza azért nem tud 100%-kal üzemelni, merthogy nincs annyi egység még a cell prociban, ami maxra kihasználná, igy a valós sávszélesség nem 300GB/s, hanem kb 200GB/s. Tehát van még redundancia bőven! A jövő cell csipjét meg még nem ismerjük.
    A larrabee meg hogy mennyire tud mondjuk ray-tracet renderelni azt majd akkor meglátjuk, amikor bemutatják a működőképes példányokat.

    Habár vannak olyan pletyik, hogy a PS4 max párszor lesz olyan erős mint a PS3 (lásd Wii vs. GC esete), de én azért biztosra veszek 10-20X-os teljesítmény növekedést abban a generációban is.
    2012. körül ez már nem igazán fog annyiba kerülni, hogy a Sony legyen bármennyire legatyásodva, ne engedhesse meg magának.

    Az islehet, hogy az x86-os fordítok már agyon vannak optimalizálva, de akkor is kérdéses, hogy milyen az a hardver amin futnak. Marha jó, hogy pl a larrabee magjai 4 szálat tudnak futtatni, meg a memória elérése is első pillanatra jobbnak tűnik. De pont a csúcsteljesítményű alkalmazásoknál, amikor 1 mag maxon dolgozik, ergo csak egy szál feldolgozására van teljesítmény, plusz nagyon sok mag egyszerre akar a busszal, a memóriával kommunikálni, akkor nekem van olyan érzésem, hogy bizony a cellre alapuló architektúra jobban teljesít!

    A cell az első fecske az ilyen furcsa hibrid processzorok sorában. A larrabee meg az intel válasza lesz erre, gyakorlatilag. 5 évvel a cell megjelenése után sok olyan technológia elérhető, amit a cellből ki kellett hagyni. De önmagában a technológiák összedobálása ugye még nem garancia a tényleg jó működésre.

    Meglátjuk!
  • krajcsovszkig
    #19
    *egyik legfőbb baj =)
  • krajcsovszkig
    #18
    A CELL 1TeraFLOPS-os, ha jól tudom. Igazság szerint az a legfőbb baj vele, hogy túl erős. Nem lassabb egyetlen mai processzornál sem, amit pckben/konzolokban használnak. Egyedül a 8-900ezres HDTVkben van a cellnél erősebb cucc a "pórnép" számára elérhető dolgok közül. (najó, az ATI HD4850-4870GPUk erősebbek)
  • finalmac
    #17
    "a cell is csiga lassu egy mai tobbmagos core2-es intelhez kepest, megis hasznaljak."
    Intel Core i7-965 Extreme Edition:69.23GFLOPs
    PS3 Cell: 218 GFLOPs
    Nem igazán vagyok képben a mostani procik gyorsaságát illetően, de akkor most mi a helyzet?
  • kvp
    #16
    "Hát azért ebben benne volt a fantázia is nem?"

    Nem igazan, ugyanis a sun sokmagos cpu-i pont ezt az architekturat hasznaljak jelenleg is. Arrol nem beszelve, hogy az intel fejlesztoi oldalain eleg egyertelmuen leirtak, hogy a larrabee hasznalhato altalanos cpu-kent is, pl. tudomanyos feladatokra. Ezek utan miert ne tudna futtatni egy operacios rendszert? Csak az extra feature-ok, mint pl. a szegmentacio, a regi hardver taszk kezeles es a valos mod tamogatasa maradnak el (x86-64-es modban ugysem hasznalhatoak). De ezeket senki sem hasznalja/tamogatja az utobbi idoben. (meg az uj windows-ok sem a win16 alrendszer eltavolitasa utan)

    "Mondjuk a cell memória architektúrája lehet, hogy azt jelenti, hogy macerásabb programozni, de nagyobb sávszélességet és kisebb latenciát jelent."

    Macerasabb programozni, a gyurus busz miatt pedig egymast utik el a ram-tol az spe-k es a ppc mag miatt minden rendszerhivas (mondjuk diszk muvelet) tesz meg ket plusz kort es a veletlen memoria eleres hianya miatt mindent blokk i/o-val (dma-val) masolnak a rendszermemoria es az spe-k kozott. A cell akkor lenne jo, ha lenne lehetosege kozvetlenul elerni a rendszer ram-ot (akar cimtranszlacio nelkul, de semmikepp sem blokkos uzemmodban). A cell memoria savszelessege csak akkor tarhato fent, ha csak az egyik spe olvassa a memoriat, majd tovabbadja az adatokat a fizikailag mellette levonek (gyurus busz), majd a lanc vegen visszamegy az eredmeny a ram-ba. Ez shader-ek es raytraceing eseten nem tarthato, pont a parhuzamos veletlen memoriahozzaferes szukseges, ami a cell-ekbol az spe-k dsp architekturaja miatt kimaradt. Ez meg a jovoben megvaltoztathato, de akkor kapnak egy larrabee vagy niagara szeru 8+1 magos cpu-t. Ennel azert valamivel olcsobb egy x86-os procit berakni, ami elintezi a videokartya dolgat is.

    "Egy PC-esetében, ahol szinte félévente jönnek az újabb hw generációk nincs idő nagyon az architektúra megtanulására és az optimalizációra. Generációk mennek ki a divatból annélkül, hogy valaha is megközelítették volna a technikai lehetősük határait."

    A P4 mar eleg regi, a core1/core2 sorozat a meg regebbi pentium pro csalad leszarmazottja (ppro/pII/pIII/c1/c2). Az atom/larrabee pedig a pentium mmx-e. Ezek utan ha lat valaki uj architekturat szoljon... Az atomokon pont azert mennek meglepoen jol a programok, mivel pentiumra mar az ingyenes gcc is nagyon jol tud optimalizalni. Sokkal jobban mint P4-re.

    "A konzol esetén viszont lehet 10 éves élettartammal számolni. Ott érdemes olyan architekturát alkalmazni, amiből ha nem is könnyen de 90%-ra kinyerhető, az elméletileg lehetséges max teljesítmény."

    Az intel-ek ilyenek. Annyira hosszu ideje optimalizaljak rajuk a forditokat, hogy mostanra programozoi tudas nelkul is kepesek 98% koruli kihasznaltsagot (es ezaltal generaciotol fuggoen 2-4 ips-t) biztositani, tehat nem az utasitasszintu optimalizacio jelenti a gondot, csak programozonak jo alap alogritmust kell valasztania. (pl. c++ stl eseten alapbol van lancolt lista/list, tomb/vector, es b-fa/map csak tudni kell mikor mi kell) A beepitett futas ideju hardver tamogatasu optimalizaciorol nem is beszelve. (ez az ami pl. az itanium es a cell sorozatbol az architektura miatt hianyzik, de az amd x86-osok is tudjak, sot egy idoben valamivel jobbak is voltak benne) A cell spe-jei ezzel szemben skalar egysegek, tehat nem tudnak 1 ips fole menni. Igy 1 intelligensebb x86-os mag azonos orajelen kepes tobb spe-nyi utasitast vegrehajtani. (az atom ketszer annyit, egy core2 mag akar 4-5-szor annyit es van 4 magos core2-es, ami kb. 16 spe-nek felel meg optimalizacio nelkul)

    "Szal szerintem itt nem arról van szó, hogy cell lesz-e vagy pedig más a CPU. Valszeg valami 32 magos, fejelsztett architekturájú cell.
    A kérdés sokkal inkább a GPU, hogy pl. ez különálló-lesz-e? Másrészt, hogy tényleg alapból a raytrace renderelés a lesz-e a jellemző, és akkor brutális számítási teljesítmény kell és az egyéb jellemzők háttérbe szorulnak. Így viszont a cell mivel nem tartalmaz a magjaiban olyan általános dolgokat, amiket a larrabee meg igen, valszeg költséghatékonyabb megoldás lehet."

    A larrabee-ben es az egyeb altalanos cpu/gpu egysegebken az a jo, hogy mindig arra lehet oket hasznalni, amire kellenek. A cell-be pedig nem tudom hogyan fognak gpu-t rakni, mivel nagy meretu texturazasra teljesen alkalmatlan es ma mar raytracing eseten is vannak texturak, raadasul a sony kiszalt a fejlesztesebol. Eleg zsakutcanak tunik. Az egesz azon mult, hogy kihagytak a veletlen memoriahozzaferest es a teljesen crossbar buszt. Az utobbit a tervezoje is elmondta, hogy csak koltseghatekonysagi okokbol (sporolasbol).

    ...
    "10 év múlva szerintem az a konzol lesz a nyerő, aki a konfigokat nem maga állítja össze, hanem cserélhető modulok lesznek grafikára, procira pl. Csak úgy mint egy PC-n. Ez garantálhatja egy gyártónak, hogy 50-150-ig lehet gépe, ami a legjobban kielégítheti a vásárló igényeit."

    Ezt hivjak pc-nek es a microsoft eleg jol all a pc piacon. A sony eseten pont az volt a lenyeg, hogy minden program menjen minden hardveren. Ez nem jott nekik ossze, viszont a nintendonak igen, igy nagyjabol csak ok nyertek igazan az uzleten. (vegig nyeresegesek voltak/jelenleg is azok)
  • TeDDyRuSh
    #15
    Én egy kicsit aggódom, hogy el fogja veszteni maga a konzol az eddigi erejét a PC-vel szemben pár év múlva, ha ez így megy tovább. Mivel egyre kevesebb a saját fejlesztés, ezért egy jó konzol összeállítása csak azon fog múlni, hogy ki tud jobb szerződéseket kötni a gyártókkal és mi lesz a gép tényleges ára. Persze a kiegészítőkön és a játékokon is sok múlik, de egy 100ezres PS3 nem szakít akkorát, legyen az bármilyen tuti felszerelésű is, mint az Xbox360, ami már fele pénzért is igen jó minőséget ad. 10 év múlva szerintem az a konzol lesz a nyerő, aki a konfigokat nem maga állítja össze, hanem cserélhető modulok lesznek grafikára, procira pl. Csak úgy mint egy PC-n. Ez garantálhatja egy gyártónak, hogy 50-150-ig lehet gépe, ami a legjobban kielégítheti a vásárló igényeit.
  • NEXUS6
    #14
    Hát azért ebben benne volt a fantázia is nem?;)))

    Ha jól tudom a larrabee GPU-nak van tervezve és nem CPU-nak. Ráadásul bizonyos korlátok miatt nem is lehet a jelenlegi OS-eket futtatni rajta.

    Mondjuk a cell memória architektúrája lehet, hogy azt jelenti, hogy macerásabb programozni, de nagyobb sávszélességet és kisebb latenciát jelent.
    Másrészt az SPE-k 256 KB lokális memóriával rendelkeznek és nem 128KB-val.
    Szal valszeg arra, hogy egy sokszálú programot futtassunk kb mindkét proci ugyan ott van, azegyik itt jelent megszorításokat, a másik ott. De megint mondom a larrabee alapvetően egy GPU szerűség lenne!!!
    Másrészt a larrabee talán tényleg könnyebben kódolható/optimalizálható a jelenlegi kódolási módszereket is alkalmazva. De az elméleti lehetséges számítási teljesítmény és a gyakorlatilag kinyerhető sokkal messzebb van egymástól mint a cell esetében.

    Egy PC-esetében, ahol szinte félévente jönnek az újabb hw generációk nincs idő nagyon az architektúra megtanulására és az optimalizációra. Generációk mennek ki a divatból annélkül, hogy valaha is megközelítették volna a technikai lehetősük határait.
    A konzol esetén viszont lehet 10 éves élettartammal számolni. Ott érdemes olyan architekturát alkalmazni, amiből ha nem is könnyen de 90%-ra kinyerhető, az elméletileg lehetséges max teljesítmény.

    Szal szerintem itt nem arról van szó, hogy cell lesz-e vagy pedig más a CPU. Valszeg valami 32 magos, fejelsztett architekturájú cell.
    A kérdés sokkal inkább a GPU, hogy pl. ez különálló-lesz-e? Másrészt, hogy tényleg alapból a raytrace renderelés a lesz-e a jellemző, és akkor brutális számítási teljesítmény kell és az egyéb jellemzők háttérbe szorulnak. Így viszont a cell mivel nem tartalmaz a magjaiban olyan általános dolgokat, amiket a larrabee meg igen, valszeg költséghatékonyabb megoldás lehet.
  • kvp
    #13
    ""Az a chip gyakorlatilag egy halom 'atom' magot tartalmaz."
    aerröl még sohase hallotam. Egy link?"

    Az atom procik modernebb technikaval gyartott es kibovitett pentium mmx-ek. A larrabee is ilyen magokbol all, csak sokkal tobbol es meg jobb a simd tamogatasuk. Ez az intel dokumentumai kozott le van irva. Az atom egyfajta mellektermeke a larrabee project-nek, mivel rajottek, hogy kozponti procinak is jo. (lasd: intel.com, wikipedia)

    "Az OS csak akkor fut ha kell neki es mivel a magok egyenraguak, ezert mindig azon a magon ahol eppen meghivtak."
    a központi proccesszor nem csak az OS futtatásért felel...

    Ezert irtam, hogy ha minden mag kepes kozponti processzorkent mukodni, mivel teljes erteku x86-os, akkor nem kell kulon kozponti proci, mint a cell eseten. Igy elofordulhat, hogy az egyik magon fut a jateklogika, a masikon a fizika, a harmadikon a halozati kod, stb. es a maradekon a grafika. Mivel a mai os-ek kepesek szalakat kezelni, ezert a jatek indit N szalat, amit egyenletesen el lehet osztani a rendekezesre allo magok kozott. A kernel pedig mindig azon a magokon fut, ahol eppen kernel hivas van. Ez teljesen normalis egy mai 2-4-8-16-32 procis szerveren. A larrabee csak annyit tesz, hogy egy chipbe rakja az osszes eddig kulon allo magot es azokat egy szerver program helyett egy jatek hasznalja. Ez olyan mint a sima tobbprocis software rendering amit manapsag a hollywood-i filmtrukkokhoz hasznalnak. (csak 1 chipen)

    ""Az x86 alapu ps4 tenyleg olcso lehet"
    hát nem éppen. A mostani licencelős módszerrel sokkal olcsóbban tudja beszerezni a procikat, mintha a kész chipet integrálná a lapkára. Arról nem is beszélve, hogy ezeket nem fejleszti az intel tovább, hanem inkább uj architektúrát tervez. Ráadásul, ha legjobb intel proccesszorokat is rakja be akkor is 3 év alatt elavulna."

    Ha a larrabee-t rakja csak be, akkor ket chippel megussza az egeszet, mivel a larrabee chipben benne van N darab x86-os, egy sokcsatornas memoriavezerlo, videokimenetek es az eszaki hid a pcie buszokkal. A masik chip pedig a deli hid lenne a tobbi i/o illesztessel. Nagy mennyisegben az egesz alaplap kijonne kb. 100 dollarbol (kisker ar). Konzolok eseten pedig nem avul el a proci, a cell is csiga lassu egy mai tobbmagos core2-es intelhez kepest, megis hasznaljak.

    ""(pl. a lapkezelo aramkor miatt trivialis ra implementalni a Carmack fele megatexture eljarast, ami cell-en enyhen szolva beleutkozik a kis lokalis ramba, user modu swap kodot /overlay-ek tamogatasa/ meg mar dos ota senki nem ir ha nem muszaly)"
    na ezt mond el magyarul is"

    X86-on minden mag latja a teljes memoriat es nem csak egy 128 KB-os lokalis memoriat. Igy a betolteheto texturak merete akarmekkora lehet. Van benne virtualis memoria tamogatas, tehat kepes kezelni azt az esetet amikor a textura egy resze nem fer be a ramba, hanem a rendszer lemezrol lapozza be amikor eloszor hozzaernek. Igy egy orias nagyfelbontasu texturaval meg lehet oldani egy teljes terep megjeleniteset, aminek a kezeleset a hardver tamogatja. Cell eseten ezt az orias texturat atlag 4KB - 64KB-os darabokra kell vagni, majd darabonkent betolteni az SPE magokba. Tobbnyire az egesz darabot be kell tolteni, ha csak 1 pixel kell belole akkor is (x86-on atlag 64 byte 1 cache sor). Cell-en a betoltesnel az SPE szol a kozponti PPC magnak, hogy kell a darab, az betolti, majd szol az SPE-nek, hogy megjott, ami bemasolja a sajat ram-jaba. Es mindezt nem az operacios rendszer lapozo kodja vegzi, hanem minden programozo megirja minden egyes shader-hez. X86-on ezzel szemben csinal a programozo egy memory map-et (1 rendszerhivas) a textura file-jara, majd XY koordinatakkal belecimez egy 2D-s tombbe (1 utasitas). A tobbit az x86 lapkezelo hardvere elvegzi, szukseg eseten az os tamogatasaval. Na ezert egyszerubb progamot irni x86-ra vagy ppc-re, a cell spe-jeivel szemben. Ezert is van, hogy a ps3-nal a legtobb jatek csak a ppc magot hasznalja, mivel az hagyomanyos cpu.

    ""Arrol nem is beszelve, hogy egy x86-os alapu chipre sokkal konnyebb fejleszteni mint cell-re."
    nem éppen, fejleszteni ugyanolyan könnyü(vagy nehéz), csak optimalizálni nehezebb"

    Az spe-kben nincs virtualis cimter. Egy lapkezelo hardver nelkuli, 128KB ram-mal felszerelt 32 bites procira, ami csak dma-s blokk i/o kereszult latja a fo ram-ot nagysagrendekkel nehezebb progamot irni, mint egy 64 bites, tobb gigabyte rammal felszerelt, a veletlenszeru memoriahozzaferest is tamogato gepre. Raadasul az spe-k 128KB ramjaba be kell fernie a programnak is, tehat az adatok csak kb. a felet hasznalhatjak. Ez ma mar egyszeruen keves. Egy x86-osnak ma mar a cache-e nagyobb mint az spe-k teljes cimtere.

    Az agyon optimalizalt vektorprocesszorok es az egyszalu vegrehajasra kihegyezett cpu-k kozott feluton van a larrabee, ami gyakorlatilag egy nagyon sok processzoros x86-os szerver egyetlen chipbe zsufolva. Mivel ilyen sok cpu-s gepeket hasznalnak manapsag a nagy filmstudiok a filmtrukkokhoz, ezert egy ugyanilyen rendszer csak 1 chipbe zsufolva hasonloan jo eredmenyeket tud elerni. Az, hogy az x86-osokra konnyu es olcso fejleszteni csak abban jo, hogy a szoftverkinalat nagyobb lehet. Egy konzolt altalaban nem azert vesznek meg az emberek, mert az a leggyorsabb vagy az lenne kepes a legtobb szamitast elvegezni, hanem azert mert arra van tobb, jobb es olcsobb jatek.
  • Gaboca76
    #12
    Hát azt meg erősen kétlem hogy a sony kiszállna a bizniszből a legnagyobb húzó ágazatból aki felfutatta a konzol piacot!!! Hát ez egy nagy blöff, ahogy ismerem a japcsikat már csak azért is felveszik a kesztyűt. Meg hogy intel csinálja az egész ps4-et , kétes dolog egy " még be sem mutatták a Larbot" kettő "azt még nehezebb lesz programozni", három "az is igaz hogy a kompitabilitás is úszik", négy "az IBM el is levan szerződve talán" , de azért adok 20%kot neki hogy megvalósul a dolog... Meg arról hogy az NVIDIA kénytelen kiszállni a ps4 böl nagyon valószínűnek tartom mert elég drágán gyártja a GPUkat AMD grafikus magjai jóval olcsóbbak. És akkor ott lesz a Larb is meg hát a fúzión csipekröl se feletkezünk el ha kijön akkora a harmadik generáció az súlyosan lecsökkentheti a konzol előállítási árat(két csíp helyet egy ,magas adat sebeség stöbi).
  • Rexhawk
    #11
    "Az a chip gyakorlatilag egy halom 'atom' magot tartalmaz."
    aerröl még sohase hallotam. Egy link?

    " Az OS csak akkor fut ha kell neki es mivel a magok egyenraguak, ezert mindig azon a magon ahol eppen meghivtak."
    a központi proccesszor nem csak az OS futtatásért felel...

    "Az x86 alapu ps4 tenyleg olcso lehet"
    hát nem éppen. A mostani licencelős módszerrel sokkal olcsóbban tudja beszerezni a procikat, mintha a kész chipet integrálná a lapkára. Arról nem is beszélve, hogy ezeket nem fejleszti az intel tovább, hanem inkább uj architektúrát tervez. Ráadásul, ha legjobb intel proccesszorokat is rakja be akkor is 3 év alatt elavulna.

    "(pl. a lapkezelo aramkor miatt trivialis ra implementalni a Carmack fele megatexture eljarast, ami cell-en enyhen szolva beleutkozik a kis lokalis ramba, user modu swap kodot /overlay-ek tamogatasa/ meg mar dos ota senki nem ir ha nem muszaly)"
    na ezt mond el magyarul is

    "Arrol nem is beszelve, hogy egy x86-os alapu chipre sokkal konnyebb fejleszteni mint cell-re."
    nem éppen, fejleszteni ugyanolyan könnyü(vagy nehéz), csak optimalizálni nehezebb
  • kvp
    #10
    A larrabee-vel egy gond van. Az a chip gyakorlatilag egy halom 'atom' magot tartalmaz. Innentol egy larrabee kepes atvenni a kozponti processzor szerepet is. Ha egy magot kap a halozat, egy magot kap az MI, egy magot (na jo tobbet) kap a fizika, akkor a maradek magokon mehet a rendereles. Hova kellene ide meg egy kozponti processzor? Az OS csak akkor fut ha kell neki es mivel a magok egyenraguak, ezert mindig azon a magon ahol eppen meghivtak. Arrol nem is beszelve, hogy egy x86-os alapu chipre sokkal konnyebb fejleszteni mint cell-re. (pl. a lapkezelo aramkor miatt trivialis ra implementalni a Carmack fele megatexture eljarast, ami cell-en enyhen szolva beleutkozik a kis lokalis ramba, user modu swap kodot /overlay-ek tamogatasa/ meg mar dos ota senki nem ir ha nem muszaly) Az x86 alapu ps4 tenyleg olcso lehet es meg egyszeru is, csak eppen a kompatibilitas uszik megint el. Csak a ps3-as jatekok miatt meg nem eri meg meg egy cell-t is befoltozni a gepbe az x86-os magok melle.
  • Ruley
    #9
    Ja, és gondolod hogy azt most bejelentenék hogy senki véletlenül se vegyen most már PS3-t, mert mondjuk jövőre jön a PS4...

    Egészen a bejelentésig fogják tartani magukat ehhez a tíz éves terv baromsághoz...
  • Rexhawk
    #8
    a ps2nek is 10 éves életciklust terveztek.magyarán 2000ben adták ki és 2006ban jelent meg a ps3 és valszeg 2010ben fog kihalni a ps2. ugyanez lesz a ps3mal 2006ban jelent meg és 2012 körül jelenik meg a ps4 és 2016ban fog megszünni a ps3.
  • torcipepe
    #7
    vagy 2 hete pont itt az SG-n írták, hogy azért nem csökkenti a sony a PS3 árát, mert 10 éves ciklusra tervezték és ráérnek az árcsökkentéssel. magyarán vagy 5 évig a kisujjukat nem fogják mozdítani, hogy új konzolt fejlesszenek.
  • neoG
    #6
    Tadaaaa
  • Rexhawk
    #5
    haha a központi proccesszort biztos nem az intel fogja fejleszteni, mert ezt már a microsoft megtanulta :D
  • Szefmester
    #4
    érdekes elgondolás hogy az NV kiszáll... nem hiszem hogy nagyon visszafelé kompatibilisre meg tudnák csinálni ...
  • kvp
    #3
    Ha az intel veszi at a fejlesztest, akkor nem lesz powerpc/cell kompatibilis a rendszer, tehat az osszes jelenlegi jatek mehet a szemetbe. (nem mintha tul sok lenne) Az emulatoros probalkozasok mar a mostani konzol eseten sem jottek be. Ha kidobjak a kompatibilitast, akkor vegkepp a nintendo nyer, mert jelenleg az az egyetlen konzol csalad ami a legelso nintendos jatekoktol a legmodernebbekig mindent tud futtatni.

    Igaz, hogy az uj ibm fele cell nem nagyon alkalmas konzolokhoz es az intel fele larrabee igen, de a sony eleg nehezen tudna anyagilag tulelni meg egy architekturavaltast. Ha egy kicsit is talpon akarnak maradni a piacon akkor bele vannak kenyszeritve a ppc alapu cell-ek hasznalataba.
  • dronkZero
    #2
    Miiiiiiazisten az a kontroller ott a kis képen? :P Hol látok olyat egészben, nagyban? (még akkor is, ha csak poén)
  • readswift
    #1
    Inquirer = lószar