48
  • Oláh Herkules
    #48
    blender...
  • kvp
    #47
    Eleg nagy a kavarodas, de a helyzet a kovetkezo: Vannak a mai gpu-k amikben van X darab altalanos cpu mag. Ezek a magok tartalmaznak simd utasitasokat, amiket a felhasznalva egy utasitasban tobb muvelet vegezheto el. Az altalanos megoldasok 8-16 parhuzamos muveletet engednek meg egy fizikai utasitasban. Igy a gpu keszitok beszoroztak a magok szamat a simd utasitasok parhuzamossagaval. Ezeket hivjak szalaknak, vagy szal csoportoknak. A vliw rendszer egy egyszerusitett megoldas, ha valaki nem akar valodi szuperskalar cpu-t kesziteni. Egy mai intel proci tartalmaz atlag 5 pipeline-t, amik egymastol fuggetlenek, egy kulon in-order koherencia egyseggel megtamogatva. A gpu-k ezt ugy oldottak meg, hogy egy pipeline van, igy a koherenciat a fordito biztositja elore. Ez kb. 50%-al gyengebb mint a dinamikus futasideju optimalizacio, de nem igenyel kulon aramkoroket. A gpu keszitok kulon celhardverkent szoktak feltuntetni a load/store egysegeket is, pedig ez minden cpu-ban alap. A texture unit-ok is csak specialis load egysegek, mig a rop unit-ok specialis store egysegek. Erre a celra x86-os csaladban kombinalt egysegek szolgalnak, tehat minden load/store unit kepes irni es olvasni is. A lokalis rambol ket fajta van. A thread group local (vagy L1) az amit az intel regisztereknek hiv. A masik pedig a kartya teljes dinamikus ram-ja, amit a load/store egysegek cache-elhetnek ha akarnak (L2/L3). A valodi gpu magok szamat mindig a branch egysegek szama adja meg, a tobbi csak simd utasitasokbol van osszerakva.

    Tehat egy mai core2 quad processzor gpu terminlologiaval elve egy 64 magos videokartyanak felel meg, csak a szuperskalar felepites miatt a gpu-khoz kepest azonos orajelen ketszeres teljesitmennyel. (azaz egy 2Ghz-es core2-es egy 4Ghz-es gpu-val merheto ossze mips-ben)

    Az intel 48 magos rendszere pedig egy 768 magos gpu-nak felel meg, de a PI-es mikroarchitektura miatt itt nem ervenyes a ketszeres orjel szoro, tehat ezek orajelben mar 1:1-ben hasonlithatoak ossze a mai gpu-kkal. Fontos teljesitmenyveszteseg az is, hogy a textura szures szoftveres (mint a gf8800-asoknal volt), tehat egy filtered texture load akar 4 utasitas idejet is megeszi, ami a shader kodtol fuggoen lassitja a feldolgozast.

    "A (1 PPE & 7 SPEs) inkább egy többmagos x86-ra hasonlít mint akármelyik gpu-ra. Abban egyetértek hogy az összehasonlítást óvatosan kell kezelni."

    A cell-ekben van 1 darab 64 bites powerpc proci, ez egy modern risc ami jo. A 7 spe (8 volt, de a ps3-asok csak a selejteseket kaptak, amiben meg 2 hibas volt ment a bravia tv-kbe), amibol 6 volt hasznalhato (1-en ment a masolasvedelem) csak sima dsp volt. Egy viszonylag kis lokalis memoriaval felszerelt, nagyon gyors, de nagyon buta dsp. A fejlesztest pedig az fogta meg, hogy az spe-k nem lattak a teljes memoriat. Tehat mig egy gpu latja a kartya teljes sajat ram-jat, addig a cell spe-k dma-val keregethettek el a rendszerrambol az adatokat. Az az algoritmus aminek a dataset-je koddal es stack-el egyutt nem fer el 128 KB-on, csak modositva volt futtathato spe-n. Marpedig csak ezert az egy dsp-jert nem fogja senki atirni a kodjat, ami az osszes tobbi architekturan jol fut. Nem eri meg penzugyileg. Nem veletlen, hogy az ibm dobta a cell-ek fejleszteset. A sajat tervezoje is elismerte, hogy a crossbar memoriavezerlo kihagyasa sporolas miatt hiba volt, a kis lokalis ram pedig betett a programozok lelkesedesenek. Ki akar ugy fejleszteni, hogy a nagy szamitasi kapacitas egy merevlemez csatolonak is epphogy elegseges csatorna vegen van, es csak par KB ram van a procikkal egy oldalon? Ugy nez ki, hogy az ibm is megunta.

    ps:
    Miert nem arulja ezeket a sokmagos chipeket az intel? Mert teljesitmenyben eppen csak ott vannak mint a konkurensek, de az altalanos memoriakezeles es vedelem miatt ketszer annyi tranzisztor kellett ezekhez a chip-ekhez, tehat valami katasztrofalis a kihozataluk. Viszont 1-2 magos formaban atom-oknak hivjuk oket (16-32 magos gpu-k lennenek ha nem cpu-nak hasznalnak oket). Ha viszont elkezdenek arulni az eredetileg 48, de csak 12/24/36 mukodo magos hibas chipeket, mint low end cpu/gpu kombokat...
  • philcsy
    #46
    Az hogy az x86-on nevelkedett programozók nem tudtak mit kezdeni a Cell-procikkal, inkább a programozók "érdeme", mint az architektúra hibája, aki megtanult rá programot annak nem okozott problémát.

    A (1 PPE & 7 SPEs) inkább egy többmagos x86-ra hasonlít mint akármelyik gpu-ra. Abban egyetértek hogy az összehasonlítást óvatosan kell kezelni.

    Ami tény az elérhető teljesítmény / felhasznált energia arányban idáig a legjobb általános célra használható processzor. Lehet hogy a GPU-k nyers teljesítmény / felhasznált energia arányba verik de ott az elérhető teljesítmény általában a nyers teljesítmény alig tizede, kivéve a speciális feladatokat (a Fermiről meg majd idővel nyilatkozzunk).
  • RealPhoenixx
    #45
    Egyesek total megfeledkeznek errol:
    http://www.sg.hu/cikkek/33541/asztali_szuperszamitogepeket_iger_a_nemreg_megalapitott_orion

    Es errol:
    http://www.hwsw.hu/hirek/30775/bezarja-kapuit-a-96-processzoros-munkaallomasarol-ismert-orion.html

    Nyhe koppintas az egesz, a hatterben pedig az Orion ceg fejlesztesei vannak, amely ceg mara mar megszunt, nem veletlenul *valakiknek a keze rendesen ott volt*.
    Erdekesseg keppen csak a kovetkezot sugallom: 48*2=96
  • pasi29uk
    #44
    Linuxon 3D-re melyik programot ajánljátok?
    Objektum tervezésre, renderre valamint kisebb animációk készítésére gondoltam. Konfig egy Quad proci 4GB Rammal és egy nagyon profi videokarival támogatva a konfigom.
  • pixx
    #43
    Úgy írd inkább, hogy boxon, meg vannak a paraméterek, mikor készítesz egy játékot, ha valami túl nagy, vagy kevés a gépnek, a szoftver jelzi azt. PS3-nál ha valami nagy vagy kicsi, csak akkor tudod, meg ha játszol vele, mert mindent ki kell hozzá számolni.
    Milyen jó lehet, úgy programozni, hogy pluszba még egy szoftver munkáját is el kell végezni...
  • pixx
    #42
    Nekem van mindkettő grafban szerintem x jobb, ezt a Mirror's Edge alapján mondom...boxra megvettem, ps3-hoz adták...
    Heavy Rainben az arcok nagyon jók, de pl. a háttér az nagyon rossz, rengeteg szögletes tárgy van(aminek kereknek kéne lennie), mint anno ps2-n.
    God of War 3 nem rossz játék, de nem az csúcs grafika, amit vártam. Talán 2-3 év múlva már elő tudják hozni belőle a szörnyet, de addigra késő lesz már valószínűleg...hülyeség volt a cell-t belerakni, mert inkább visszavetett a ps3-ra való fejlesztésben...

  • Szemjuel
    #41
    nem nyers erőből verik meg a pc-t hanem az optimalizálásban! nyilván sokkal egyszerűbb egy szabvány gépre célprogramot írni, mint úgy megtenni, hogy állítgathasson minden faszságot a kedves user, meg ezerféle konfiguráción fusson ugyan úgy...
    ne hajtsad a butaságot plz

    @philcsy
    a cell processzor miért is volt csúcs? gyakorlatilag a programozók rémálma! de leegyszerűsítem: ha van egy 600 lóerős autód aminek olyan rossz a tapadása hogy nem tudsz elindulni vele normálisan, de ha elindulsz is csúszkálsz az úton. csúcsnak neveznéd? nem!
  • Bendegoose
    #40
    hali,

    tudna nekem abban vlki segíteni, hogy abit kn8/kn8 ultra -ba be tudok rakni, egy nvidia gts 250-et?
    az nvidia oldala írja, hogy ez a kártya pci-e 2.0-ás, csak az abit oldalán nem találom, hogy milyen típusú a pci-e foglalata.
    ha netalántán nem 2.0-ás a foglalat, attól még bele lehet rakni, fog működni?

    plz,
    hlp,
    thx,
    b.
  • Oláh Herkules
    #39
    arról nem is beszélve hogy az amd prociknál, csak opteronnál volt nem 2xX magos, asztaliak mindig natívan x magosak, tehát már jó rég van 4 magos nem csak 2x2.
  • zola2000
    #38
    Na igen, de a cell ez akkor is nyers erőben egy core2duonak felel meg, simán high grafikával viszi a gta4et, a crysis2t, és a ps3 legszebb játékai simán kinéznek úgy mint a legszebb pc játékok maxon egy drága pcn (pl grand turismo 5, uncharted 2, final fantasy 13 (az x360asnál jóval szebb! még mielőtt monodod hogy ott láttad). Bár szerintem magyarországon a legtöbben túlértékelik játékélmény szempontjából egy gép teljesítményét.
  • Inquisitor
    #37
    "ha jól tudom 1 év mulva jött ki pc-be, és az elmúlt 1.5 évben lett 4 magos proci előtte csak core 2 quad volt..."
    Az oké, hogy a C2Q "csak" 2x2 magos volt, de pl. 12 magos Opteronnál se vitatná senki, hogy a 2x6 mag az 12, skálázódásban ugyan ott van ...
  • Inquisitor
    #36
    "a monitorok usb-sek lesznek, azt jóvan

    Ez oltári nagy baromság, mert az USB 3.0 sem képes szinkron adatátvitelre."

    Remélem tisztában vagy vele, hogy vannak USB2.0-ás monitorok és működnek jól? Annyi hátulütője van, hogy mondjuk jó ha 30 képet tud másodpercenként, de nem hiszem, hogy az USB3 esetén ne lehetne ezt megoldani.
  • pixx
    #35
    Mármint az 512-es videókártya
  • pixx
    #34
    Xbox 360 mikor kijött 3 magos ibm power proci 3.6 ghz, 512 megás videkarival, ha jól tudom 1 év mulva jött ki pc-be, és az elmúlt 1.5 évben lett 4 magos proci előtte csak core 2 quad volt...
    A cell szerintem meg felesleges bármihez hasonlítani, esélytelen. Nem azonos a felépítése, és nem váltotta be a reményeket, és zsákutcába futott. Nehéz rá viszonylag írni bármilyen progit, mert a 0-ról kell kezdeni.
  • Oláh Herkules
    #33
    Lássuk csak:
    1 PPE & 7 SPEs

    tehát 1 egész multi funkciós mag, és 7 specializált kis tudású mag... ez neked hol 7 mag?

    Ennyi erővel volt soktíz/száz magos gépe (gpu stream processzor/cuda core :D)
  • philcsy
    #32
    "egy konzol még a kiadása napján se képviseli a csúcshardvereket befoglaló piac kis szegletét se!"

    Lássuk csak:

    PS3:
    November 11, 2006
    proci:
    3.2 GHz Cell Broadband Engine with 1 PPE & 7 SPEs(eredetileg 8 volt de 1 le lett tiltva?)
    Minden SPE egy 128bites SIMD egység.

    Hol volt neked 4 éve 7 magos géped mi 3.2GHz-en pörög? Még álmodba se.
  • philcsy
    #31
    Még egy példa arra hogy mennyire sokféleképpen nevezik el az egyébként azonos dolgokat:
    Egy 2 magos pentium-ot még véletlenül sem neveznének 8 magosnak csak azért mert SSE utasításkészletet használ ami képes 4*32bites műveletet elvégezni magonként.
    Az ATI HD5870-ben 320 db stream core található ezek 5 "szó" hosszú VLIW utasításkészlettel rendelkeznek. Ez összesen 1600 db utasítás párhuzamosan. Ha a processzorok számáról van szó 1600 magos GPU-nak nevezik és nem 320 magosnak.
    (A VLIW és az SSE közötti hasonlóságot most nem akarom kifejteni.)
  • philcsy
    #30
    "Amit "shared memory"-nak hív az Nvidia azt a többi "local memory"nak. És úgy tudom hogy terminológiailag is ez az utóbbi a helyes.

    Nem így van."
    Szerintem félreértettél.
    "AMD GPUs include a fast, high-bandwidth local memory for each work-group.
    Local memory is shared among all work-items in a work-group."
    ATI STREAM COMPUTING(4.5)
    "Local Memory: A memory region local to a work-group. This memory region can be
    used to allocate variables that are shared by all work-items in that work-group."
    OpenCL(3.3)
    "Each thread block has shared memory visible to all threads of the block and with the same lifetime as the block."
    NVIDIA_CUDA(2.3)
    (DirectCompute-ot nem ismerem.)
    Szóval mind a három lényegében ugyanarról a "memória tipusról" beszél, csak máshogy hívják.
    A problémát bonyolítja hogy a klasszikus parallel programozásban (régebben 1 magos hagyományos CPU-s hállózatba kötött egységekből indultak ki) is használták/használják ezeket a kifejezések. Ott a "local memory"-t csak egy processzor éri el, a "shared memory"-t pedig a processzorok egy csoportja. Persze azóta sok minden megváltozott, de ezek a kifejezések elég megtéveszőek lehetnek.
    Remélem így már érthető mire gondoltam.


    "Amikor meg az ATI specifikációban azt olvastam hogy "wawefromt" azt sem tudtam hogy eszik-e vagy isszák.

    Szinte biztos, hogy egy wavelet alapú codec-et támogató függvényre gondolsz. A mostani videó codec szinte kivétel nélkül FFT alapú, a wavelet a következő generáció (pl. Dirac), de egy nagyságrenddel számításigényesebb."
    A föntebb linkelt ATI STREAM COMPUTING dokumentációban (1.3) résznél megtalálod milyen "wavefront"-ra gondoltam.
  • ozric
    #29
    Az érdekes lenne ha a többihez is hozzá lehetne férni. Bár nem tudom mire lehetne használni.

    Hozzá lehet férni, csak nem publikus a módszer (csak NDA alatt érhető el). Egyedi meghajtókat lehetne írni a segítségével. Néhány CAD szoftver a mostani kártyákhoz (Quadro, FirePro) tartalmaz céloptimalizált egyedi meghajtót, és nem OpenGL vagy DirectX alatt működnek.

    Amit "shared memory"-nak hív az Nvidia azt a többi "local memory"nak. És úgy tudom hogy terminológiailag is ez az utóbbi a helyes.

    Nem így van. Az nVidia local memory nevet a regiszterekre alkalmazza (1024 db van magonként, de ez kicsit mixelt), de használatos az L1 memory név is. A shared memory a blokk memória neve, ennek is sok neve van, ez a másodszintű (Fermi: 64kB). A harmadszintű a globális memória, lényegében ez a grafikus processzor melletti memória (1-2 GB). Az nVidia lazán DRAM-nak hívja. Van még negyed szintű is, ez a host memory, ami a CPU mellett van. Az összes szint független egymástól, egyik sem gyorstár. Viszont a drága nVidia bevezette az L1 és L2 nevű (félkoherens) cache-t, ami a második és harmadik szinten található. Az OpenCL azért jobb, mert ott nem kell mindevvel törődni, a CUDA bonyolultabb de hatékonyabb.

    Amikor meg az ATI specifikációban azt olvastam hogy "wawefromt" azt sem tudtam hogy eszik-e vagy isszák.

    Szinte biztos, hogy egy wavelet alapú codec-et támogató függvényre gondolsz. A mostani videó codec szinte kivétel nélkül FFT alapú, a wavelet a következő generáció (pl. Dirac), de egy nagyságrenddel számításigényesebb.
  • Szemjuel
    #28
    egy konzol még a kiadása napján se képviseli a csúcshardvereket befoglaló piac kis szegletét se!
    max a ps1 amikor megjelent mindenki elélvezett a cd berakásán. és kifújt
  • philcsy
    #27
    Eléred a "texture units"-ot is.
    Az érdekes lenne ha a többihez is hozzá lehetne férni. Bár nem tudom mire lehetne használni.

    A nevezéktan tényleg érdekes. Pl.: Amit "shared memory"-nak hív az Nvidia azt a többi "local memory"nak. És úgy tudom hogy terminológiailag is ez az utóbbi a helyes.
    Amikor meg az ATI specifikációban azt olvastam hogy "wawefromt" azt sem tudtam hogy eszik-e vagy isszák. Még most sem teljesen világos hogy ez számomra mitjen következményekkel jár. (Ha ebben jártas vagy leírhatnád röviden.)
    De ezen nem kell csodálkozni. Új terület, megbocsátható. Mind a két oldal elég zártan fejlődött idáig, így nem csoda hogy saját szleng alakult ki. Mi meg foghatjuk a fejünket.
  • zola2000
    #26
    48 mag, aztaa, de szerintem először csak konzolokban lesz ilyen technológia megfizethető árban, az ilyen pck csak megint a generációváltás után 3 évvel fognak elterjedni...
  • ozric
    #25
    Az SFU nem CUDA mag része.

    Igaz, az SFU a szálblokk része. Viszont a CUDA magok közvetlenül elérhetik, a többi céláramkört csak a DirecX/OpenGL meghajtón keresztül, CUDA nem tud mit kezdeni velük.

    Mellesleg amit szálblokknak hívok az
    - nVidia szerint: Streaming Multiprocessor (SM)
    - Khronos (OpenCL): Compute Unit
    - Brook+ (ATI): Stream Processor
    - programozási leírások + régi CUDA: thread block, vagy simán block,
    szóval nem egyértelmű.
  • philcsy
    #24
    Fermi - 16 Streaming Multiprocessor

    Streaming Multiprocessor:
    -32 CUDA core
    -16 Load/Store Unit
    -4 Special Function Units

    CUDA core:
    -1 ALU
    -1 FPU

    Az SFU nem CUDA mag része.
    forrás
  • ozric
    #23
    Nézd meg jobban a doksikat, az SFU a Cuda mag része. Minden szálblokkhoz tartozik 4, és a GPGPU számításokhoz is használhatóak. A többi céláramkör meg nem.
  • ozric
    #22
    Ebből a szempontból primitívebb mint a Fermi.

    A Fermi félkoherens:

    "if the read and write paths are separate, it may be necessary to explicitly flush the entire write / ‘‘export’’ path before it is safe to issue the read, and any caches on the read path would not be coherent with respect to the write data."
    Forrás

    Viszont az Opteron a foglalatok között is cache koherens (L3).
  • philcsy
    #21
    +64db SFU-t ami képes összetett függvények számolására: sin, cos, sqrt, ...
  • philcsy
    #20
    Az előbb linkelt oldalról ajánlom figyelmedbe a következő idézetet:
    "each core has 2 levels of cache, there is no hardware cache coherence support among cores"
    Ebből a szempontból primitívebb mint a Fermi.
  • philcsy
    #19
    link

    "Az intel 48 magos chipje 48 darab pentium 1 mmx-es felig skalar cisc processzor magot tartalmaz, csak felbovitettek 64 bites vektoros utasitasokkal." Nem. 24db 2 magos egységet tartalmaz. Ergó 24db független 2 magos processzor, közös memóriavezérlővel. Annyira elszeparáltak hogy külön L2 cache-ük van és a magok közötti kapcsolatot is routernek nevezik.

    "Nem fujtak le, csak elhalasztottak, mert nem erdekuk versenyezni. Ha az lesz, akkor a tobbi cegnek annyi."
    Lehet szépítgetni adolgon de a tények:
    -2010 ejére volt mejelentve a Larabee
    -2090 nyár végén bejelentették hogy nem adják ki a Larabee-t, mert az nem lenne versenyképes a konkurens termékekkel, de a tapasztalatot felhasználják a későbbi sokmagos architektóráknál
    Ez nekem buktaszagú.

    Mi az hogy ne lenne érdekük versenyezni? Ilyet még nem hallott a kapitalista világ!
  • ozric
    #18
    Ma mar egy gpu-ban sincs celhardver, mind kivetel nelkul altalanos cpu

    Ekkora marhaságot..

    Még az nVidia Fermi (GF100) is tartalmaz tartalmaz célhardvert, nemhogy a AMD Radeon (Cypress).

    "The GF100 will have:
    * 512 CUDA processors (Unified Shader cores)
    * 16 geometry units
    * 4 raster units
    * 64 texture units
    * 48 ROP engines"
    Forrás

    A GPGPU egy más világ, a magok nem függetlenek hanem szálblokkonként programozhatóak (pl. fermi esetén 32 db egységekben). Azaz minden 32 mag szinkronban végzi ugyanazt a műveletet, vagy 16 (= 512/32) független processzorként használható 32-ed teljesítménnyel.
  • Szemjuel
    #17
    48 p4-es magot tartalmaz feldobtad a napomat
  • kvp
    #16
    Ma mar egy gpu-ban sincs celhardver, mind kivetel nelkul altalanos cpu, csak cisc helyett risc-es utasitaskeszlettel, vektormuveletekkel es memoriavedelem es virtualis memoriakezeles nelkul. Az intel 48 magos chipje 48 darab pentium 1 mmx-es felig skalar cisc processzor magot tartalmaz, csak felbovitettek 64 bites vektoros utasitasokkal. Viszont megmaradt a lapkezles alapu memoriavedelem es a virtualis memoria lehetosege is.

    "Ha ez tényleg versenybeszállhatott volna a grafikus processzorokkal akkor féléve nem fújják le a Larabee-projectet."

    Nem fujtak le, csak elhalasztottak, mert nem erdekuk versenyezni. Ha az lesz, akkor a tobbi cegnek annyi.

    "nem kell majd 3d gyorsítás, dsp, meg egyéb célhardver. a monitorok usb-sek lesznek, azt jóvan. bár a drágajó májkroszoftnak lesz ehhez az extra védett módhoz egykét szava."

    3D gyorsitas kelleni fog, dedikalt shader szoftverrel, csak altalanos cpu magon futtatva. (az intel integralt ramdac chipeknel most is ez tortenik) Az ibm anno csinalt mar intel cpu-s 3d gyorsitos videokartyat, meg az xt-k idejeben. (egy kisebb csaladi haz araba kerult es par Mhz-es, 1 magos 8086-os volt, 640x480x8bbp-s felbontassal) Az usb pont nem jo a monitorokhoz, ennel sokkal hasznosabb es olcsobb lenne rezes 10G-s ethernetet hasznalni. Letezik, es kis tavolsagokra (2.5 meter) pont jo. De mar terjed az olcso optika is.

    A microsoftnak egyebkent ez az egysegesitett architektura lenne a legjobb, mert mindent ok fejleszthetnenek, belertve a 3d-s driver-eket, ami egyszerubbe tenne az eletuket. (kevesebb fele hardver tamogatasa = stabilabb windows)
  • philcsy
    #15
    Találtam egy decemberi cikket a HWSW-n. Úgytűnik ez ugyanaz, és ennek nincs köze a Larabee-hoz.
  • Scamp
    #14
    Ez a 48 magos proci 45nm-en készült és 48 db P4-es magot tartalmaz. Valahol olvastam róla december környékén.
  • lee56
    #13
    Hát nem is tudom... 48 darab atom-mag :) Ha hozzámvágnák se kéne :D
  • barcames
    #12
    lesz vagy 200ezer
  • philcsy
    #11
    A célhardware-ek hatékonysága mindig jobb lesz, ez tény. Ha ez tényleg versenybeszállhatott volna a grafikus processzorokkal akkor féléve nem fújják le a Larabee-projectet.
    Van arról hír hogy milyen csíkszélességgel készül? Mert anélkül nem szabad összehasonlítani őket.
  • philcsy
    #10
    Végre megjelent a Larabee, vagyis az ami lett belőle..
  • duke
    #9
    "akkor is siman lehet belole egy rendes pc-t epiteni, mondjuk 24 mag a videokartyanak, 2 a rendszernek. Es meg igy is hozna egy jobb geforce tudasat. "

    Erdekes lenne,ha jovoben a videokartyak szoftveresek lenenek.Alaposan atalakitanak a videokartya piacot.