• dez
    #61
    "Hat nem, csak akkor ha a videokartyan van a tuner. Minden mas esetben utazik egyet az adat a rendszermemorian keresztul, majd overlay-kent kerul ki a videokimenetre. (live texture-kent) Mindketto lehet dma-s de azert a rendszermemoria nem tul gyors."

    Hát, én határozottan úgy emlékszem, hogy egyszer az egyik tuner leírásában azt fejtegették, milyen körülmények között tud megvalósulni a közvetlen írás, de mindegy.

    "ami mindossze egy regiszter keszlet valtast igenyel"
    Ez pl. a Cell SPE-i esetén 128db 128 bites regiszter váltását igényelné (2KB), de a mai DX10-komp. GPU-knál már ilyen 1024-es számok figyelnek... Bár valószínű a Larrabee magjaiban kevesebb lesz, és a shader-compilerre hárul majd a feladat ennek elfedésére.

    Éppen azért van local storage ram az SPE-kben, és nem cache, mert előbbinél egy 32 bites adat vagy utasítás word a tényleg 32 bit, nem egy egész cache-line, ami a többszöröse. Ezt értsd már meg, hogy ha cache lenne, sokkal kevesebb lenne belőle.

    Úgy tűnik, kevered a cache-es rendszer karakterisztikáját a local storage-esével. Utóbbinál nincs kiszámíthatatlan memória-művelet (tehát hogy nem tudhatjuk, hogy a cache-ből jön-e az adat, vagy a rendszer-memóriából). Ha a local storage-et címzed meg, akkor onnan jön, ha meg DMA-zol, akkor nem. Plusz nem áll le a kód-végrehajtás az DMA elindulása miatt. Szóval nem tudom, miről beszélsz. Ja, hogy FUD-olsz már megint. Egyébként meg double-bufferinggel lehet javítani a kihsználtságon.

    "A lenyeg, hogy nem kell a kodot modositani, ha valtozik a magok szama, a cache merete, vagy a cpu belso felepitese."
    Ebben azért nem lennék olyan biztos. Bizonyos magszám felett, ha megőrzik ezt a teljesen általános célú felépítést, egy igen széles memóriabusz is szűk lesz.