Intel: akár 1000 magos processzorok is jöhetnek
Jelentkezz be a hozzászóláshoz.
Az! Sajnos
Én: akár piros hó is eshet <#bee1>#bee1>
Sajnos az van, hogy a modern algoritmusok arra épülnek, hogy a memória gyors, és ez az alapvetés dõl meg a sok magos rendszereknél. Eleve a fordítók is elég gyakran stack orientáltak - kevéssé használják ki a regisztereket. És ugye a stack az memória.
Szerintem nem elég a több és gyorsabb memória. 100x nem lehet memóriát gyorsítani, mondjuk 1 év alatt. Inkább a memória Random Access tulajdonságát kellene felülbírálni. Kellenének Semi-ROM, vagy ritkán írható, konstans memóriák is a gépbe. Ha egy memória részt lehetne hosszabb ideig "konstansnak" definiálni, akkor abból megérné akár 1000 különbözõ mag számára is másolatot készíteni a saját dedikált cacheükbe, mert biztos lehetne benne a cache/memória vezérlõ, hogy ritkán kell az 1000x lemásolást elvégeznie. De amíg 3 bytenyi memóriaterület változik miliszekundumonként, az utána következõ 10K meg a program futása alatt végig statikus - mert a programban konstansnak vettük fel -, addig ezt nem lehet megcsinálni. Szóval szerintem a magok számának hatékony növeléséhez a jelenlegi memória felépítést alapvetõen kell megváltoztatni.
Ĥ|Ψ>≈iħ∂|Ψ>/∂t (Az ember) \"Tudásra törpe és vakságra nagy.\" \"Ami igazán lényeges, az a szemnek láthatatlan.\" Használj TE is szinkrotronsugárzást!
Nyugi, nem fognak kihalni az egymagos magas órajelû processzorok.
Viszont van egy rakás olyan feladat - lényegében a számításigényes feladatok nagy része ilyen - amely igen is jól párhuzamosítható. Azért mert az adat amin dolgozik nagyságrendekkel kissebb mint az elvégzendõ utasítások száma. És nem csak a HPC-ben hanem hétköznapi használatban is.
Csak egy:
A vírusírtók azért terhelni szokták a rendszert.
Vírusellenõrzés egyik formája az adatbázisban lévõ víruskód direkt keresése. (Tudom régi meg van más jobb is, és vannak erõs korlátai is, mégis ez az egyik legálltalánosabb és folyamatos frissítéssel hatékony is.) Minden probléma nélkül lehet párhuzamosítani GPU-val. (Azt már nem fogom idírni hogy hogyan 😊.)
Képszerkesztõ/képfeldolgozó rendszerek. Beszédfelismerõ rendszerek. Kódoló/dekódoló eljárások. Tömörítési eljárások. Neurális háló alapú rendszerek. Soroljam még?
Ĥ|Ψ>≈iħ∂|Ψ>/∂t (Az ember) \"Tudásra törpe és vakságra nagy.\" \"Ami igazán lényeges, az a szemnek láthatatlan.\" Használj TE is szinkrotronsugárzást!
Nayon sokmindent lehet párhuzamosítani.
Viszont ha azt mondod hogy nagy adatmennyiségnél és egyszerû keresésnél (az elem vizsgálata egy vagy néhány lépésbõl megvan) a memóriahozzáférés lesz a szûk keresztmetszet akkor igazad van. Ez addig gyorsul amíg a memsávszélesség bírja. 1000 magnál pedig ...
Ĥ|Ψ>≈iħ∂|Ψ>/∂t (Az ember) \"Tudásra törpe és vakságra nagy.\" \"Ami igazán lényeges, az a szemnek láthatatlan.\" Használj TE is szinkrotronsugárzást!
Erre találták ki az L3 cachet...
Nagy igazság: "A diploma a lényeg, nem a tudás" Aki darabolva tölt fel torrentet az egy hülye köcsög :)
- Memória. Ha magokhoz van a cache dedikálva, akkor akkor van baj, ha ugyanaz a terület kellene mindkettõnek. Mert akkor ha egyik beletúr, másiknak borítani kell a cache-t, és máris tetû lesz. Ha meg nincs magokhoz dedikálva, akkor meg globálisan lassú.
- Asszimetrikus erõforrásigény a szálak között. Van 1 fõ szál, amin kellene futnia annyi "kódsornak", mint 999 másikon együttvéve. Máris olyan lassú lesz az 1000 magos rendszer, mint egy sima 2 magos, mert 999 mag 0.01%-on teker, míg 1 meg 100%-on.
Szóval persze, van olyan dolog, amire jó, de általános célra a nagyon sok - és éppen ezért egyesével relatíve lassú mag - ritkán ér többet egy kalap szarnál.
https://twitter.com/foodlfg
g73jh, sapphire 6970, amd 1090t, crosshair 4 formula, vertex 2 120gb, 8gb corsair 1600mhz
Egy egyszerû példa a párhuzamosításra? És vannak bõven helyek ahol ilyen egyszerû formában is használni lehetne.
"Nagyon nincs köze az OpenMP-nek az átlag programok párhuzamosításához..."
Mért nincs? Mert a programozók nagy része azt sem tudja mi az. Nem pedig azért mert nem lenne használható (nem csak ez az egy utasítás van). De valahogyan a windows-os több szálindítást sem nagyon akarják használni. Lehet hogy arról sem hallottak még?
Ĥ|Ψ>≈iħ∂|Ψ>/∂t (Az ember) \"Tudásra törpe és vakságra nagy.\" \"Ami igazán lényeges, az a szemnek láthatatlan.\" Használj TE is szinkrotronsugárzást!
Te az elsõ elemet keresni szoktad? Nekem ott az elején.😊
Egy sima keresés ebben az esetben nem nagyon trükkös, csak kell egy plusz változó ami jelzi ha valamelyik szál megtalálta a keresett elemet, hogy a többi is leálljon.
Ĥ|Ψ>≈iħ∂|Ψ>/∂t (Az ember) \"Tudásra törpe és vakságra nagy.\" \"Ami igazán lényeges, az a szemnek láthatatlan.\" Használj TE is szinkrotronsugárzást!
A=B+C
B=A+C
C=A+B
1000 magon is ugyanolyan gyors lesz mint 1 magon, mert minden utasításnak szüksége van bemenetként az elõzõ utasítás kimenetére. És egy átlagos algoritmusra - ha nem is ilyen szinten - ez általánosságban jellemzõ.
Amit igazán párhuzamosítani lehet az ritka, mint a fehér holló.
3d vizualizáció és egyéb objektum lakatos, illetve maxscript challenger. render engine szaki, és szeretem a süteményt. xD donorok privátban jelentkezzenek. köszönöm.
100ghz-s procit sem. Inteltõl mindent szétalázó gpu szerûséget sem, stb stb.
Nagy igazság: "A diploma a lényeg, nem a tudás" Aki darabolva tölt fel torrentet az egy hülye köcsög :)
shaken, not stirred
#include <omp.h>
...
#pragma omp parallel for
for , amit parallelizálni akarsz
Persze ha valami trükkös ciklus van ami közös adatokat változtat arra figyelni kell és nem csak 2 sor az egész.
Ĥ|Ψ>≈iħ∂|Ψ>/∂t (Az ember) \"Tudásra törpe és vakságra nagy.\" \"Ami igazán lényeges, az a szemnek láthatatlan.\" Használj TE is szinkrotronsugárzást!
,,Boldogok, akik üldözést szenvednek az igazságért, mert övék a mennyek országa.\" //INRI
Nagy igazság: "A diploma a lényeg, nem a tudás" Aki darabolva tölt fel torrentet az egy hülye köcsög :)
Na itt a lényeg. Egészen addig, amíg az alkalmazások nem képesek a több processzormagban rejlõ nagyobb számítási kapacitás hatékony kihasználására, addig vajmi kevés jelentõssége van a sokmagos processzoroknak. Ezért is volt jó döntés a 48magos procik átadása a kutatóknak, hogy legyen idejük olyan szoftvertechnológiai megoldásokat kidolgozni, amik képesek a többlet teljesítmény hasznosítására.
Dchard
Nagy az Isten állatkertje csak túl alacsony a kerítés!