Hunter

Új rendszer tökéletesíti a szintetikus látást

A Yale Egyetemen az emberi látórendszeren alapuló szuperszámítógépet fejlesztettek ki, ami minden korábbi kísérletnél gyorsabbnak és hatékonyabbnak ígérkezik.

Környezetünk vizuális értelmezése nem tűnik komplikált feladatnak. Az utcákon közlekedve különösebb agymunka nélkül, azonnal felismerjük az autókat, az embereket, fákat és lámpaoszlopokat, holott ez elképesztő számítási teljesítményt igényel, amit az emberi agyat utánozni próbáló számítógépes rendszerek bizonyítanak.

Eugenio Culurciello, az amerikai Yale Egyetem mérnöki és alkalmazott tudományi karának munkatársa az emberi látórendszeren alapuló szuperszámítógépet fejlesztett ki, ami minden korábbi kísérletnél gyorsabbnak és hatékonyabbnak ígérkezik. A NeuFlow névre keresztelt rendszert az emlősök látórendszere inspirálta, a környezet gyors kiértékeléséhez egy olyan több fázisú neurális hálózatot alkotva, ami képes az agy vizuális feldolgozási folyamatainak modellezésére. Minden fázis három rétegből áll, egy felüláteresztő szűrő rétegből, egy nemlineáris rétegből és egy kiemelő rétegből, melyeket egy osztályozó modul zár.


A rendszer kulcsát azok a komplex látási algoritmusok jelentik, amiket Yann LeCun, a New York Egyetem kutatója a szintetikus látási alkalmazásokat kiszolgáló nagy neurális hálózatok működtetéséhez fejlesztett ki. Culurciello és LeCun a rendszer megalkotásakor a jövő automatikus, emberi beavatkozás nélkül közlekedő gépjárműveit tartotta szem előtt. Ahhoz hogy az utakon előforduló különböző objektumokat, az autóktól és az emberektől kezdve a közlekedési lámpákon és jeleken át egészen a járdákig bezáróan mindent felismerjen, különös tekintettel magára az útra, a NeuFlow több tíz megapixeles képeket dolgoz fel valós időben.

A gyorsaság mellett a rendszer nagy erénye a rendkívüli hatékonyság. Több, mint százmilliárd műveletet futtat másodpercenként mindössze néhány wattnyi energia felhasználásával, ami mindössze egy mobiltelefon energiaéhségével vetekszik. "Az egyik első prototípusunk máris túlteljesíti a grafikus processzorokat a látási feladatokban" - tette hozzá Culurciello.

A saját fejlesztésű hardver egyetlen chipen helyezkedik el, mégis nagyobb teljesítményre és hatékonyságra képes, mint a grafikus processzorral felszerelt nagygépek, amik megközelítőleg 300 Wattból oldanák meg ugyanezt a feladatot. A NeuFlow bármilyen kereskedelemben is kapható kamerával, vagy képszenzorral működik, és kis súlyának és méretének köszönhetően implementálható beágyazott platformokba, érzékelő hálózatokba, vagy akár a mobiltelefonokba is. "A teljes rendszer nem lesz nagyobb egy pénztárcánál, így könnyedén beépíthető az autókba és egyéb helyekre" - mondta Culurciello.


A rendszer működése egy augusztusi bemutató felvételen

A gépjárművek mellett a rendszer a robotok navigációs képességeit is fokozhatja. A 360 fokos szintetikus látás a hadsereg érdeklődését is felkeltette, ugyanakkor a megoldás az idős vagy beteg emberek megfigyelésénél is hasznos lehet.

Hozzászólások

A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
  • Alfa Of NS #25
    Ne gondolkozz ennyire algoritmusokban, különben nem fogod látni a működés lényegét. Valódi szoftveres (és egyben memória) megoldás meg csak az emlősöktől van jelen. A hardveres alap már a hüllőknél megjelenik, de csak primitív módon.
  • HADOPILUZER #24
    Értem, hogy mit akarsz mondani, mester.

    Végülis akkor kétirányú a látási folyamat... egyrészt kívülről indul el az információ közvetítése befelé a látóközpont-hyppotalamus pályán , másfelől viszont belülről a "Kernel szintről" érkeznek az utasítások az integrált szűrő algoritmusokkal, hogy mit akarunk egyáltalán látni. Valahol középtájt pedig találkozik a két egység és egyeztet. Hogyan lehetne ezt lefordítani a számítéstechnika nyelvére , digitalizálni ezt a folyamatot ?

    Az integrált szűrő algoritmusok menet közben is programozhatóak kell lennie, hiszen eldönthetjük, hogy mit akarunk látni, mit keresünk , mely tárgyakat szeretnénk éppen felismerni, vagy egyszerűen csak bambulhatunk is , ilyenkor az értelmező kernel stand by-ba megy :)

    Végülis az elmondásod alapján valóban nem olyan lehetetlen a tárgyfelismerő robotot elkészíteni, viszont a programját eleve önmódosító kernelre kell írni, hiszen az első gerincesek óta képesek az élőlények a tanulásra, ami az embernél a kernel önfordítását , a tanulást jelenti , az halaktól az emberig, pedig a RAM kibővítését. A halak 330 millió évvel ezelőtt a Silur földtörténeti korban kezdték el a tanulás kifejlesztését, az emlékezőképesség, a RAM alakult ki először mintegy 30 millió éves evolúció alatt, az egyre kiszáradó tavacskák között a halak , az árapályok váltakozása miatt évről évre vissza kellett hogy találjanak az ivóhelyükre , ehhez viszont szükségszerűen ki kellett fejlődie a RAM-nak, amivel a rovarok és skorpiók máig nem rendelkeznek, ezek az élőlények inkább tekinthetőek robotnak, mint tudatos lénynek, szinte csak a vezérlőprogramjuk van (ami persze nem egyszerű) .A halaktól a kétéltűkig az hagymájának az első számú legbelső részéről beszélhetünk a limbikus rendszerről. A hüllőagy a következő hagymaréteg amely ránőtt az idők folyamán ez már lehetővé tette bizonyosfokú magasabbszintű , az operációs rendszeren futó alfolyamatok , szubrutinok önmódosulását, tehát a tanulás kezdetleges formáját. Az emlősöknél ez egyre jobban fejlődött, majd a főemlősöknél jött létre a neokortex, az agykéreg legkülső része, amely már lehetővé teszi akár az operációs rendszer teljes önátírását is. Ezt nevezzük tanulásnak. Kezvde az beszédmotortól a világ látásmódján át , az önértékelésünkig mindent mi magunk döntünk el, kivéve a BIOS szintű kernelfolyamatokat, úgymint a belek és gyomor mozgatóizmainak működése. Az önmódosító kernel viszont veszélyes is, mert ha egy hibás új alfatesztvezió kerül vezérlőstátuszba akár az öngyilkosságra való hajlam is előtörhet.
  • feri79 #23
    Az a 400MB/s talán elsőre soknak tűnik, de ha azt mondom, hogy a FullHD kép HDMI-n történő átviteléhez 5Gbit/s (~640MB/s) kell akkor már nem is olyan sok. Főleg, hogy egy nagyobb teljesítményű kártya akár egy időben 6 ilyen képet is képes előállítani (ATI Eyefinity) és még csak nem is 24fps-on. Ezek ráadásul csak a nyers adatok. Bár a látás nagyon gyors folyamat ez csak azért lehet, mert rengeteg dolgot az agy kikövetkeztet/feltételez/leegyszerűsít. Lásd érzéki csalódások
  • kvp #22
    "az átlag 5,5 millárd pixelre jutó , általad 1 Mhz / pixel eredményt , az agyban akkor is össze kell kötnie egy központi vezérlőegységnek ahhoz, hogy a kapott képet ne pixelenként , hanem egybe értelmezze"

    Nem jut el az agy tudati reszehez ennyi adat. A kepekbol eloszor egy melysegi es mozgasterkep keletkezik. Aztan az osszes adat alapjan szegmentalt lista, ez az agy altal felismert targyak vagy targycsoportok listaja, ami mar viszonylag rovid. Ezen targyak kozzul tobbnyire a latomezo kozepen levon fut le az asszociativ felismeres, ami gyakorlatilag egy parhuzamositott statisztikai mintaillesztes. A kimenete mar csak par fogalom.

    Peldaul: bejovo kepek (bitmap) - melysegi es mozgas terkepek (vektor map) - szegmentalt lista (area list) - megfigyelt targy adatai a tudati reteg fele (property list): a falon van, mutatos ora, feher hatter, fekete betuk, haromnegyed 8-at mutat... Ez jo esetben is csak par byte-nyi adat, ennyi megy tovabb az agy tobbi resze fele. (ezekhez a fogalmakhoz kotodo neuronok tuzelnek a mintailleszto adatbazisban) Egy ujsag eseten az elso rapillantasnal peldaul: asztalon van, feher hatter, fekete betuk, ujsag formaju szoveg. Ebbol ket kimeneti fogalom is azonos, tehat nem igenyel kulon kimenetet, mivel tobb bejovo inger eseten is tuzel. Az agy tudati resze ezen mintak alapjan rakja ossze azt, hogy mit latunk. Aztan ha az ember kivancsi ra, akkor alaposabban is megnezi a kerdeses targyat, ami ekkor tobb darabra szegmentalodik, es egyesevel is felismerodnek a reszek, pl. az oranal a gyartoja, a szamok tipusa, ujsagnal pedig megkezdodik a szoveg felismerese, tehat az olvasas.

    Meglepo, hogy mennyire keves adat jut el a tudati retegig a latott informaciobol. Csak azert hisszuk, hogy minden azonnal eljut, mert barmire fokuszalunk a latorendszer pont azt fogja alaposabban feldolgozni. Igy egy teljes helyszin vegignezheto, a nelkul, hogy egy 'kepkocka' alatt kellett volna mindent feldolgozni. Csak par autista kepes egy villanasnyi kep alapjan kesobb mindenre emlekezni, de ez a normal embereknel informacio tulterhelest okozna. (az autizmus egyik oka pont ennek az informacioszuronek a hianya)
  • HADOPILUZER #21
    valaki felvetette hogy a perifériás látómezőben kisebb a felbontás, ez így is van, csakhogy az átlagosan 4-7 megapixeles felbontás a fokális látómezőre érvényes.
  • HADOPILUZER #20
    az átlag 5,5 millárd pixelre jutó , általad 1 Mhz / pixel eredményt , az agyban akkor is össze kell kötnie egy központi vezérlőegységnek ahhoz, hogy a kapott képet ne pixelenként , hanem egybe értelmezze, ha pedig az 1 Mhz-et beszorzod 5,5 milliárddal akkor már szép kis eredményt fogsz kapni ( 5,5 petahertz ) és ez még mindig csak az átvitt nyers kép az agyban , hol beszéltünk még a tudatos látásról, amely a trilliárdnyi lehetőségből csak a releváns szekvenciákat válogatja ki , MÁSODPERCENKÉNT 24-szer !
  • Villanypásztor #19
    "10 eve csinaltak a SZTAKI-ban egy fpga alapu implementaciot is. Ha jol latom a yale-es csapat ezt masolta le. "

    Nem akarok nagyon negatív lenni és távol álljon tőlem hogy leszóljam a sztakisok eredményét, de attól, hogy fpga-n fut és optical flow még nem biztos hogy másolat. Az alap optical flow nem egy annyira elképesztően bonyolult dolog és fpga-hoz is értenek páran, szóval nem egy fpga-s implementáció készült már. A varázslat még csak azután jön.

    Egyébként meg a lentebbi számítás a másodpercenkénti sokmilliárd bitről leginkább ott hibázik, hogy a látókéreg ezt az adatmennyiséget nem küldi el direktben az agy többi részének, hanem csak egy már előfeldolgozott változatot. (legfőképpen éldetektálás és optical flow) Ez az előfeldolgozás pedig jól párhuzamosítható képelemenként.
  • csimmasz #18
    Neked barátom hullik a vetőmag a zsebedből,mi?
  • Kara kán #17
    Alapvetően mintákat látunk, és utána konkretizáljuk az infókat.
    A mintafelismerés pedig már számítógépesített, pl. az arcfelismerő szoftverek remekül teljesítenek már ma is. De az OCR is lassan utoléri az emberi képességeket.

    Hol itt a probléma?
  • kvp #16
    Biologiai szempontbol a latas tobb lepcsokbol all. Az elso a kepminoseg javitasa es a zajszures, melyet meg a retina vegez. Azan a latoidegek keresztezesenel tortenik az optical flow alapu feldolgozas, ami a ket szembol erkezo kepek diszparitasa alapjan eloallitja a melysegi terkepet (terlatas), tovabba az egy-egy szembol erkezo idobeli kepsorok alapjan az elmozdulasi terkepet (periferialis latas). Ezutan jutnak el a latokozpontba az eredeti kepek es a ket terkep. Ebbol az agy mar elo tud allitani egy felosztasi terkepet (szegmentalas), tehat tavolsag, mozgasi irany, sebesseg, szin es konturok alapjan nagyjabol szetvalogatja a targyakat. Ezutan az eppen a latomezo kozepen levo tagy felismerese tortenik egy asszociativ tablabol (lasd: karakterfelismeres scannelt szovegbol). Tobb targy felismerese szekvencialisan tortenik, ahogy a szemmozgato izmok vegigpasztaznak a latoteren. Innen indul a tudatos latas, amit jelenleg nem ismerunk. A fenti lepesek mindegyike megvalosithato parhuzamos formaban, mivel az agyban is ez tortenik. Mivel minden pixelhez van egy-egy dedikalt neuron csoport, ezert 24 kep/masodperchez csak 24 keppont/masodperces feldolgozo sebesseg kell, amihez meg az 1 megahertz is boven sok, az agy ennel lassabb.