SG.hu
Dzsekit cserélt Jensen Huang, az Nvidia vezére és Mark Zuckerberg
Az Nvidia vezérigazgatója, Jensen Huang és a Meta vezérigazgatója, Mark Zuckerberg a Coloradóban megrendezett SIGGRAPH 2024 konferencián beszélgettek egymással, és a Meta legújabb videovíziós mesterséges intelligenciáját népszerűsítették.
A Meta tavaly tapintható sikert aratott a Segment Anything nevű gépi tanulási modellel, amely gyorsan és megbízhatóan képes volt azonosítani és körvonalazni szinte bármit egy képen. Mark Zuckerberg vezérigazgató most bemutatta a folytatást a SIGGRAPH színpadán, a modellt egy videófolyamban prezentálva, megmutatva, milyen gyorsan történik a felismerés. A szegmentálás során egy gépi tanulási modell megnéz egy képet, és elválasztja egymástól a részeket: „ez egy kutya, ez egy fa a kutya mögött” remélhetőleg, és nem "ez egy fa, ami egy kutyából nő ki". Ez nem mai technológia, de az utóbbi időben sokkal jobb és gyorsabb lett, a Segment Anything pedig nagy előrelépés. Most pedig megjelent a folytatás, a Segment Anything 2 (SA2) amely natívan videóra is alkalmazható, nem csak állóképekre. Bár természetesen az első modellt külön-külön is lefuttathatod egy videó minden egyes képkockáján, ez nem a leghatékonyabb munkafolyamat.
"A tudósok ezt a dolgot például korallzátonyok és természetes élőhelyek tanulmányozására használják. De az, hogy ezt videóban is megtehetjük, és megmondhatjuk neki, hogy mit akarunk, nagyon király” - mondta Zuckerberg az Nvidia vezérigazgatójával, Jensen Huanggal folytatott beszélgetésben. A videófeldolgozás természetesen sokkal számításigényesebb, és az egész iparágban elért hatékonysági előrelépésekről tanúskodik, hogy az SA2 hatalmas adatközpontok nélkül is működhet. Természetesen még mindig egy hatalmas modellről van szó, amelynek működéséhez komoly hardverre van szükség, de a gyors, rugalmas szegmentálás még egy évvel ezelőtt is gyakorlatilag lehetetlen volt.
A modell az elsőhöz hasonlóan nyílt és ingyenesen használható lesz. Természetesen egy ilyen modell betanításához rengeteg adatra van szükség, és a Meta egy nagy, 50 000 videót tartalmazó, kommentált adatbázist is kiad, amelyet csak erre a célra készített. Az SA2-t leíró dokumentumban egy másik, több mint 100 000 "belsőleg elérhető” videót tartalmazó adatbázist is használtak a képzéshez, és ezt nem hozzák nyilvánosságra. (Valószínűleg nyilvános Instagram- és Facebook-profilokból származik.)
A Meta néhány éve vezető szerepet tölt be a „nyílt” mesterséges intelligencia területén, bár valójában (ahogy Zuckerberg a beszélgetés során kifejtette) már régóta teszi ezt, olyan eszközökkel, mint a PyTorch. Az utóbbi időben azonban az LLaMa, a Segment Anything és néhány más, szabadon elérhető modell viszonylag könnyen elérhető mércévé vált az MI teljesítményét illetően ezeken a területeken, bár a „nyitottságuk” vitatható. Zuckerberg megemlítette, hogy a nyitottság nem teljesen a jószívűségből történik a Metánál, de ez nem jelenti azt, hogy a szándékaik károsak lennének: "Ez nem olyan, mint egy szoftver, amit meg lehet építeni - szükség van egy ökoszisztémára körülötte. Nem is működne olyan jól, ha nem lenne nyílt forráskódú, nem igaz? Nem azért csináljuk ezt, mert önzetlen emberek vagyunk, még akkor sem, ha úgy gondolom, hogy ez hasznos lesz az ökoszisztémának - azért csináljuk, mert úgy gondoljuk, hogy ez teszi a legjobbá azt a dolgot, amit építünk”.”
A beszélgetésben Huang pozitívan nyilatkozott az Nvidia GPU-k képességeiről, Zuckerberg pedig az MI-ről szóló elképzeléseiről beszélt, a végén azonban Huang és Zuckerberg kicserélték egyedi készítésű kabátjaikat. Huang egy új bőrdzsekit adott Zuckerbergnek, amelyet elmondása szerint a felesége, Lori vett neki az idei SIGGRAPH-ra. "Ez többet ér, mert használt” - mondta Zuckerberg. Az egyórás beszélgetés meglepetésszerű pillanatai között szerepeltek utalások a tehenekre, amelyeket Zuckerberg a hawaii farmján nevel, de Huang sem fogta vissza magát, amikor Zuckerberg pörkölésére került sor: "Olyan mesterséges intelligenciára van szüksége, amely nem ítélkezik” - mondta Huang.
A Meta tavaly tapintható sikert aratott a Segment Anything nevű gépi tanulási modellel, amely gyorsan és megbízhatóan képes volt azonosítani és körvonalazni szinte bármit egy képen. Mark Zuckerberg vezérigazgató most bemutatta a folytatást a SIGGRAPH színpadán, a modellt egy videófolyamban prezentálva, megmutatva, milyen gyorsan történik a felismerés. A szegmentálás során egy gépi tanulási modell megnéz egy képet, és elválasztja egymástól a részeket: „ez egy kutya, ez egy fa a kutya mögött” remélhetőleg, és nem "ez egy fa, ami egy kutyából nő ki". Ez nem mai technológia, de az utóbbi időben sokkal jobb és gyorsabb lett, a Segment Anything pedig nagy előrelépés. Most pedig megjelent a folytatás, a Segment Anything 2 (SA2) amely natívan videóra is alkalmazható, nem csak állóképekre. Bár természetesen az első modellt külön-külön is lefuttathatod egy videó minden egyes képkockáján, ez nem a leghatékonyabb munkafolyamat.
"A tudósok ezt a dolgot például korallzátonyok és természetes élőhelyek tanulmányozására használják. De az, hogy ezt videóban is megtehetjük, és megmondhatjuk neki, hogy mit akarunk, nagyon király” - mondta Zuckerberg az Nvidia vezérigazgatójával, Jensen Huanggal folytatott beszélgetésben. A videófeldolgozás természetesen sokkal számításigényesebb, és az egész iparágban elért hatékonysági előrelépésekről tanúskodik, hogy az SA2 hatalmas adatközpontok nélkül is működhet. Természetesen még mindig egy hatalmas modellről van szó, amelynek működéséhez komoly hardverre van szükség, de a gyors, rugalmas szegmentálás még egy évvel ezelőtt is gyakorlatilag lehetetlen volt.
A modell az elsőhöz hasonlóan nyílt és ingyenesen használható lesz. Természetesen egy ilyen modell betanításához rengeteg adatra van szükség, és a Meta egy nagy, 50 000 videót tartalmazó, kommentált adatbázist is kiad, amelyet csak erre a célra készített. Az SA2-t leíró dokumentumban egy másik, több mint 100 000 "belsőleg elérhető” videót tartalmazó adatbázist is használtak a képzéshez, és ezt nem hozzák nyilvánosságra. (Valószínűleg nyilvános Instagram- és Facebook-profilokból származik.)
A Meta néhány éve vezető szerepet tölt be a „nyílt” mesterséges intelligencia területén, bár valójában (ahogy Zuckerberg a beszélgetés során kifejtette) már régóta teszi ezt, olyan eszközökkel, mint a PyTorch. Az utóbbi időben azonban az LLaMa, a Segment Anything és néhány más, szabadon elérhető modell viszonylag könnyen elérhető mércévé vált az MI teljesítményét illetően ezeken a területeken, bár a „nyitottságuk” vitatható. Zuckerberg megemlítette, hogy a nyitottság nem teljesen a jószívűségből történik a Metánál, de ez nem jelenti azt, hogy a szándékaik károsak lennének: "Ez nem olyan, mint egy szoftver, amit meg lehet építeni - szükség van egy ökoszisztémára körülötte. Nem is működne olyan jól, ha nem lenne nyílt forráskódú, nem igaz? Nem azért csináljuk ezt, mert önzetlen emberek vagyunk, még akkor sem, ha úgy gondolom, hogy ez hasznos lesz az ökoszisztémának - azért csináljuk, mert úgy gondoljuk, hogy ez teszi a legjobbá azt a dolgot, amit építünk”.”
A beszélgetésben Huang pozitívan nyilatkozott az Nvidia GPU-k képességeiről, Zuckerberg pedig az MI-ről szóló elképzeléseiről beszélt, a végén azonban Huang és Zuckerberg kicserélték egyedi készítésű kabátjaikat. Huang egy új bőrdzsekit adott Zuckerbergnek, amelyet elmondása szerint a felesége, Lori vett neki az idei SIGGRAPH-ra. "Ez többet ér, mert használt” - mondta Zuckerberg. Az egyórás beszélgetés meglepetésszerű pillanatai között szerepeltek utalások a tehenekre, amelyeket Zuckerberg a hawaii farmján nevel, de Huang sem fogta vissza magát, amikor Zuckerberg pörkölésére került sor: "Olyan mesterséges intelligenciára van szüksége, amely nem ítélkezik” - mondta Huang.