SG.hu
Delfinekkel fog beszélgetni a Google új MI-modellje

A delfineket általában a bolygó legokosabb élőlényei között tartják számon. Kutatások kimutatták, hogy képesek együttműködni, új készségeket tanítani egymásnak, és még a tükörben is felismerik magukat. A tudósok évtizedek óta próbálják értelmezni a delfinek által a kommunikációhoz használt füttyök és kattintások összetett gyűjteményét. Kutatók a Google nyílt mesterséges intelligencia modellje és néhány Pixel telefon segítségével hamarosan nagyot léphetnek előre ezen a téren.
A Google minden tevékenységébe beépíti a generatív mesterséges intelligenciát, így a Wild Dolphin Projecttel (WDP) való együttműködésébe is. Ez a csoport 1985 óta tanulmányozza a delfineket, és nem invazív módszerrel figyeli az atlanti delfinek egy bizonyos közösségét. A WDP videó- és hangfelvételeket rögzít a delfinekről, valamint feljegyzéseket készítenek a viselkedésükről. A WDP egyik fő célja a delfinek hangadásának elemzése, és hogy ez hogyan befolyásolja az állatok társas interakcióit.
A kutatóknak több évtized alatt rögzített víz alatti felvételek segítségével sikerült néhány alapvető tevékenységet konkrét hangokhoz kötniük. Az atlanti pettyes delfineknek jellegzetes füttyhangjaik vannak, amelyeket látszólag névként használnak, és amelyek segítségével két konkrét egyed egymásra találhat. Harc közben is következetesen „rikácsoló” hangmintákat adnak ki. A WDP kutatói úgy vélik, hogy a delfinek hangadásának szerkezetét és mintáit meg kell ismerni annak megállapításához, hogy kommunikációjuk a nyelv szintjére emelkedik-e. „Nem tudjuk, hogy az állatoknak vannak-e szavai” - mondja Denise Herzing, a WDP munkatársa.
A végső cél az, hogy beszéljenek a delfinekkel, ha valóban létezik ilyen nyelv. E cél elérése érdekében a WDP hatalmas, aprólékosan címkézett adathalmazt hozott létre, amely a Google szerint tökéletes a generatív mesterséges intelligenciával történő elemzéshez.
A fogyasztói technológiákban megkerülhetetlenné vált nagyméretű nyelvi modellek (LLM) lényegében mintákat jósolnak. Megadunk nekik egy bemenetet, a modellek megtippelik a következő jelet, amíg meg nem kapjuk a kimenetet. Ha egy modellt hatékonyan tanítottak be, ez a kimenet úgy hangozhat, mintha egy ember hozta volna létre. A Google és a WDP reméli, hogy a DolphinGemma segítségével a tengeri emlősök esetében is sikerül valami hasonlót megvalósítani.
A DolphinGemma a Google Gemma nyílt mesterséges intelligencia modelljein alapul, amelyek ugyanarra az alapra épülnek, mint a vállalat kereskedelmi Gemini modelljei. A delfinek kommunikációs modellje a Google által kifejlesztett SoundStream nevű hangtechnológiát használja a delfinek hangadásának tokenizálására, így a hangok a felvételek során betáplálhatók a modellbe.
A Google a modellt a Wild Dolphin Project akusztikai archívumának felhasználásával képezte ki. Ez egy audio-in, audio-out modell, tehát miután a modell megkapta a delfinhangokat, azt teszi, amit az emberközpontú nyelvi modellek is tesznek: megjósolja a következő jelet. Ha a modell úgy működik, mint egy hagyományos LLM, akkor ezek a megjósolt tokenek olyan hangok lesznek, amelyeket a delfinek megértenek. A csapat reméli, hogy a DolphinGemma segít majd olyan összetett mintákat feltárni, amelyek lehetővé teszik egy közös szókincs létrehozását.
A Google a DolphinGemma tervezésénél a WDP kutatási megközelítését tartotta szem előtt. A csapat a terepen Pixel telefonokat használ, ezért a modellnek hatékonynak kellett lennie. A mesterséges intelligenciamodellek futtatása az okostelefonokon gyakran kihívást jelent a korlátozott erőforrások miatt. Minél erősebb egy modell, annál több memóriára és feldolgozási teljesítményre van szüksége a működéshez. A DolphinGemma körülbelül 400 millió paraméterből áll, ami LLM szempontból nagyon kicsinek számít.
Mivel a csapat vadon élő delfineket figyel meg víz alatti környezetben, kompakt hangrendszerekre van szükségük. A WDP az elmúlt években a Georgia Institute of Technology-n létrehozott, CHAT (Cetacean Hearing Augmentation Telemetry) nevű, a Pixel 6-on alapuló készüléket használta. A csapat a CHAT segítségével szintetikus delfinhangokat hoz létre, amelyeket megpróbálnak egy tárgyhoz társítani. A készülék képes meghallgatni a delfinhangokat is, hogy megfelelő „mimikai” választ kapjon. A Google szerint a csapat a 2025-ös nyári kutatási szezonra egy új, Pixel 9-alapú CHAT-tal fog rendelkezni. A Pixel 9-re való áttérés lehetővé teszi, hogy a CHAT egyszerre futtasson mélytanulási modelleket és sablon-illesztési algoritmusokat.
Senki sem várja el a DolphinGemmától és az új CHAT-tól, hogy az emberek azonnal elsajátítsák a delfinek fütyülését, de a rendszer idővel lehetővé teheti az alapvető interakciókat. Az emberi nyelven beszélő Gemma-modellekhez hasonlóan a DolphinGemma is nyílt hozzáférésű projekt. A Google idén nyáron fogja kiadni a modellt, hogy a kutatók világszerte használhassák. Bár a DolphinGemma az atlanti pettyes delfin hangjaira lett betanítva, a Google szerint finomhangolható más cetfajok számára is.
A Google minden tevékenységébe beépíti a generatív mesterséges intelligenciát, így a Wild Dolphin Projecttel (WDP) való együttműködésébe is. Ez a csoport 1985 óta tanulmányozza a delfineket, és nem invazív módszerrel figyeli az atlanti delfinek egy bizonyos közösségét. A WDP videó- és hangfelvételeket rögzít a delfinekről, valamint feljegyzéseket készítenek a viselkedésükről. A WDP egyik fő célja a delfinek hangadásának elemzése, és hogy ez hogyan befolyásolja az állatok társas interakcióit.
A kutatóknak több évtized alatt rögzített víz alatti felvételek segítségével sikerült néhány alapvető tevékenységet konkrét hangokhoz kötniük. Az atlanti pettyes delfineknek jellegzetes füttyhangjaik vannak, amelyeket látszólag névként használnak, és amelyek segítségével két konkrét egyed egymásra találhat. Harc közben is következetesen „rikácsoló” hangmintákat adnak ki. A WDP kutatói úgy vélik, hogy a delfinek hangadásának szerkezetét és mintáit meg kell ismerni annak megállapításához, hogy kommunikációjuk a nyelv szintjére emelkedik-e. „Nem tudjuk, hogy az állatoknak vannak-e szavai” - mondja Denise Herzing, a WDP munkatársa.
A végső cél az, hogy beszéljenek a delfinekkel, ha valóban létezik ilyen nyelv. E cél elérése érdekében a WDP hatalmas, aprólékosan címkézett adathalmazt hozott létre, amely a Google szerint tökéletes a generatív mesterséges intelligenciával történő elemzéshez.
A fogyasztói technológiákban megkerülhetetlenné vált nagyméretű nyelvi modellek (LLM) lényegében mintákat jósolnak. Megadunk nekik egy bemenetet, a modellek megtippelik a következő jelet, amíg meg nem kapjuk a kimenetet. Ha egy modellt hatékonyan tanítottak be, ez a kimenet úgy hangozhat, mintha egy ember hozta volna létre. A Google és a WDP reméli, hogy a DolphinGemma segítségével a tengeri emlősök esetében is sikerül valami hasonlót megvalósítani.
A DolphinGemma a Google Gemma nyílt mesterséges intelligencia modelljein alapul, amelyek ugyanarra az alapra épülnek, mint a vállalat kereskedelmi Gemini modelljei. A delfinek kommunikációs modellje a Google által kifejlesztett SoundStream nevű hangtechnológiát használja a delfinek hangadásának tokenizálására, így a hangok a felvételek során betáplálhatók a modellbe.
A Google a modellt a Wild Dolphin Project akusztikai archívumának felhasználásával képezte ki. Ez egy audio-in, audio-out modell, tehát miután a modell megkapta a delfinhangokat, azt teszi, amit az emberközpontú nyelvi modellek is tesznek: megjósolja a következő jelet. Ha a modell úgy működik, mint egy hagyományos LLM, akkor ezek a megjósolt tokenek olyan hangok lesznek, amelyeket a delfinek megértenek. A csapat reméli, hogy a DolphinGemma segít majd olyan összetett mintákat feltárni, amelyek lehetővé teszik egy közös szókincs létrehozását.
A Google a DolphinGemma tervezésénél a WDP kutatási megközelítését tartotta szem előtt. A csapat a terepen Pixel telefonokat használ, ezért a modellnek hatékonynak kellett lennie. A mesterséges intelligenciamodellek futtatása az okostelefonokon gyakran kihívást jelent a korlátozott erőforrások miatt. Minél erősebb egy modell, annál több memóriára és feldolgozási teljesítményre van szüksége a működéshez. A DolphinGemma körülbelül 400 millió paraméterből áll, ami LLM szempontból nagyon kicsinek számít.
Mivel a csapat vadon élő delfineket figyel meg víz alatti környezetben, kompakt hangrendszerekre van szükségük. A WDP az elmúlt években a Georgia Institute of Technology-n létrehozott, CHAT (Cetacean Hearing Augmentation Telemetry) nevű, a Pixel 6-on alapuló készüléket használta. A csapat a CHAT segítségével szintetikus delfinhangokat hoz létre, amelyeket megpróbálnak egy tárgyhoz társítani. A készülék képes meghallgatni a delfinhangokat is, hogy megfelelő „mimikai” választ kapjon. A Google szerint a csapat a 2025-ös nyári kutatási szezonra egy új, Pixel 9-alapú CHAT-tal fog rendelkezni. A Pixel 9-re való áttérés lehetővé teszi, hogy a CHAT egyszerre futtasson mélytanulási modelleket és sablon-illesztési algoritmusokat.
Senki sem várja el a DolphinGemmától és az új CHAT-tól, hogy az emberek azonnal elsajátítsák a delfinek fütyülését, de a rendszer idővel lehetővé teheti az alapvető interakciókat. Az emberi nyelven beszélő Gemma-modellekhez hasonlóan a DolphinGemma is nyílt hozzáférésű projekt. A Google idén nyáron fogja kiadni a modellt, hogy a kutatók világszerte használhassák. Bár a DolphinGemma az atlanti pettyes delfin hangjaira lett betanítva, a Google szerint finomhangolható más cetfajok számára is.