Meglepő helyen virágoznak az MI kódolási eszközök: a terminálon

Az olyan kódszerkesztő eszközök, mint a Cursor, a Windsurf és a GitHub Copilot évek óta a mesterséges intelligencia alapú szoftverfejlesztés szabványai. De ahogy az ügynöki mesterséges intelligencia egyre erősebbé válik, és a vibe kódolás beindul, egy finom váltás megváltoztatta az MI-rendszerek és a szoftverek közötti interakciót. Ahelyett, hogy a programsorokon dolgoznának, egyre inkább közvetlenül a rendszer héjával lépnek kapcsolatba, amelyre telepítették őket. Ez jelentős változás az MI-alapú szoftverfejlesztés módjában - és annak ellenére, hogy ez a folyamat nem kap nagy visszhangot, jelentős hatással lehet arra, hogy a terület merre halad tovább.

A terminál a '90-es évekbeli hackerfilmekből ismert fekete-fehér képernyőként ismert - a programok futtatásának és az adatok manipulálásának nagyon régimódi módja. Előhívása Windowson nagyon egyszerű, csak be kell ütnünk a cmd parancsot, és máris előttünk a parancssor. Vizuálisan nem olyan lenyűgöző, mint a mai kódszerkesztők, de ha az ember tudja hogyan kell használni, akkor rendkívül hatékony felület. És bár az MI-ügynökök képesek kódot írni és hibákat keresni, gyakran termináleszközökre van szükség ahhoz, hogy a szoftver a megírt kódból ténylegesen használhatóvá váljon.

A terminálok felé történő elmozdulás legegyértelműbb jele a nagy laboratóriumoktól érkezett. Február óta az Anthropic, a DeepMind és az OpenAI is kiadott parancssori kódolóeszközöket (Claude Code, Gemini CLI, illetve CLI Codex), és ezek már most a vállalatok legnépszerűbb termékei közé tartoznak. Ezt a változást könnyű volt nem észrevenni, mivel nagyrészt ugyanolyan márkanév alatt működnek, mint a korábbi kódolóeszközök. A motorháztető alatt azonban valódi változások történtek az ügynökök és más számítógépek közötti online és offline interakcióban. Egyesek szerint ezek a változások még csak most kezdődnek.

"Szerintünk a jövőben az LLM-számítógépek közötti interakció 95%-a terminálszerű felületen keresztül történik” - mondja Mike Merrill, a Terminal-Bench nevű vezető terminálközpontú benchmark társalkotója. A terminál-alapú eszközök akkor kerülnek előtérbe, amikor a kiemelkedő kód-alapú eszközök kezdenek ingatagnak tűnni. A Windsurf nevű mesterséges intelligencia kódszerkesztőt kettészakította egy felvásárlás: a vezetőket elcsábította a Google, a megmaradt vállalatot pedig a Cognition vásárolta fel - így a fogyasztói termék hosszú távú jövője bizonytalanná vált.

Ugyanakkor egy új kutatás szerint a programozók túlbecsülik a hagyományos eszközökből származó termelékenységnövekedést. A METR tanulmánya a Windsurf fő versenytársát, a Cursor Pro-t tesztelte, és azt találta, hogy míg a fejlesztők 20-30 százalékkal gyorsabban tudták elvégezni a feladatokat, a megfigyelt folyamat közel 20 százalékkal lassabb volt. Röviden, a kódasszisztens valójában a programozók idejét ette meg.

Ez a változás nyitott teret hagyott az olyan cégeknek, mint a Warp, amely jelenleg a TerminalBench első helyét foglalja el. A Warp "ügynöki fejlesztőkörnyezetként, az IDE programok és az olyan parancssoros eszközök, mint a Claude Code közötti középútként hirdeti magát. A Warp alapítója, Zach Lloyd azonban még mindig bízik a terminálban, mivel olyan problémák megoldását látja benne, amelyek a Cursorhoz hasonló kódszerkesztők számára nem lennének elérhetőek. "A terminál nagyon alacsony szintet foglal el a fejlesztői stackben, így ez a legsokoldalúbb hely az ügynökök futtatására” - mondja Lloyd.

Ahhoz, hogy megértsük, miben különbözik az új megközelítés, hasznos lehet megnézni a méréshez használt benchmarkokat. Az eszközök kódalapú generációja a GitHub-problémák megoldására összpontosít, ami a SWE-Bench teszt alapja. A SWE-Bench minden egyes problémája egy nyitott probléma a GitHubról - lényegében egy olyan kódrészlet, amely nem működik. A modellek addig ismételgetik a kódot, amíg nem találnak valamit, ami működik, és megoldja a problémát. Az olyan integrált termékek, mint a Cursor, kifinomultabb megközelítéseket építettek a problémára, de a GitHub/SWE-Bench modell megmutatja, hogy ezek az eszközök hogyan közelítik meg a problémát: hibás kóddal kezdenek, és működő kóddá alakítják azt.

A terminálalapú eszközök tágabb látószögből vizsgálják a kódon túl a teljes környezetet, amelyben a program fut. Ez magában foglalja a kódolást, de az olyan DevOps-orientáltabb feladatokat is, mint a Git-kiszolgáló konfigurálása vagy a hibaelhárítás, hogy miért nem fut egy szkript. A TerminalBench egyik feladatában az utasítások egy dekompressziós programot és egy célszövegfájlt adnak meg, és az ügynöknek egy megfelelő tömörítési algoritmust kell visszafejtenie. Egy másik arra kéri az ügynököt, hogy a Linux kernelt forrásból építse fel, de nem említi, hogy az ügynöknek magának kell letöltenie a forráskódot. A feladatok megoldása olyan problémamegoldó képességet igényel, amire a programozóknak szükségük van.

"A TerminalBench-et nem csak a kérdések teszik nehézzé, amelyeket az ügynököknek adunk” - mondja Alex Shaw, a Terminal-Bench társalkotója - „hanem a környezet is, amelybe helyezzük őket”. Ez az új megközelítés azt jelenti, hogy lépésről - lépésre kell megoldani egy problémát - ez ugyanaz a képesség, amely az ügynöki mesterséges intelligenciát olyan hatékonnyá teszi. De még a legkorszerűbb ügynöki modellek sem képesek kezelni az összes ilyen környezetet. A Warp a TerminalBench-en elért magas pontszámát a problémák alig több mint felének megoldásával érte el. Ez megmutatja, hogy a teljesítmény mérése milyen kihívást jelent, de azt is, hogy mennyi munka vár még a terminál teljes potenciáljának kiaknázására.

Lloyd mégis úgy véli, hogy már elérkeztünk arra a pontra, amikor a terminálalapú eszközök megbízhatóan képesek a fejlesztők kódoláson túli munkájának nagy részét elvégezni - ez egy olyan értéket képvisel, amelyet nehéz figyelmen kívül hagyni. "Ha egy új projekt felállításával, a függőségek kitalálásával és futtathatóvá tételével járó napi munkára gondolunk, a Warp ezt nagyjából önállóan is képes elvégezni” - mondja Lloyd. „És ha nem tudja megcsinálni, akkor megmondja, hogy miért.”

Meglepő helyen virágoznak az MI kódolási eszközök: a terminálon

Kapcsolódó cikkek és linkek

Hozzászólások