.

Hexo Labs avas SIA lähtekoodi ja paneb AI-agendi iseennast edasi õpetama

Hexo Labs esitles SIA nimelist avatud lähtekoodiga AI-agentide raamistikku, mis ei piirdu pelgalt promptide ja töövoo lihvimisega. Süsteemi põhiväide on ambitsioonikam: agent analüüsib oma katseid, muudab töövõtteid ja käivitab vajadusel ka mudeli sisemise täiendtreenimise, et järgmises tsüklis ülesannet paremini lahendada.

Iseparanev agent ei tähenda enam ainult paremat prompti

AI-agentide arendus on seni liikunud suuresti kahte rada pidi. Ühel juhul parandab arendaja või meta-agent süsteemi välist töökorraldust: prompti, tööriistade valikut, korduskatsete loogikat ja otsingustrateegiat. Teisel juhul treenib meeskond mudelit ennast täiendavalt, kasutades ülesande tagasisidet. SIA ühendab need kaks lähenemist ühte tsüklisse.

Selle loo keskne mõiste, mudeli sisemine täiendtreenimine, tähendab närvivõrgu parameetrite muutmist treeningu käigus. Lihtsamalt öeldes ei saa agent ainult paremat juhendit, vaid mudel ise õpib korduvatest vigadest ja tulemustest. See eristab SIA-t agentidest, mis lihtsalt kirjutavad prompti ümber või lisavad töövoogu uue sammu.

Kolm agenti veavad parandustsüklit

GitHubi ametliku kirjelduse järgi töötab SIA kolme põhikomponendiga. Meta-Agent loeb ülesande kirjelduse ja loob algse sihtagendi. Task-Specific Agent lahendab ülesannet ning salvestab tegevused ja tulemused. Feedback-Agent vaatab logid läbi, leiab nõrgad kohad ning otsustab, kas parandada agendirakist või käivitada mudeli sisemine täiendtreenimine.

See on tehniliselt tähtis eristus. Agendirakis vormib seda, kuidas süsteem otsib lahendust, kasutab tööriistu ja kontrollib tulemusi. Mudeli sisemine täiendtreenimine peaks lisama valdkonnatunnetust, mida ükski prompt üksi mudelisse ei kirjuta. SIA autorid väidavad arXivi artiklis, et mõlema hoova koos kasutamine ületas ainult agendirakise muutmist kõigis kolmes testitud valdkonnas.

Tulemused on tugevad, kuid vajavad kainet mõõtmist

SIA tehniline artikkel hindas raamistikku kolmes üsna erinevas ülesandes: Hiina õigustekstide põhjal süüdistuse klassifitseerimine, madaltaseme GPU-kerneli optimeerimine ja üksikraku RNA-andmete müravähendus. Selline valik annab süsteemile laiema proovikivi kui tavaline vestlusroboti test, sest ülesanded nõuavad eri tüüpi täpsust, eksperimenteerimist ja mõõdetavat tulemust.

Tulemused näevad paberil teravad välja. Autorite järgi saavutas SIA koos agendirakise parandamise ja mudeli sisemise täiendtreenimisega LawBenchis 25,1 protsenti parema tulemuse kui varasem tipptase, GPU-kernel jooksis 12,4 protsenti kiiremini kui varasem tipptase ning RNA-andmete müravähenduses tuli 20,4 protsenti parem tulemus. GitHubi repo toob lisaks välja LawBenchi 70,1-protsendise Top-1 täpsuse, TriMul-kerneli 14-kordse kiirenduse algtaseme vastu ja 0,289 MSE_norm tulemuse scRNA-seq ülesandes.

“350 korda” on pressiväide, mitte sõltumatu kohtuotsus

Hexo Labs väidab pressiteates, et SIA kiirendab teed superintellekti poole 350 korda. Seda tasub käsitleda ettevaatlikult. Ettevõte seob väite OpenAI loodud MLE-benchiga, kuid see pole sama mis sõltumatu tõestus, et SIA viib AI tegelikult superintellektini. Praegu näitab avalik materjal eelkõige seda, et SIA annab mõõdetavates arendusülesannetes tugeva eksperimendiraamistiku.

OpenAI kirjeldab MLE-benchi kui võrdlustesti, mis mõõdab AI-agentide võimet teha masinõppeinseneri tööd: treenida mudeleid, valmistada ette andmeid ja käivitada eksperimente. Test koosneb 75 Kaggle’i masinõppevõistlusest ning seab agentidele märksa praktilisema lati kui tavalised küsimus-vastus-benchmark’id.

Euroopa vaates on tähtsaim läbipaistvus

Euroopa arendajate ja teadusasutuste jaoks peitub SIA kõige olulisem väärtus avatuses. GitHubi repo näitab, et raamistik on MIT-litsentsiga, kirjutatud Pythonis ja mõeldud kasutamiseks ka oma ülesannetega, kus avalikud sisendid, peidetud hindamisandmed ja hindaja eraldi määratakse. See aitab uurijatel korrata katseid ja kontrollida, mida agent tegelikult muudab.

Samas toob just mudeli sisemine täiendtreenimine kaasa suurema vastutuse. Kui agent saab oma käitumist sügavamalt muuta, peab hindamisraamistik tabama ka seda, kas süsteem muutub üldiselt paremaks või õpib lihtsalt konkreetset mõõdikut ära kasutama. Seetõttu sobib SIA praegu kõige paremini selge mõõdikuga teadus- ja inseneriülesannetesse, mitte avatud eesmärkidega autonoomseks otsustajaks.

Tehniline lühikokkuvõte
SIA ühendab agendirakise parandamise ja mudeli sisemise täiendtreenimise ühte iseparandustsüklisse.
Süsteemis töötavad Meta-Agent, Task-Specific Agent ja Feedback-Agent.
Testid katsid õigustekste, GPU-kerneli optimeerimist ja üksikraku RNA-andmete müravähendust.
GitHubi repo järgi on SIA avatud lähtekoodiga, MIT-litsentsiga ja Python 3.11+ raamistik.
Suur “350 korda” väide pärineb Hexo Labsi pressiteatest, mitte sõltumatust auditist.

Your browser does not support the canvas element.