Copyright 2017-2025 北方報(bào) 版權(quán)所有 京ICP備16071829-1號(hào)
首次將GUI Agent模型與完整配套基建同步開放,支持手搓黨一鍵部署!
這就是階躍星辰剛剛開源的GELab-Zero。
其中4B版本的GUI Agent模型在手機(jī)端、電腦端等多個(gè)GUI榜單上全面刷新同尺寸模型性能紀(jì)錄,取得SOTA成績。
隨著AI在手機(jī)等消費(fèi)終端的普及,Mobile Agent正從“能不能用”邁向“能否規(guī)模化落地”。
GUI Agent是執(zhí)行能力最強(qiáng)的形態(tài)之一。它基于視覺理解即可適配幾乎所有App,無需廠商額外改造,接入成本極低。
此外,階躍還同步開源了基于真實(shí)業(yè)務(wù)場景的自建評(píng)測標(biāo)準(zhǔn)AndroidDaily,以期推動(dòng)GUI領(lǐng)域模型評(píng)測向消費(fèi)級(jí)、規(guī)模化應(yīng)用發(fā)展。
同尺寸性能 SOTA,端到端、輕量化、速度快
要知道,讓GUI Agent在不同品牌與系統(tǒng)版本的設(shè)備上順暢運(yùn)行并不輕松。
移動(dòng)生態(tài)的高度碎片化讓開發(fā)者需處理多設(shè)備ADB連接、依賴安裝、權(quán)限配置、推理服務(wù)部署、任務(wù)編排與回放等繁瑣流程,工程成本高昂,精力難以聚焦在策略創(chuàng)新與體驗(yàn)設(shè)計(jì)上。
要推動(dòng)移動(dòng)端Agent真正規(guī)模化,必須首先降低開發(fā)與使用門檻,讓開發(fā)者專注于創(chuàng)造價(jià)值,而非重復(fù)搭建底層設(shè)施。
基于此,階躍開源了GELab-Zero。
它主要包含三部分:
一個(gè)能在本地運(yùn)行的GUI Agent模型GELab-Zero-4B-preview
即插即用的完整推理工程基建,解決所有臟活累活
基于真實(shí)業(yè)務(wù)場景的自建評(píng)測標(biāo)準(zhǔn)AndroidDaily
研究團(tuán)隊(duì)在ScreenSpot、OSWorld、MMBench、Android World多個(gè)開源基準(zhǔn)測試上對(duì)GELab-Zero-4B-preview模型進(jìn)行了全面評(píng)估。
這些基準(zhǔn)測試涵蓋了GUI理解、定位、交互等多個(gè)維度。
從測試結(jié)果可以看出,GELab-Zero-4B-preview在多項(xiàng)開源基準(zhǔn)測試中超越其他主流模型,拿下同尺寸SOTA。
值得一提的是,GELab-Zero-4B-preview的表現(xiàn)還超越了參數(shù)量更大的GUI-Owl-32B等模型,性能更優(yōu),也更易部署。
來看一下研究團(tuán)隊(duì)給出的示例場景。
復(fù)雜任務(wù)
場景1:在外賣平臺(tái)同時(shí)采購跨品類、不同規(guī)格和數(shù)量的商品。
Prompt:去餓了么離我最近的盒馬鮮生購買:紅顏草莓300g、秘魯比安卡藍(lán)莓125g(果徑18mm)、當(dāng)季新鮮黃心土豆500g、粉糯貝貝南瓜750g、盒馬大顆粒蝦滑、2瓶盒馬純黑豆豆?jié){300ml、小王子夏威夷果可可脆120g、盒馬菠菜面、盒馬五香牛肉、5袋好歡螺柳州螺獅粉(加辣加臭)400g、m&m’s牛奶巧克力豆100g
可以看到,模型精準(zhǔn)識(shí)別了物品信息,并順暢地完成了多步驟、重復(fù)性的購買操作。
場景2:在企業(yè)福利APP中領(lǐng)取餐券。
Prompt:打開給到App,在我的,下滑尋找,員工權(quán)益-奮斗食代,幫我領(lǐng)劵。
上述示例展示了GELab-Zero-4B-preview執(zhí)行的能力和范圍具有很強(qiáng)的泛化性,無論在國民級(jí)APP還是小眾產(chǎn)品平臺(tái),都可以順利完成任務(wù)。
模糊指令
場景1:在某個(gè)視頻平臺(tái)上播放指定演員的經(jīng)典作品。
Prompt:在騰訊視頻上找一部成龍的經(jīng)典動(dòng)作片播放。
接到指令后,GELab-Zero-4B-preview自主拆解“經(jīng)典”這一需求,確定執(zhí)行標(biāo)準(zhǔn)。
過程中,模型先打開騰訊視頻,識(shí)別并關(guān)閉了彈窗,搜索“成龍”后在電影類目中選擇了頁面上成龍?jiān)u分最高的代表作播放。
場景2:找一個(gè)周末能帶孩子玩的地方。
Prompt:幫我找個(gè)周末能帶孩子去玩的地方。
接到指令后,模型首先在內(nèi)容平臺(tái)搜索“北京周末帶娃”,然后自主判斷衡量標(biāo)準(zhǔn)后為用戶推薦北京園博園“頑酷奇遇”,并為用戶提煉出該地點(diǎn)的亮點(diǎn)——“有巨型裝置卡通,親子活動(dòng)豐富”。
可以看到,GELab-Zero-4B-preview模型能夠很好地執(zhí)行復(fù)雜任務(wù)和模糊指令,不僅可以準(zhǔn)確、流暢地執(zhí)行涉及到多步驟、多主體、重復(fù)操作的任務(wù),也能對(duì)“好看”“適合玩的”“經(jīng)典”等偏籠統(tǒng)和主觀性的指令進(jìn)行自主拆解,確定執(zhí)行路徑和標(biāo)準(zhǔn)。
GUI+基建=GUI Agent MCP,一鍵拉起部署
針對(duì)GUI智能體,研究人員構(gòu)建了一整套完整的技術(shù)架構(gòu)體系,可以一鍵拉起獲得類似開源GUI Agent MCP的體驗(yàn)。