在线观看免费成人av_久久久久久久久久久综合_国产精品视频一区二区三区四区五区_另类小说第一页_天天干在线影院_九一免费在线观看_草草久久久无码国产专区_成人短视频在线观看免费_无码熟妇人妻av在线电影_中文字幕第一页亚洲_成人黄色片视频_日韩精品久久一区二区

首頁 > 生活分享 > 免費教學 > 任務級獎勵提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B

任務級獎勵提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B

發布時間:2025-07-20 15:46:10

現有Mobile/APP Agent的工作可以適應實時環境,并執行動作,但由于它們大部分都僅依賴于動作級獎勵(SFT或RL)。

而這些獎勵只能引導代理預測每一步中最佳的單一動作,因此難以應對不斷變化的移動環境。

比如一句指令:“打開飛豬,進入酒店套餐,進入熱門直播,找到飛豬超級VIP,并關注主播”。Qwen2.5-VL-3B-Instruct在第二步失敗。

淘天集團算法技術-未來生活實驗室&點淘算法團隊聯合提出,采用多回合、任務導向的學習方式,結合在線學習和軌跡糾錯,也許能提高Agent的適應性和探索能力。

他們提出了個具有任務級獎勵(Task-level Reward)的交互式強化學習框架,即Mobile-R1。

為了確保訓練的穩定性,團隊提出了一個三階段訓練過程:格式微調、動作級訓練和任務級訓練。此外引入新的中文基準和高質量軌跡數據集,證明了該方法在移動代理領域的有效性。

結果Mobile-R1順利地完成了這一任務。

軌跡數據集

團隊使用Qwen2.5-VL-3B執行一系列任務獲得初始軌跡,并人工標注這些初始軌跡,得到了高質量的軌跡數據集。

其構造可以分為數據收集和軌跡標注兩部分,最終得到了4,635條高質量的人工標注軌跡,包含24,521個單步數據。

軌跡數據集構造流程

首先,選擇了28個中國移動應用程序,通過人工設計和自動生成相結合的方法創建了多樣化的任務指令,隨后統一經過人工審核,去除了部分不合理指令。在使用Qwen2.5-VL-3B模型執行這些指令后,成功收集了大量動作執行軌跡,軌跡中的每一步都包含模型輸出的思考,需要執行的動作以及對應的工具調用。

得到軌跡后,針對模型的輸出做了以下三個維度的標注:

  • 邏輯思考:將所有思考修正為“當前狀態+下一步的動作+動作目的”的格式,比如“當前在手機主屏(當前狀態),下一步是點擊淘寶圖標(下一步動作)來進入淘寶(動作目的)”。如果原思考內容錯誤也會人工標注者會按照該格式重寫思考。

  • 清晰動作:清晰動作是單步可執行操作的一句話描述,動作應符合思考的內容并且可推動任務的完成。

  • 準確調用:人工標注者會修正錯誤的操作調用,包括類型錯誤以及參數錯誤。

訓練流程

訓練流程由三個階段構成,基于Qwen2.5-VL-3B。這三個階段分別是初始格式微調、動作級在線訓練和任務級在線訓練。

Stage1:初始格式微調

在第一階段,對模型進行初始格式微調。這一步是通過監督微調(SFT)的方式進行的,使用的是之前人工標注的高質量軌跡數據集。在微調過程中,模型不僅會學習如何將用戶的指令與當前的GUI狀態對應起來,還會調整輸出格式以符合預期的結構,包括邏輯思考、清晰動作和準確調用。

Stage2:動作級在線訓練

在第二階段,模型通過群體相對策略優化(GRPO)進行動作級在線訓練。此階段使用動作級獎勵(Action-level Reward)來評估每個動作的正確性,同時確保輸出格式的完整性。動作級獎勵由可驗證動作獎勵和格式獎勵組成,其中可驗證動作獎勵能夠量化動作的正確性,而格式獎勵則確保模型輸出是結構化、可解釋的。

  • 動作級獎勵。1)對于基于坐標的動作(如點擊、滑動),如果預測的坐標落在目標GUI元素的真實邊界框內,則獎勵為1,否則為0。2)對于非坐標的動作(如輸入文本),如果預測的動作或參數與真實值完全匹配,則獎勵為1,否則為0。

  • 格式獎勵。格式獎勵促使模型生成符合標簽和結構要求的輸出,確保響應的邏輯思考、動作以及工具調用的格式化。

Stage3:任務級在線訓練

在第三階段,通過多步驟任務級在線訓練來提高模型的泛化能力和探索能力。

在動態的移動環境中,模型需要進行自由探索和錯誤糾正,因此我們將問題定義為馬爾可夫決策過程,以允許多回合的互動。

任務級獎勵由格式獎勵和軌跡級獎勵組成,旨在鼓勵模型在整個軌跡中保持對響應格式的遵循,同時評估任務的完成情況。

  • 軌跡級獎勵。軌跡級獎勵使用外部高精度的MLLM,GPT-4o來評估整個歷史互動軌跡,確保步驟和動作的一致性以及任務的完成情況。

  • 格式獎勵。格式獎勵在此階段仍然起著重要作用,為整個軌跡計算平均格式獎勵,并通過[-1, 1]的范圍來對錯誤施加更嚴格的懲罰,以增強輸出的精確度。

訓練的部分階段在淘天自研的強化學習框架ROLL上進行實驗。

實驗結果

實驗中,主要評估了模型在自定義benchmark上的性能,并進行了針對模型泛化能力的魯棒性分析,以驗證Mobile-R1的表現。

整體實驗結果,粗體表示最佳結果,下劃線表示次優結果

結果顯示,Qwen2.5-VL-32B 和 AgentCPM-8B 在性能上表現類似。

其中,AgentCPM-8B 由于專為中國移動生態系統優化,因此在中文場景中表現優異。更為顯著的是,Mobile-R1在所有基準中表現最佳,任務成功率達到49.40,比最優秀的baseline model高出將近20點。

Stage 3的訓練進一步增強了Mobile-R1的表現,其成功率比只有階段1和階段2訓練的模型高出1.4點,這得益于任務級GRPO的有效應用。

特別值得注意的是,通過階段1和階段2的訓練,Qwen2.5-VL-3B模型的表現超越了其標準版本,并在多項指標上領先于其他基準模型,突顯了動作級和任務級獎勵機制的重要性。

Stage 3訓練的獎勵曲線

此過程中,Stage 3的獎勵分數顯示出在前四個訓練步驟中穩步增長,表明學習過程是有效的。然而,在步驟5到10之間,獎勵有所下降,這可能是由于策略過于激進或探政策的改變導致的不穩定性。最終從步驟11開始,獎勵再次上升,這表明策略得到了有效的優化和改進。

Mobile-R1在處理未見應用時表現出良好的泛化性,而其他模型在泛化能力上存在挑戰。Mobile-R1的優異表現主要歸功于Stage 3的訓練,這一階段有效增強了模型的魯棒性和適應性。

魯棒性分析結果,粗體表示最佳結果

最后總結,在本文中,Mobile-R1通過在動態環境中整合交互式強化學習與任務級獎勵,顯著提升了基于視覺語言模型(VLM)的移動代理的能力。

通過包括格式微調、動作級GRPO訓練和任務級GRPO訓練在內的三階段訓練過程,克服了以往方法僅依賴單一動作預測的局限性。

實驗結果表明,Mobile-R1在所有指標上都超越了所有基準。此外,團隊計劃全面開源相關資源以促進進一步的研究。

免費教學更多>>

央視“第一發布”車企首秀 長安馬自達EZ-60獲央視認證 又有兩款行星關節模組成功下線,萬里揚機器人業務再曝進展 因韓美關稅協議陷入停滯,現代汽車集團承壓 速騰聚創單月激光雷達交付量超12萬臺 Grab將向遠程駕駛服務公司Vay投6,000萬美元 實測卓馭10萬元級城市領航輔助:上車端到端2.0模型,復雜路口、人車混行都能應對 硬派越野破局者福特智趣烈馬重慶預售 三季度銷量營收均創新高后,蔚來汽車還是虧損近35億 北京越野BJ40探險家發布,老外觀、新內飾,配分時四驅,兩種動力 福特智趣烈馬正式亮相,全能新能源露營 SUV 滿足日常與戶外需求 嵐圖泰山上市 自成豪華SUV標桿 中國汽車開始書寫豪華車市場新規則 油電同智有高招 一汽奧迪轉型穩中求進 奔馳“小G”諜照曝光,外觀很方正硬朗,背掛小書包,2027年發布 安森美推出一項突破性的功率半導體技術 第十三屆汽車與環境創新論壇 蔚來全新ES8交付破萬 尚元智行獲近億元A輪融資 實力蟬聯汽車新供應鏈百強,移遠智能座艙模組彰顯硬核實力! 東風日產天籟·鴻蒙座艙第四季度上市 三電系統持續升級 技術打磨精細化 浩思動力斬獲“2025蓋世汽車金輯獎中國汽車新供應鏈百強”稱號 日產汽車預警當前財年將虧損18億美元,股價應聲下跌 小馬智行通過港交所聆訊,“全球Robotaxi第一股”回港上市進入倒計時 70萬級超豪華轎車9月銷量榜:尊界S800一騎絕塵,市場格局重塑 連續7個月銷量破萬,微小卡“金九”表現如何?遠程/福田/奇 瑞前三 阿里投融,穹徹智能完成新一輪融資 報廢機動車細則修改破局:82萬噸退役動力電池回收有了新路徑 尹同躍與任正非在深圳華為總部會晤 零跑汽車明年將在歐洲投產B10純電SUV,對標大眾ID.4與斯柯達Elroq 挪威提議擴大電動汽車征稅范圍,特斯拉車型將被納入
在线观看免费成人av_久久久久久久久久久综合_国产精品视频一区二区三区四区五区_另类小说第一页_天天干在线影院_九一免费在线观看_草草久久久无码国产专区_成人短视频在线观看免费_无码熟妇人妻av在线电影_中文字幕第一页亚洲_成人黄色片视频_日韩精品久久一区二区
国产精品国产亚洲精品看不卡| 十八禁视频网站在线观看| 国产 国语对白 露脸| 久久久久国产精品熟女影院| 日韩精品综合在线| 色网站在线视频| 91淫黄看大片| 男人靠女人免费视频网站| 欧美 国产 精品| 日韩欧美色视频| 国产视频1区2区3区| 爆乳熟妇一区二区三区霸乳| 国产精品丝袜久久久久久消防器材| 成人午夜视频免费观看| 无套内谢丰满少妇中文字幕| av亚洲天堂网| 免费精品99久久国产综合精品应用| 免费在线观看的毛片| 浮妇高潮喷白浆视频| 日本在线xxx| 国产 日韩 欧美在线| 久久亚洲精品无码va白人极品| 欧美日韩一级在线 | 日韩精品视频一区二区在线观看| 日韩欧美猛交xxxxx无码| 黄色一级视频播放| 免费成人进口网站| 亚洲第一页在线视频| 精产国品一二三区| 香蕉视频色在线观看| 永久av免费在线观看| 色中文字幕在线观看| 视频区 图片区 小说区| 一级做a爱视频| www.-级毛片线天内射视视| 日本xxxxx18| av网站大全免费| 亚洲 高清 成人 动漫| 免费黄色福利视频| 亚洲不卡视频在线| 加勒比av中文字幕| 玖玖精品在线视频| 轻点好疼好大好爽视频| 国产精品国产亚洲精品看不卡| 国产美女无遮挡网站| 网站一区二区三区| 亚洲一区二区图片| www.国产二区| 2022亚洲天堂| 精品日韩久久久| 成人性生交免费看| 日本丰满大乳奶| 欧美视频免费看欧美视频| 日本在线观看a| 天天操狠狠操夜夜操| 国风产精品一区二区| 国模吧无码一区二区三区| 中文字幕 91| 公共露出暴露狂另类av| 97超碰人人澡| 91激情视频在线| 91制片厂免费观看| 手机av在线网| 黄色一级视频播放| 日日摸日日碰夜夜爽无码| 久久久久免费精品| 免费观看黄色的网站| 欧美日韩不卡在线视频| 男女视频一区二区三区| 国产精品av免费| 亚洲 自拍 另类小说综合图区| 美女喷白浆视频| 国内av一区二区| 老太脱裤让老头玩ⅹxxxx| 国产又黄又猛又粗| 国产成人生活片| 四虎永久在线精品无码视频| 992kp免费看片| 欧美三级一级片| 异国色恋浪漫潭| 激情六月丁香婷婷| 公共露出暴露狂另类av| 99精品免费在线观看| 日韩视频在线免费播放| 日本网站免费在线观看| 亚洲精品免费一区亚洲精品免费精品一区 | 国产真人做爰毛片视频直播 | 国产美女视频免费看| 玩弄中年熟妇正在播放| 中国黄色片一级| 亚洲色欲综合一区二区三区| 日韩av片免费观看| 凹凸国产熟女精品视频| 九一免费在线观看| 中文字幕在线综合| ww国产内射精品后入国产| 超薄肉色丝袜足j调教99| 中文字幕第88页| 国产aaa一级片| 国产日韩亚洲欧美在线| 天堂av手机在线| 日本xxxxxxx免费视频| 国产美女永久无遮挡| 久久精品一卡二卡| 天天色综合社区| 成人综合视频在线| 国产精品www在线观看| 香蕉视频xxxx| 国产探花在线看| 可以免费在线看黄的网站| 免费av观看网址| 国产又粗又猛又爽又黄的网站| 亚洲18在线看污www麻豆| 九色91popny| 妺妺窝人体色www在线小说| 国产手机免费视频| 成人午夜免费在线视频| 日本道在线视频| youjizz.com亚洲| 亚洲美女性囗交| 中日韩av在线播放| www.se五月| 亚洲欧美国产中文| 亚洲精品怡红院| 国内自拍视频网| 成人一区二区三| 久久久久久久久久久免费视频| 日韩av一二三四区| 18禁男女爽爽爽午夜网站免费| 免费拍拍拍网站| 国产二区视频在线| 老太脱裤子让老头玩xxxxx| 精品无码国模私拍视频| 少妇高潮毛片色欲ava片| 丁香婷婷综合激情| 欧美精品自拍视频| 91精品91久久久中77777老牛| 18岁网站在线观看| 欧美黄网站在线观看| 国模吧无码一区二区三区| 日日碰狠狠躁久久躁婷婷| 黄色三级视频片| 亚洲老女人av| 欧美视频国产视频| 男女污污视频网站| 日本美女爱爱视频| av免费观看国产| 成人精品视频一区二区| 欧美日韩一区二区三区69堂| 亚洲欧美日韩网站| www.69av| 欧美 国产 日本| 国产小视频精品| 亚洲欧美天堂在线| 青青青在线观看视频| heyzo国产| 亚洲五月天综合| 亚洲日本黄色片| 无码人妻精品一区二区蜜桃网站| 你懂的av在线| 国产精品久久久毛片| mm131午夜| 无码播放一区二区三区| 一区二区xxx| 在线观看18视频网站| 浮妇高潮喷白浆视频| 免费看涩涩视频| www.激情网| 无码内射中文字幕岛国片| 中文字幕黄色大片| 男人日女人视频网站| 成年网站免费在线观看| 男人的天堂avav| 午夜免费福利在线| 欧美交换配乱吟粗大25p| www.亚洲天堂网| 波多野结衣三级在线| 欧美女人性生活视频| 北条麻妃亚洲一区| 91精品91久久久中77777老牛| 在线观看日本www| 欧美二区在线视频| 激情成人在线观看| 男人靠女人免费视频网站| 99视频在线观看视频| 99热在线这里只有精品| 性鲍视频在线观看| 亚洲午夜无码av毛片久久| 影音先锋男人的网站| 成人在线免费播放视频| 久久免费一级片| 性欧美videossex精品| 欧美图片激情小说| 最新免费av网址| 18禁男女爽爽爽午夜网站免费| 天天综合五月天| 欧美三级午夜理伦三级富婆| 国产午夜大地久久| 黄色影视在线观看| 污污网站免费观看|