本周最值得关注的论文TOP10
本周 AI 领域最值得关注的 10 篇前沿论文分享:涵盖认知模型、多模态、具身智能、Agent、Benchmark等多个领域,针对每篇文章进行深度解读。本分享来自奇绩前沿信号:依托奇绩内部的研究体系,持续追踪并解读全球 AI 领域前沿的论文和产品动态。内容由奇绩行研实习生整理。
因篇幅有限,此文章只展示部分论文解读内容,欢迎扫码获取完整解读文档。
全文目录
认知模型
RedOne 2.0: Rethinking Domain-specific LLM Post-Training in Social Networking Services
LeJEPA: Provable and Scalable Self-Supervised Learning Without the Heuristics
多模态
MPJudge: Towards Perceptual Assessment of Music-Induced Paintings
Rethinking generative image pretraining: How far are we from scaling up next-pixel prediction?
具身智能
SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control
AI4Science
The Station: An Open-World Environment for AI-Driven Discovery
Infra
CLM: Removing the GPU Memory Barrier for 3D Gaussian Splatting
Agent
Grounded Test-Time Adaptation for LLM Agents
IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction
Benchmark
ProBench: Benchmarking GUI Agents with Accurate Process Information
认知模型
小红书推出RedOne 2.0:用渐进式强化学习重塑社交网络领域大模型训练范式,4B模型性能超越7B基线2.41分
信号源:小红书
通讯作者:Shaosheng Cao
论文链接:RedOne 2.0: Rethinking Domain-specific LLM Post-Training in Social Networking Services
认知提取
RedOne 2.0像是给大模型设计了一套"先探索、再修补、后打磨"的三段式成长路径,通过优先使用强化学习而非传统微调,让小规模模型在社交网络场景中既能快速适应多变的网络文化,又能保持通用能力不退化,仅用一半数据就实现了8.74分的性能提升。
论文摘要
小红书团队针对社交网络服务中大语言模型面临的异构任务、快速变化的网络文化和多语言挑战,提出了RedOne 2.0训练框架。该框架采用渐进式、强化学习优先的三阶段训练范式:探索性学习建立初始对齐、针对性微调修复薄弱环节、精炼学习巩固改进。实验表明,4B规模的RedOne 2.0在通用和社交网络特定任务上平均超越7B基线模型2.41分,相比前代RedOne仅用一半数据就实现8.74分的性能提升,证明了该方法在数据效率和模型稳定性上的显著优势,为社交网络场景下的领域专用大模型建立了具有成本效益的新基准。
核心方法
方法框架:RedOne 2.0采用三阶段渐进式训练管线:第一阶段通过探索性学习让模型接触精选的社交网络语料,建立初始领域对齐并诊断系统性弱点;第二阶段针对诊断出的薄弱任务进行有针对性的监督微调,同时混入少量通用数据以防止遗忘;第三阶段重新应用强化学习,使用社交网络中心化的奖励信号来巩固改进并平衡不同任务间的权衡。这种设计哲学认为"探索-纠正-精炼"比传统的监督微调为主的方案能带来更好的稳定性和泛化能力,特别是在小参数规模和有限领域数据的情况下。
技术细节:
- 任务特定奖励函数:针对不同任务类型设计了四种奖励机制——精确匹配用于分类任务、基于指标用于翻译等开放任务、沙盒执行用于代码生成、模式匹配用于格式遵循,就像为不同科目设计不同的评分标准
- 软标签正则化:在第二阶段使用前一阶段模型生成的候选响应作为软标签,从8个候选中选择最佳作为监督目标,这就像用学生自己改进后的答案而非标准答案来指导学习,既能减少遗忘又能提高学习效率
- DAPO优化算法:采用直接对齐偏好优化方法,通过对每个问题采样多个候选输出并计算标准化优势函数来优化策略,相比传统方法更高效且训练更稳定
- 渐进式数据混合:三个阶段分别使用75万、180万和40万样本,其中社交网络数据占比从93%逐渐调整,通过动态任务采样保持长尾行为的可见性
实验成果
- RedOne 2.0 4B模型在通用能力基准General-Bench上达到70.80分,超越了规模更大的Qwen3-8B和GLM-4-9B等开源模型,甚至与部分百亿级参数的专有模型性能相当。这个结果证明了三阶段训练管线能在紧凑规模下有效提升通用和领域特定能力,数据显示其比7B的次优基线平均高出2.41分。
- 在社交网络专用基准SNS-Bench的8项任务评测中,4B模型获得67.57的平均分,超越所有10B以下基线模型,并比前代RedOne-7B提升0.69分。在SNS-TransBench的中英互译测试中达到47.67分,位列同规模模型第一。这些结果表明模型不仅继承了基座模型的强泛化能力,还通过渐进对齐大幅提升了社交网络领域能力。
- 在小红书平台的线上应用中,RedOne 2.0用于个性化重写帖子标题,使广告主价值提升0.43%,内容质量显著改善:模糊标题减少11.9%、实用性标题增加7.1%、真实性标题增加12.9%、互动性标题增加25.8%。这些数据证明了模型在真实业务场景中既能提升用户体验又能产生可衡量的商业价值,验证了其实用性。
总结与反思
- 结果总结:RedOne 2.0通过渐进式、强化学习优先的三阶段训练范式,在社交网络场景下实现了数据效率和模型稳定性的显著提升,为领域专用大模型建立了具有竞争力和成本效益的新基准,在保持通用能力的同时大幅增强了领域适应能力。
- 局限性:论文指出在需要严格保留关键事实的场景中,RedOne 2.0有时会过度优化参与度而牺牲信息精确性,例如在交通卡使用指南案例中泛化了主题但遗漏了关键细节。未来工作需要在保持表达力的同时加强忠实性约束。
- 前沿见解:论文建议未来研究可以探索如何在快速变化的社交网络环境中实现持续学习,以及如何更好地平衡参与度优化与事实准确性。此外,该三阶段训练范式在其他垂直领域的泛化能力也值得进一步验证,可能为医疗、法律等专业领域的大模型训练提供新思路。
多模态
华东师范大学与上海创智学院提出MPJudge:首个基于人类感知的音乐绘画一致性评估框架,准确率达93%
信号源:华东师范大学,上海创智学院
通讯作者:Chenhui Li
论文链接:MPJudge: Towards Perceptual Assessment of Music-Induced Paintings
认知提取
这项研究就像为音乐和绘画之间搭建了一座"感知翻译桥",不再依赖情感标签这种粗糙的中间媒介,而是直接让AI学会像艺术家一样,判断一幅画是否真正"听懂"了音乐——从色彩、节奏到构图的多层次共鸣。
论文摘要
华东师范大学与上海创智学院团队针对音乐诱导绘画评估这一全新任务,构建了首个包含50,000个音乐-绘画配对的大规模人类标注数据集MPD,并提出MPJudge模型。该模型通过模态自适应归一化机制将音乐特征深度融入视觉编码器,并创新性地引入直接偏好优化(DPO)来处理模糊样本。实验表明,MPJudge在多个基准测试中显著超越现有方法,在自建数据集上达到0.86的斯皮尔曼相关系数和93%的准确率,为跨模态感知对齐研究开辟了新路径。
核心方法
方法框架:研究采用非对称双分支架构,音乐通过轻量级卷积编码器提取频谱特征,绘画则使用Transformer编码器处理视觉信息。关键创新在于通过模态自适应归一化(MAN)模块,将音乐特征作为调制信号动态注入视觉编码器的多个层级,而非简单的后期特征拼接。训练时结合回归损失(针对标量分数)和直接偏好优化损失(针对模糊样本的成对偏好),使模型既能学习绝对一致性,也能捕捉相对感知差异。
技术细节:
- 模态自适应归一化(MAN):类似于图像风格迁移中的AdaIN,但目的不同——它让音乐特征通过尺度和偏移参数动态调制绘画特征,就像给视觉编码器戴上了一副"听觉滤镜",使其能根据音乐上下文调整对绘画的理解。
- 直接偏好优化(DPO):针对分数在0.4-0.6之间的模糊样本,收集成对偏好标注(如"对于音乐A,绘画B比绘画C更匹配"),通过相对排序而非绝对分数来训练模型,这就像教AI通过"比较"而非"打分"来理解细微的感知差异。
- 层级化调制强度图(MIM):通过计算每层MAN模块前后特征的变化量,可视化音乐对视觉表征的影响——浅层关注纹理和色彩等低级特征,深层则影响语义和构图等高级结构,揭示了跨模态感知的层次性。
实验成果
- 在三个数据集上的全面验证中,MPJudge在所有指标上均超越现有方法。在自建MPD数据集上,模型达到0.68的斯皮尔曼相关系数(SRCC)、0.66的皮尔逊相关系数(PLCC)和93%的准确率,平均绝对误差仅为0.04。这些数字意味着模型的预测与人类专家的感知判断高度一致,几乎达到了可用于实际艺术评估的水平。
- 用户研究进一步验证了模型的实用性:在二元匹配任务中,20名参与者的判断与模型预测的一致率超过85%;在排序任务中,模型对5幅绘画的相关性排序与人类排序的相关性达到0.72。值得注意的是,参与者之间的误差条较小,说明模型的感知对齐具有跨人群的稳定性。
- 消融实验揭示了设计选择的重要性:移除DPO损失后,SRCC从0.68降至0.63,证明偏好学习对处理模糊样本至关重要;与简单特征拼接(SRCC=0.55)和交叉注意力机制(SRCC=0.61)相比,MAN模块的优势明显,说明调制式融合更适合捕捉跨模态的层次化对应关系。可视化分析显示,模型能准确识别绘画中与音乐相关的区域,如在节奏强烈的音乐中突出动态笔触,在柔和旋律中关注色彩渐变。
总结与反思
- 结果总结:本研究首次系统性地定义并解决了音乐诱导绘画的感知评估问题,通过构建大规模人类标注数据集和提出音乐调制视觉编码的新架构,证明了AI可以学习到接近人类专家水平的跨模态感知对齐能力,为艺术创作评估和多模态理解研究提供了新范式。
- 局限性:论文提到当前数据集主要基于独立采集的音乐和绘画随机配对,而非真实的音乐诱导创作场景,这可能限制了模型对创作过程中微妙关联的捕捉能力。此外,研究主要聚焦于西方艺术风格和古典/流行音乐,对其他文化背景下的音乐-绘画关系的泛化能力尚未充分验证。
- 前沿见解:未来研究方向包括扩展到更广泛的视觉内容类型,如素描、抽象艺术或数字艺术;探索生成式应用,如根据音乐自动生成匹配的绘画,或在交互式创作工具中提供实时反馈;以及研究跨文化的音乐-视觉对应关系,构建更具普适性的感知评估框架。
具身智能
英伟达发布SONIC:100万帧数据训练的人形机器人通用运动控制系统,实现跨模态统一控制
信号源:英伟达
通讯作者:Yuke Zhu, Linxi "Jim" Fan
论文链接:SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control
项目链接:https://nvlabs.github.io/SONIC/
认知提取
就像给人形机器人装上了一个'运动大脑',SONIC通过学习1亿帧人类动作数据,让机器人能够像人类一样自然地走路、跳舞、格斗,甚至可以通过VR、视频、语音等多种方式进行控制。
论文摘要
SONIC是英伟达开发的大规模人形机器人运动跟踪系统,通过在100万帧动作数据上训练42万参数模型,实现了通用的人形机器人全身控制能力。该系统支持VR遥操作、视频控制、文本指令和音乐节拍等多模态输入,在真实机器人上达到100%成功率。SONIC建立了从大规模运动跟踪到基础模型驱动的人形机器人控制的完整管线,为通用人形机器人自主控制奠定了实用基础。
核心方法
- 方法框架:SONIC采用统一的编码器-解码器架构,通过专门的编码器处理机器人、人类和混合运动指令,将其映射到共享的通用token空间,再通过机器人控制解码器生成电机指令。系统结合了大规模运动跟踪策略、实时运动学规划器和多模态运动生成模型,实现了跨embodiment的运动学习和控制。
- 技术细节:
- 通用token空间:使用向量量化器将不同模态的运动指令统一编码为通用token,就像给不同'语言'找到了共同的'翻译器'
- 自适应运动采样:根据失败率动态调整训练数据采样权重,重点学习困难动作,类似于学生重点复习薄弱科目
- 运动学规划器:采用masked token预测方法生成0.8-2.4秒的运动片段,像填空题一样逐步完善动作序列
- 跨embodiment学习:通过重建损失和循环一致性损失确保人类和机器人动作在潜在空间中对齐,实现跨物种的动作迁移
实验成果
- 大规模运动跟踪验证:在包含1602个未见过的动作轨迹测试中,SONIC达到99.6%成功率,MPJPE误差仅42.7mm,显著超越现有方法的84.2%成功率,证明了大规模训练的有效性。
- 真实机器人部署:在50个多样化动作轨迹的真实世界测试中实现100%成功率,包括舞蹈、跳跃和物体操作任务,展现了从仿真到现实的零样本迁移能力。
- 多模态控制集成:成功集成VR遥操作、视频控制、文本指令和音乐控制,平均延迟121.9ms,右手腕位置误差6cm,为多模态人机交互建立了统一接口。
总结与反思
- 结果总结:SONIC证明了运动跟踪作为人形机器人控制基础任务的可扩展性,通过大规模数据和计算实现了通用的全身控制能力,建立了从运动跟踪到多模态控制的完整系统。
- 局限性:论文提到系统在安全性、顺应性和能耗优化方面还需要进一步改进,同时在部署过程中需要应对噪声输入的挑战。
- 前沿见解:未来工作将探索更大规模数据集的扩展规律,实现VLA指导的全身运动操作任务,并研究规划器、tokenizer和策略的联合训练以减少模态差异,推动通用人形机器人自主能力的发展。
AI4Science
斯坦福大学和Dualverse AI发布Station:首个开放世界AI科学发现环境,在多项基准测试中创下新纪录
信号源:dualverse
论文链接:The Station: An Open-World Environment for AI-Driven Discovery
项目链接:https://github.com/dualverse-ai/station
认知提取
研究者构建了一个名为Station的虚拟科学生态系统,让AI智能体像真正的科学家一样自主探索、发表论文、相互协作,就像给AI们建了一个微缩版的学术界,结果这些AI不仅能独立发现新方法,还在数学、生物学等多个领域刷新了最佳成绩。
论文摘要
本研究首次展示了AI在开放世界环境中进行自主科学发现的能力。Station环境让多个AI智能体在数百轮交互中自由选择行动,包括阅读论文、提出假设、进行实验和发表成果。实验结果显示,AI智能体在圆形填充、单细胞RNA测序批次整合、神经活动预测、强化学习和RNA建模等五个不同领域均创下新的最佳性能记录。更重要的是,这些方法包含了跨领域的原创性组合,如将无监督聚类中的密度感知概念应用于批次整合问题,展现了真正的科学创新能力。
核心方法
- 方法框架:Station采用多智能体开放世界设计,包含11个功能房间(如研究柜台、档案室、反思室等),智能体可自主选择行动路径。系统支持持续运行数千轮,智能体可以阅读论文、进行实验、发表成果、相互交流,并通过世代传承机制保持研究文化的延续。每个Station配置5个不同的大语言模型智能体,在没有中央协调的情况下自主探索科学问题。
- 技术细节:
- 世代传承系统:智能体可选择继承已有研究谱系或创建新谱系,通过私人记录传递研究价值观和发现
- 胶囊协议:统一的消息容器系统,支持在私人记忆室、公共论坛、档案室和邮件室之间进行结构化交流
- 成熟度机制:新智能体前50轮处于隔离期,防止过早收敛,50轮后获得完整访问权限
- 停滞协议:当研究目标长时间无进展时自动触发,鼓励智能体重新审视问题并探索新方向
- 自动调试系统:当代码出现错误时,专门的调试智能体会自动修复语法错误,减少技术摩擦
实验成果
- 在圆形填充任务中,Station开发的MM-LP自适应搜索方法在n=32时达到2.93957分,超越了AlphaEvolve的2.93794分。该方法巧妙结合了大规模并行探索和精确局部优化,使用统一的线性规划引擎处理两个阶段。
- 在单细胞RNA测序批次整合任务中,创新性地提出了密度自适应、批次感知算法,总分达到0.5877,超过LLM-TS的0.5867。该算法根据局部密度动态分配细胞混合配额,在密集区域促进跨批次连接,在稀疏区域保护生物学结构。
- 在神经活动预测任务中,设计了融合全局傅里叶模块、局部超网络和持续路径的混合架构,在ZAPBench基准测试中达到26.37±0.03×10^-3的平均测试MAE,优于LLM-TS的26.62±0.04×10^-3,且模型参数仅为5.8M,远小于LLM-TS的14.1M参数。
总结与反思
- 结果总结:Station证明了当前AI在适当环境中能够通过应用跨领域概念发现新颖解决方案,在五个不同科学领域均创下最佳性能记录,展现了真正的科学创新能力而非简单的组件重组。
- 局限性:Station实例表现出较高方差性,增加并行实例数量可能会获得更好结果,但由于成本限制未进行充分探索;同时,某些发现的方法虽然有效,但其理论基础和普适性仍需进一步验证。
- 前沿见解:研究指出,大多数人类科学突破并非来自工厂式的渐进改进,而是源于充满直觉、假设、实验和社会互动的漫长探索之旅。未来实现大规模自主科学发现需要同时具备强大的AI模型和丰富的开放世界环境,应该信任AI的涌现行为而非过度依赖手工设计的组件。
Infra
纽约大学谢赛宁团队提出CLM系统:突破GPU显存限制,单卡训练1亿高斯的3D场景重建
信号源:纽约大学,华盛顿大学
通讯作者:Saining Xie
论文链接:CLM: Removing the GPU Memory Barrier for 3D Gaussian Splatting
认知提取
CLM就像给GPU配了一个智能仓库管理员,它不把所有货物(高斯点)都堆在狭小的店面(GPU显存)里,而是根据顾客需求(视角渲染)精准调度库存,让单张消费级显卡也能处理原本需要多卡才能完成的超大规模3D场景重建任务。
论文摘要
3D高斯点云(3DGS)因其快速渲染和高质量输出在新视角合成领域日益流行,但其巨大的显存需求限制了大规模场景的应用。纽约大学团队提出CLM系统,通过将高斯点卸载到CPU内存并按需加载到GPU,使单张RTX4090消费级显卡能够训练包含1.02亿高斯点的大规模场景。该系统利用3DGS稀疏访问特性设计了创新的卸载策略,实现了GPU-CPU通信、GPU计算和CPU计算的高效流水线重叠,在MatrixCity BigCity场景上达到25.15的峰值信噪比(PSNR),相比仅GPU训练的23.93显著提升,同时保持了86%-97%的吞吐量效率。
核心方法
- 方法框架: CLM采用三阶段设计:首先通过视锥剔除预计算每个视角需要的高斯点子集,然后使用旅行商问题(TSP)算法优化微批次处理顺序以最大化空间局部性,最后通过微批次流水线技术将参数加载、梯度传输和Adam优化器计算与GPU渲染计算重叠执行。这种设计使得系统能够将高斯点存储在CPU内存中,仅在渲染时将必需的子集加载到GPU,从而突破了GPU显存容量限制。
- 技术细节:
- 属性级卸载(Attribute-Wise Offload):将高斯点的59个参数分为选择关键属性(位置、尺度、旋转,占20%)和非关键属性(颜色、透明度等)。关键属性常驻GPU用于快速视锥剔除,非关键属性存储在CPU并按需加载,类似于只把图书馆索引卡放在手边,需要时再取书。
- 精确高斯缓存(Precise Gaussian Caching):利用连续微批次间的空间重叠,将前一批次已加载的高斯点直接复制给下一批次使用,避免重复传输。这就像快递员送货时,如果两个地址相邻就一次性送达,而不是来回跑两趟。
- 重叠CPU Adam优化:当某个高斯点在批次中完成最后一次更新后,立即在CPU上执行其参数优化,与后续微批次的GPU计算并行进行。相当于流水线作业,一边加工新零件,一边检验已完成的旧零件。
- TSP排序优化:通过求解旅行商问题找到最优的视角处理顺序,使相邻视角访问的高斯点重叠最大化,从而减少总通信量并提前完成更多高斯点的优化。
- 选择性加载内核:开发定制CUDA内核直接从CPU固定内存通过PCIe加载分散的高斯点参数到GPU寄存器,避免了逐个复制的低效率,并在同一内核中完成属性拆分和拼接。
实验成果
- 显存效率显著提升:CLM在RTX 4090上可训练多达1.022亿高斯点的模型,是增强基线(仅GPU训练)的5.7倍,是朴素卸载方案的2.2倍。对于MatrixCity BigCity这样的城市级场景,CLM突破了GPU显存限制,使得单卡训练成为可能。
- 重建质量达到业界领先:在BigCity场景上,CLM训练1.022亿高斯点模型达到25.15的PSNR,而受限于显存的仅GPU基线只能训练1530万高斯点并获得23.93的PSNR。这1.22的PSNR提升意味着渲染图像质量的显著改善,证明了更大模型规模带来的质量收益。
- 性能开销控制良好:相比朴素卸载方案,CLM在BigCity场景上实现1.92倍加速(RTX 2080 Ti)和1.58倍加速(RTX 4090)。与增强GPU基线相比,CLM在RTX 2080 Ti上保持86%-97%的吞吐量,在RTX 4090上保持55%-90%的吞吐量。通信量减少37%-82%,其中BigCity场景减少最显著(82%),这得益于其极低的稀疏度(平均每视角仅访问0.39%的高斯点)。GPU利用率分析显示CLM通过流水线重叠有效隐藏了通信开销,在高分辨率场景(如4K的Bicycle和Rubble)中开销不到20%。
总结与反思
- 结果总结: CLM通过稀疏性引导的卸载策略和领域特定优化,成功将3D高斯点云的可训练规模提升至6倍以上,使单张消费级GPU能够处理此前需要多GPU集群才能完成的大规模场景重建任务,同时达到业界领先的重建质量。
- 局限性: 论文指出当场景规模继续增长时,朴素的视锥剔除(遍历所有高斯点)可能成为瓶颈,因为其时间复杂度与高斯点数量线性相关。此外,CLM的流水线设计需要双缓冲机制,会增加少量固定的额外显存开销(尽管与场景规模无关)。
- 前沿见解: 未来研究可以集成空间加速结构(如层次包围盒BVH)来组织高斯点,通过跳过不相交区域来提升视锥剔除性能,进一步突破规模限制。CLM的设计具有后端无关性,可以无缝扩展到Vulkan等其他渲染API和2D高斯点云、3D凸点云等类似的基于点的可微渲染技术,因为它们都表现出由视锥剔除引起的稀疏数据访问模式。3
Agent
滑铁卢大学与Salesforce AI提出GROUNDED TEST-TIME ADAPTATION:让大语言模型智能体在新环境中快速适应,实现更强泛化能力
信号源:滑铁卢大学,Salesforce
论文链接:Grounded Test-Time Adaptation for LLM Agents
认知提取
就像一个初到异国的旅行者,即便精通多国语言,也需要先了解当地的交通规则和文化习惯才能自如行动——这篇论文让AI智能体学会了在陌生环境中边探索边适应,通过轻量级的语法对齐和主动探索环境规律,将在复杂网站上的成功率从2%提升到23%。
论文摘要
大语言模型智能体在面对未见过的网站或新函数集时常常失败,根源在于预训练知识与部署环境的系统性错配。本研究提出两种互补的测试时适应策略:一种通过学习轻量级适应向量实现参数化在线适应,快速对齐环境特定的语法格式;另一种通过角色驱动的探索阶段构建非参数化的世界模型,系统性地探测环境的因果动态。在WebArena多站点任务上,这些方法将GPT-4.1的成功率从2%提升至23%,展示了在函数调用和网页导航等多样化基准测试中的显著效果,为构建更具泛化能力的AI智能体开辟了高效实用的路径。
核心方法
方法框架: 研究针对智能体在新环境中的两类失配问题提出解决方案:对于语法错配,通过在最终隐藏层添加可学习的适应向量,利用当前上下文的交叉熵损失进行单步梯度更新,使模型输出分布快速对齐环境特定语法;对于语义错配,设计了一个四步流程——首先基于环境描述合成探索任务,然后让智能体执行探索并实时提取状态转换规则,接着用推理模型过滤冗余规则,最后将精炼的环境动态知识注入智能体上下文以指导决策。这两种策略都无需人工标注或离线数据,仅依赖测试时交互即可完成适应。
技术细节:
- 参数化适应向量:在语言模型的最终隐藏表示上添加一个维度为d的向量作为偏置,每一步通过最小化语言建模损失对该向量进行梯度下降更新,就像给模型戴上一副能实时调焦的眼镜,让它看清当前环境的特定格式。
- 角色驱动探索:使用大语言模型根据环境描述生成多样化的探索角色,每个角色代表不同的探索策略,引导智能体进行有目的的多步交互,类似于派出不同性格的侦察兵去摸清地形。
- 状态转换提取:在探索过程中,对每个观察-动作-新观察三元组即时总结成人类可读的规则,并将已提取规则反馈给探索智能体以鼓励探索未尝试的动作,确保探索的多样性和覆盖度。
- 动态过滤机制:利用推理模型识别并移除琐碎或重复的环境动态规则,只保留那些描述非直观状态转换、错误条件或新能力的有意义规则,就像编辑一本旅行指南时只保留最实用的建议。
实验成果
- 在WebArena基准测试中,非参数化适应方法在多站点任务上取得突破性进展,将GPT-4.1的成功率从2%提升至23%,提升幅度达1050%。这一显著提升表明,当环境动态与常识先验不匹配时,显式的世界模型知识能够极大地弥补智能体预训练知识的不足,使其能够正确预测动作后果并规划多步骤任务。
- 参数化适应方法展现出高效的计算特性,单次更新步骤仅增加3%的延迟开销,却能在各种规模的模型上持续带来性能提升。在BFCLv3函数调用基准上,该方法将Qwen2.5-14B模型的成功率从18.5%提升至20.0%,在Tau-Bench的航空领域任务中从21.6%提升至25.2%。这种轻量级适应特别适合需要实时响应的应用场景。
- 消融实验揭示了一个有趣的发现:使用智能体自身作为探索策略和动态提取器,其效果与使用更强大的模型相当。这种自我改进能力表明,非参数化适应方法对模型选择具有鲁棒性,降低了部署成本。同时,环境动态过滤机制在10个探索回合的设置下将成功率从61.0%提升至64.0%,证明了精炼知识而非简单堆积信息的重要性。 总结与反思
- 结果总结: 本研究通过参数化和非参数化两种测试时适应策略,系统性地解决了大语言模型智能体在新环境中的语法和语义错配问题,显著提升了智能体在复杂环境中的泛化能力和任务成功率,为构建更智能、更适应性强的AI系统提供了高效实用的解决方案。
- 局限性: 研究主要在Qwen2.5模型家族上验证参数化适应方法,未来需要在更广泛的开源架构上验证其普适性。此外,当前的参数化适应方法未按隐藏维度大小归一化更新,这可能影响超参数的鲁棒性。最关键的是,简单组合两种适应策略的效果次优,表明需要更精细的集成机制来避免不同适应信号之间的干扰。
- 前沿见解: 未来最有前景的研究方向是开发一个元控制器,能够智能评估环境复杂度并动态决策:对于简单任务依赖高效的在线适应,对于复杂陌生环境则部署成本更高的动态探索。这种自适应的策略选择机制将进一步提升智能体的效率和适用范围,使其能够在资源受限的情况下做出最优的适应决策。
Benchmark
浙江大学与蚂蚁集团发布ProBench:基于精确过程信息的GUI智能体评测基准,揭示现有智能体在真实场景中的重大局限性
信号源:浙江大学,蚂蚁
论文链接:ProBench: Benchmarking GUI Agents with Accurate Process Information
认知提取
就像考试不能只看最终答案而忽略解题过程一样,研究者发现现有的GUI智能体评测只关注最终界面状态,却忽略了操作过程的正确性,于是构建了一个能自动捕获精确过程信息的评测基准,发现即使是最先进的智能体在真实移动应用场景中的成功率也不到50%。
论文摘要
ProBench是一个包含200多个挑战性GUI任务的综合移动端评测基准,覆盖34个主流中英文在线应用。研究创新性地将任务分为状态相关和过程相关两类,并设计了自动化的过程信息提供器,能够精确捕获操作过程中的关键步骤。评测结果显示,即使是表现最佳的模型成功率也仅为40.1%,且在社交和生活类应用中表现尤其糟糕。这一发现为GUI智能体的未来发展指明了具体的改进方向,特别是在基础定位能力、历史操作感知和任务规划方面的不足。
核心方法
方法框架:ProBench基于Android调试桥(ADB)库构建,通过实时截图获取当前屏幕状态,将截图、任务指令和历史操作记录传输给智能体。智能体预测下一步操作后,系统解析并转换为设备控制命令执行,形成迭代循环直到任务完成或达到步数上限。关键创新在于引入过程提供器,能够自动捕获操作过程中的精确信息,实现对智能体操作过程的准确评估。
技术细节:
结构描述转换器:解析a11y树结构,定位点击坐标对应的最小可点击节点,提取其文本和内容描述属性,如果为空则使用资源ID和子节点信息补充,生成人类可读的操作描述
基于MLLM的摘要器:使用多模态大语言模型比较操作前后的截图,在图像上标记点击坐标,生成描述性的文本摘要来说明执行的操作
任务分类设计:将任务分为状态相关(仅需最终界面状态正确)和过程相关(需要特定操作过程)两类,后者要求智能体必须执行特定的中间步骤才能被判定为成功
实验成果
- 整体性能表现不佳:即使是表现最佳的Gemini 2.5 Pro模型,平均准确率也仅为40.1%,且所有模型在过程相关任务上的表现都明显低于状态相关任务。这表明当前智能体在需要动态关注操作过程的复杂任务中存在显著不足,距离真实应用场景的要求还有很大差距。
- 模型规模效应明显:通用开源模型展现出显著的规模效应,Qwen2.5-VL系列随着参数规模增加性能稳步提升,72B版本达到36.9%的整体准确率,接近顶级专有模型水平。在英文操作任务中,72B变体达到53.3%的平均准确率,超越了所有其他模型,证明了在GUI场景中更大模型规模能带来实质性性能提升。
- 应用类别差异显著:智能体在生产工具和系统应用上表现较好,但在社交网络和生活类应用上表现糟糕,而这些恰恰是最贴近日常信息检索需求的领域。社交和生活类应用具有内容频繁刷新、信息高度碎片化、仅图标按钮、深度嵌套折叠卡片和广告弹窗等特点,有效信号稀少而视觉干扰因素众多,使得当前GUI智能体难以完成指令。
总结与反思
结果总结:ProBench评测揭示了当前先进GUI智能体在真实移动应用场景中存在重大局限性,成功率普遍低于50%,且在社交和生活类应用中表现尤其不佳,为GUI智能体的发展提供了明确的改进方向。 前沿见解:未来工作可以改进评估指标以捕获任务进展程度,而不是仅依赖二元判断,ProBench旨在为移动环境中更准确评估操作任务建立新标准。
【奇绩前沿信号介绍】
奇绩前沿信号播客——全球 AI 前沿的情报站
奇绩沿信号依托奇绩内部的研究体系,持续追踪并解读全球 AI 领域前沿的论文和产品动态。
基于对全球 500+ 顶尖机构、3000+ 核心人才的实时追踪,只捕捉那些“刚刚发生、尚未扩散、但注定改变格局”的信号:
- 认知模型突破、多模态跃迁、智能体进化……
- OpenAI、Anthropic、DeepSeek、Kimi、字节……巨头与新锐的关键动向
- Infra 演进、AI4S 落地、产业重构……高价值趋势的早期征兆
