Loading...
环形吸引子是受神经回路动力学启发的数学模型,为提升强化学习(RL)的学习速度和准确性提供了生物学上合理的机制。作为编码空间信息和不确定性的专用类脑结构,环形吸引子在深度强化学习(DRL)场景中显式编码动作空间、促进神经活动组织,并实现空间表示在神经网络中的分布式存储。这些结构还提供时间滤波功能,在探索过程中稳定动作选择——例如,在机器人控制中保持旋转角度的连续性,或在类游戏环境中维持战术动作的关联性。环形吸引子在动作选择过程中的应用包括将动作映射到环形上的特定位置,并基于神经活动解码所选动作。
2025_NIPS_CELLVERSE: Do Large Language Models Really Understand Cell Biology?
背景与问题:现有单细胞分析方法存在缺乏统一性(需为不同多组学数据和任务设计专用模型)、用户友好性不足(依赖生物学专业知识和编程技能)、可解释性差(黑箱模型无法说明决策逻辑)三大痛点;而LLMs在科学领域的应用尚未针对单细胞分析开展全面评估。CELLVERSE基准构建数据覆盖:整合4类单细胞多组学数据(scRNA-seq、CITE-seq、ASAP-seq、scATAC-seq),包含5个子数据集;任务设计:涵盖3个层级的核心单细胞分析任务,均转化为问答(QA)格式:细胞水平:细胞类型注释(CTA)
2025_NIPS_You Only Communicate Once: One-shot Federated Low-Rank Adaptation of MLLM
多模态大语言模型(MLLMs)与联邦学习(FL)结合可快速适配隐私敏感任务,但受限于多轮通信,面临通信成本高昂和攻击风险增加等显著挑战。为解决这一问题,单轮联邦学习(OFL)应运而生,旨在通过一次客户端-服务器通信完成适配。然而,现有自适应集成类OFL方法仍需多轮通信——由于校正异质性导致的局部偏差依赖于聚合生成的全局监督信号,因此并未实现真正的单轮通信。本文首次尝试在OFL框架下为MLLMs实现真正单轮通信,核心探索仅通过隐式全局监督(即初始预训练权重而非聚合权重)能否有效校正局部训练偏差。
2025_NIPS_From Bytes to Ideas: Language Modeling with Autoregressive U-Nets
该研究针对传统语言模型中分词(Tokenization)技术的局限性(如固定粒度、预定义词汇表、孤立嵌入阻碍跨语言迁移等),提出了自回归U-Net(AU-Net)模型。AU-Net直接处理原始字节(rawbytes),通过自适应多阶段分层结构,动态将字节聚合为单词、单词对乃至4词块,形成多尺度序列表示,无需预定义词汇表和大型嵌入表。
CUA-SUITE: MASSIVE HUMAN-ANNOTATED VIDEO DEMONSTRATIONS FOR COMPUTER-USE AGENTS
本文旨在解决当前通用计算机使用代理(CUAs)在专业桌面应用程序中表现不佳的瓶颈。研究指出,现有的基于稀疏屏幕截图的数据集缺乏时间连续性,无法满足构建高级代理的需求。为此,作者提出了CUA-SUITE,这是一个为训练和评估桌面计算机代理而设计的大规模、全栈式生态系统。主要组成部分包括:目前最大的开源专家视频语料库。
UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience
随着多模态大语言模型(MLLM)的快速发展,自主移动GUI(图形用户界面)智能体受到了越来越多的关注。失败轨迹的低效学习:模型难以从失败经验中有效提取可用的学习信号。稀疏奖励下的信用分配模糊问题:在长时域GUI任务中,奖励信号稀疏,难以精确判断哪一步操作导致了成功或失败。随着多模态大语言模型(MLLM)的不断发展,自主移动GUI智能体受到了越来越广泛的关注。然而,现有方法在从失败轨迹中高效学习方面仍存在不足,同时在长时域GUI任务的稀疏奖励下面临模糊的信用分配问题。
2025_NIPS_Measure gradients, not activations! Enhancing neuronal activity in deep reinforcement lear
测量梯度而非激活值!增强深度强化学习中的神经元活性深度强化学习(RL)智能体经常遭受神经元活性丧失的问题,这会损害其适应新数据和持续学习的能力。一种量化和解决该问题的常用方法是τ-休眠神经元比率,它利用激活统计信息来衡量神经元的表达能力。尽管这种方法对基于简单MLP的智能体有效,但在更复杂的架构中会丧失统计效力。为解决这一问题,我们认为在先进的RL智能体中,维持神经元的学习能力(通过梯度更新适应的能力)比保留其表达能力更为关键。
2025_NIPS_Audio Flamingo 3: Advancing Audio Intelligence with Fully Open Large Audio Language Models
我们提出了AudioFlamingo3(AF3),这是一款完全开源的顶尖大型音频语言模型,在语音、声音和音乐的推理与理解方面实现了技术突破。AF3具备以下特性:(i)AF-Whisper——一种统一音频编码器,通过创新策略训练,实现语音、声音、音乐三大模态的联合表征学习;(ii)灵活的按需推理能力,允许模型在回答前进行链式思维(chain-of-thought)类型的推理;(iii)多轮多音频对话功能;(iv)支持长达10分钟的长音频理解与推理(含语音);(v)语音到语音交互。
2025_NIPS_Model Provenance Testing for Large Language Models
大型语言模型正通过微调及其他适配方式被日益广泛地定制化,这给许可条款执行和下游影响管理(如知识产权保护或漏洞识别)带来了挑战。本文通过开发一套模型来源测试框架来应对这一问题。我们的方法基于一个关键观察:现实世界中的模型衍生过程会保留模型输出中的显著相似性,而这种相似性可通过统计分析检测。仅利用对模型的黑盒访问权限,我们采用多假设检验,将模型相似度与无关模型建立的基准进行对比。
2025_NIPS_Graph-KV: Breaking Sequence via Injecting Structural Biases into Large Language Models
该研究针对大型语言模型(LLMs)固有的自回归特性导致的结构化数据处理缺陷,提出了一种名为Graph-KV的新方法。核心目标是突破LLMs需将所有输入序列化的限制,通过注入结构归纳偏置,提升模型在结构化数据任务中的性能,同时解决位置偏差、计算复杂度高和上下文窗口消耗过快等问题。现代大型语言模型(LLMs)本质上是自回归的,无论输入数据是否存在结构化依赖,都要求将其序列化为扁平序列。
2025_NIPS_Uncertainty-Based Smooth Policy Regularisation for Reinforcement Learning with Few Demonst
该研究针对稀疏奖励强化学习中演示数据利用率低的问题,提出SPReD(SmoothPolicyRegularisationfromDemonstrations)框架。通过集成评论家网络建模Q值分布,量化演示动作与智能体当前策略动作的不确定性,采用连续权重调节行为克隆损失,而非传统二进制决策,在8个机器人任务中实现显著性能提升,复杂任务成功率最高达传统方法的14倍,且对演示数据的质量和数量具有强鲁棒性。在稀疏奖励强化学习中,演示数据可加速学习,但如何判断何时模仿演示动作仍是一大挑战。
2025_NIPS_JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation
本文提出JavisGPT,这是首个用于联合音视频(JAV)理解与生成的统一多模态大语言模型(MLLM)。该模型采用简洁的编码器-LLM-解码器架构,核心包含SyncFusion模块(用于音视频时空融合)和同步感知的可学习查询(用于衔接预训练JAV-DiT生成器)。此设计支持从多模态指令中实现时间连贯的音视频理解与生成。我们设计了高效的三阶段训练流程,包括多模态预训练、音视频微调与大规模指令调优,基于现有视觉-语言模型逐步构建多模态理解与生成能力。
2025_NIPS_Quantum speedup of non-linear Monte Carlo problems
随机变量的均值可理解为概率分布空间上的线性泛函。已知量子计算在均值估计问题中,相比经典蒙特卡洛方法能提供二次加速。本文研究了该二次加速是否可扩展到概率分布的非线性泛函估计中。我们提出一种“量子内嵌量子”算法,为嵌套期望这一类广泛的非线性估计问题实现了该加速。该算法改进了An等人(2021)提出的直接应用量子加速多层蒙特卡洛算法的方案。现有下界表明,我们的算法在多项式对数因子内是最优的。本文方法的核心创新是设计了一系列专门适用于量子计算的多层蒙特卡洛近似,这是算法实现性能提升的关键。
2025_NIPS_Optimal Control for Transformer Architectures: Enhancing Generalization, Robustness and Ef
我们从最优控制理论的角度研究Transformer,利用连续时间表述的工具,为训练和架构设计提供可落地的见解。该框架在提升现有Transformer模型性能的同时,提供了理想的理论保证,包括泛化能力和鲁棒性。我们的框架设计为即插即用模式,能够与成熟的Transformer模型无缝集成,且仅需对实现进行轻微修改。我们在文本生成、情感分析、图像分类和点云分类相关任务上进行了7项广泛实验。实验结果表明,该框架在提升基线模型测试性能的同时,具有更高的参数效率。
2025_NIPS_Nearly-Linear Time and Massively Parallel Algorithms for k-Anonymity
k-匿名性是一种广泛使用的隐私保护概念,确保数据集中的每条记录与至少k-1条其他记录不可区分。本文重新研究了基于抑制策略的k-匿名性问题,提出一种O(k)近似比算法,其近线性时间复杂度为Ondn⋅nk1C2o1Ondn⋅nk1/C2o1(C为任意常数),其中n为记录数,d为属性数。现有具有可证明保证的算法要么(1)达到相同的O(k)近似比,但时间复杂度至少为O(n²k);
2025_NIPS_Diffusion Guided Adversarial State Perturbations in Reinforcement Learning
强化学习(RL)系统虽在多个领域取得显著成功,但易受对抗性攻击。这在基于视觉的环境中尤为值得关注——对高维图像输入的微小操纵即可轻易误导智能体行为。为此,近期已提出多种防御方法,其中最先进的方案即便在大规模状态扰动下也能实现稳健性能。然而,经深入研究发现,现有防御的有效性源于当前lpl_plp范数约束攻击的根本缺陷:即便在较大扰动预算下,这类攻击也难以改变图像输入的语义。本文提出SHIFT,一种基于扩散模型的新型政策无关状态扰动攻击,以突破这一局限。
2025_NIPS_Transformer Copilot: Learning from The Mistake Log in LLM Fine-tuning
大型语言模型通常通过在领域特定数据上进行监督微调,以适配下游任务。标准微调的核心是最小化生成损失来优化模型参数,而本文更进一步——借鉴人类学习者通过反思过往错误提升未来表现的方式,保留并利用模型自身的学习信号。我们首先提出“错误日志(MistakeLog)”概念,用于系统跟踪模型在整个微调过程中的学习行为与反复出现的错误。
2025_NIPS_SharpZO: Hybrid Sharpness-Aware Vision Language Model Prompt Tuning via Forward-Only Passe
微调视觉语言模型(VLMs)在各类下游任务中已取得显著性能;然而,这一过程需要通过反向传播(BP)获取模型梯度,使其不适用于内存受限、仅支持推理的边缘设备。为解决这一局限,现有研究探索了多种无BP微调方法,但这些方法往往依赖高方差的进化策略(ES)或零阶(ZO)优化,难以达到理想性能。本文提出一种混合锐度感知零阶优化(SharpZO)方法,通过锐度感知预热训练专门提升ZO-VLM微调性能。SharpZO采用两阶段优化流程:第一阶段为锐度感知ES阶段,通过全局探索和平滑损失景观构建强初始化;
2025_NIPS_Scalable Policy-Based RL Algorithms for POMDPs
本文聚焦部分可观察马尔可夫决策过程(POMDP)的高效求解,提出通过将POMDP近似为基于有限历史的“超级状态MDP”,结合策略优化与时序差分(TD)学习的方法,在保证理论界的同时提升计算效率与可扩展性。POMDP中信念状态的连续性给学习最优策略带来了显著的计算挑战。本文提出一种方法,通过将对应的POMDP模型近似为有限状态马尔可夫决策过程(称为超级状态MDP),来解决部分可观察强化学习(PORL)问题。
2025_NIPS_StegoZip: Enhancing Linguistic Steganography Payload in Practice with Large Language Mode
生成式隐写术已成为一个活跃的研究领域,但其实际系统受限于隐写文本生成过程中熵值较低导致的固有秘密信息载荷量限制。这种载荷限制使得系统必须使用冗长的隐写文本或进行频繁传输,从而增加了被攻击者察觉的风险。以往研究主要通过优化熵的利用来提升载荷量,却忽视了秘密信息处理环节的关键作用。为填补这一空白,本文提出StegoZip框架,利用大语言模型优化秘密信息处理流程。该框架包含两大核心组件:语义冗余修剪和基于索引的压缩编码。前者通过动态修剪秘密信息提取低语义表示,后者进一步将其压缩为紧凑的二进制代码。
