Loading...
结构化命令行(标准化输入输出)、可版本化复用AI技能库、行业垂类微调模型(法律判例、医疗病历、金融财报等),并以主流SaaS产品作为落地实例。一句话提示词即可生成精美产品原型、演示幻灯片、营销视觉物料,支持内嵌批注、自定义调节控件,可一键导出至Canva。合作企业:美国银行、Cloudflare、猎鹰安全、摩根大通、英伟达、甲骨文、帕洛阿尔托网络、Zscaler等。官方建议:多数业务优先选用「调度者+子智能体」模式;集成目标管理、多智能体协作、第三方应用互联、文件管理、人工审核强制开关,
2025_NIPS_On the Importance of Exploration for Generalization in Reinforcement Learning
现有深度强化学习(RL)中提升泛化能力的方法大多聚焦于表征学习,却忽视了探索等强化学习特有的方面。我们假设智能体的探索策略对其泛化到新环境的能力起着关键作用。通过在表格型上下文马尔可夫决策过程(CMDP)中的一系列实验,我们发现探索不仅有助于高效找到训练环境的最优策略,还能获取有助于在未知环境中决策的知识。基于这些观察,我们提出了EDE(通过分布集成进行探索)方法:该方法通过Q值分布集成,鼓励智能体探索认知不确定性高的状态。所提出的算法是首个在Procgen和Crafter这两个高维观测强化学习泛化基准上均
2025_NIPS_Improved Best-of-Both-Worlds Guarantees for Multi-Armed Bandits: FTRL with General Regu...
我们研究设计自适应多臂老虎机算法的问题,该算法需同时在随机环境和对抗环境下表现最优(通常称为“双优保障”)。近期一系列研究表明,若配置和分析得当,原本为对抗环境设计的FTRL(Follow-the-Regularized-Leader)算法,实际上也能自适应地在随机环境下达到最优。然而,这类结果严重依赖一个假设:存在唯一的最优臂。最近,Ito[2021]迈出了第一步,针对采用1/2-Tsallis熵正则化器的特定FTRL算法,移除了这一不理想的唯一性假设。
2025_NIPS_Enhancing Temporal Understanding in Video-LLMs through Stacked Temporal Attention in Vi...
该研究聚焦于视频-大型语言模型(Video-LLMs)在时间动态理解上的核心缺陷,提出了名为STAVEQ2的新型架构,核心是在视觉编码器中嵌入堆叠时间注意力(StackedTemporalAttention,STA)模块,以增强模型对视频帧间动作序列和时间演进关系的捕捉能力。尽管多模态大型语言模型(MLLMs)取得了显著进展,但理解视频中的复杂时间动态仍是一项重大挑战。
2025_NIPS_Self-Verifying Reflection Helps Transformers with CoT Reasoning
先进的大型语言模型(LLMs)在思维链(CoT)推理中常进行反思,自我验证当前解决方案的正确性并探索替代方案。然而,近期研究发现LLMs在CoT中检测错误的能力有限,反思为何能带来实证性能提升仍不明确。为解决这一问题,本文提出极简推理框架,支持小型Transformer在无自然语言的情况下实现基础自验证反思,确保分析清晰度并降低大规模实验成本。理论上,我们证明:若验证误差得到适当约束,自验证反思能保证推理性能提升。
LLM Weekly(2026.4.20.23-2026.4.26)
专为智能体工作流设计的标准化语言,支持分支、循环、并行执行、状态管理、模块化开发;配套可视化编辑器,流程图与工作流实时同步。实测可读性、可维护性全面优于现有智能体开发框架。
2025_NIPS_Self-Supervised Reinforcement Learning that Transfers using Random Features
无模型强化学习算法在解决具有高维观测和长时域的单任务序列决策问题方面展现出巨大潜力,但已知其难以在不同任务间泛化。另一方面,模型基强化学习能够学习与任务无关的世界模型,自然支持跨不同奖励函数的迁移,但由于累积误差,难以扩展到复杂环境。为了兼顾两者的优势,我们提出一种自监督强化学习方法,该方法能够实现跨不同奖励函数任务的行为迁移,同时规避模型基强化学习的挑战。具体而言,我们发现:通过大量随机特征作为奖励,对无模型强化学习进行自监督预训练,能够隐式建模长时域环境动力学。
2025_NIPS_Data Selection for Language Models via Importance Resampling
选择合适的预训练数据集对于通用领域(如GPT-3)和领域特定(如Codex)语言模型(LM)都至关重要。本文将该问题形式化为:给定无标签目标样本,从大规模原始无标签数据中筛选子集以匹配期望的目标分布。由于原始文本数据的规模和维度,现有方法多采用简单启发式或依赖人工专家手动筛选数据。对此,我们扩展了经典的低维重要性重采样方法,用于语言模型的数据选择。
2025_NIPS_Transformer Key-Value Memories Are Nearly as Interpretable as Sparse Autoencoders
近年来,大型语言模型(LLMs)的可解释性研究越来越多地依赖代理模块进行特征发现,例如通过稀疏自编码器(SAEs)学习特征并评估其质量。这一范式自然引出一个关键问题:此类学习到的特征是否比原始模型参数中已有的特征更具优势?遗憾的是,迄今为止仅有少数研究对此进行了系统性对比。本文从“前馈层(FF)可视为键值记忆”的视角出发,借助现代可解释性基准,重新审视FF层中存储的特征向量的可解释性。大量评估结果表明,SAEs与FF层的可解释性处于相近范围,尽管SAEs在部分方面表现出可观测但微小的提升。
2025_NIPS_Dynamics-Aligned Latent Imagination in Contextual World Models for Zero-Shot Generaliza...
现实世界中的强化学习要求智能体在无需昂贵重新训练的情况下适应未知环境条件。上下文马尔可夫决策过程(cMDP)为这一挑战提供了建模框架,但现有方法通常需要显式的上下文变量(如摩擦力、重力),这限制了其在上下文隐藏或难以测量场景中的应用。本文提出动态对齐潜在想象(DALI)框架,该框架集成于Dreamer架构,能够从智能体与环境的交互中推断潜在上下文表示。通过训练自监督编码器预测前向动力学,DALI生成可指导决策的表示,为世界模型和策略提供条件,搭建起感知与控制之间的桥梁。
2025_NIPS_L-MTP: Leap Multi-Token Prediction Beyond Adjacent Context for Large Language Models
大语言模型(LLMs)已取得显著进展。尽管成果斐然,但作为LLM训练和推理的主流方法,下一个token预测(NTP)由于其固有的序列性流程,在上下文覆盖范围和推理效率方面均受到限制。为克服这些挑战,我们提出跳跃式多token预测(L-MTP)——一种创新性的token预测方法,通过引入跳跃机制扩展了多token预测(MTP)的能力。与传统MTP生成相邻位置的多个token不同,L-MTP策略性地跳过中间token,在单次前向传播中预测非连续token。
2025_NIPS_Meta-in-context learning in large language models
该研究提出“元上下文学习(meta-in-contextlearning)”这一概念,核心是验证大型语言模型(LLMs)的上下文学习能力可通过上下文学习本身递归提升,无需参数微调。研究背景:上下文学习(少样本提示)是LLMs核心优势之一,使其无需任务特定微调就能通过少量演示提升任务表现,但此前未探索该能力能否进一步自我优化。实验设计模型:主要采用GPT-3(TEXT-DAVINCI-002),额外测试了多个开源模型(如Falcon-40b、Llama-2、mpt-30b等)。
2025_NIPS_Cognitive Predictive Processing: A Human-inspired Framework for Adaptive Exploration in...
开放世界强化学习要求智能体在广阔的探索空间中发展智能行为。近期如LS-Imagine等方法通过跳跃式状态转换扩展了想象视野,推动了该领域的发展,但仍受限于固定探索机制和静态跳跃阈值——这些机制无法在变化的任务阶段中自适应调整,导致探索效率低下且完成率较低。人类通过任务分解、选择性记忆利用和自适应不确定性调节的链式过程,在开放世界决策中展现出卓越能力。相位自适应认知控制器:将任务动态分解为探索、接近和完成阶段,并配备自适应参数;双记忆整合系统:实现双模态记忆,平衡即时上下文与选择性长期存储;
2025_NIPS_Restricted Global-Aware Graph Filters Bridging GNNs and Transformer for Node Classifica...
Transformer一直被视为突破图神经网络(GNN)性能瓶颈的潜在方向,这主要得益于其全局感受野。然而,近期一项实证研究表明,经过调优的经典GNN在标准节点分类基准测试中,性能可与甚至超越最先进的图Transformer(GT)。受此启发,我们解构了多个代表性GT模型,以探究全局注意力组件对节点表示的影响。研究发现,全局注意力模块并未带来显著的性能提升,甚至可能加剧测试误差震荡。因此,我们认为Transformer难以学习到能有效补充原始图拓扑结构的连接模式。
2025_NIPS_Confidence Regulation Neurons in Language Models
尽管大型语言模型(LLMs)应用广泛,但它们表征和调节下一个令牌预测不确定性的机制仍未被充分探索。本研究调查了两个被认为会影响这种不确定性的关键组件:最近发现的熵神经元和一组我们称之为令牌频率神经元的新组件。熵神经元的特征是异常高的权重范数,并影响最终层归一化(LayerNorm)的缩放比例,从而有效降低logit值。我们的研究表明,熵神经元通过写入非嵌入零空间发挥作用,使其能够在对logit本身产生最小直接影响的情况下,影响残差流范数。我们在一系列模型中观察到熵神经元的存在,参数规模最高达70亿。
2025_NIPS_Bayesian Ego-graph Inference for Networked Multi-Agent Reinforcement Learning
在网络化多智能体强化学习(Networked-MARL)中,去中心化智能体必须在局部可观测性和固定物理图上的通信约束下自主行动。现有方法通常假设静态邻域,限制了对动态或异构环境的适应性。虽然集中式框架能够学习动态图,但其对全局状态访问和集中式基础设施的依赖在真实世界的去中心化系统中并不实用。本文提出了一种适用于网络化多智能体强化学习的随机图基策略,其中每个智能体的决策依赖于其局部物理邻域上的采样子图。
2025_NIPS_Understanding the Expressive Power and Mechanisms of Transformer for Sequence Modeling
该研究围绕Transformer在长序列、稀疏且复杂记忆的序列建模中的表达能力与机制展开系统分析,通过建立明确的逼近速率,揭示了Transformer各组件(自注意力、位置编码、前馈网络)及关键超参数的作用,为架构优化提供了理论支撑与实验验证。我们对Transformer在长序列、稀疏且复杂记忆的序列建模中的逼近特性进行了系统研究。我们探究了Transformer不同组件(如点积自注意力、位置编码和前馈网络)影响其表达能力的机制,并通过建立明确的逼近速率,分析了这些组件的组合效应。
2025_NIPS_Eyes Wide Open: Ego Proactive Video-LLM for Streaming Video
设想一种能在类人场景中运行的人工智能,它超越单纯的观察,能够主动理解、预测并对正在发生的事件做出前瞻性响应。为实现这一愿景,我们聚焦于一项创新性任务:给定自我中心流式视频输入,助手需在恰当的时机主动回答各类动态变化的问题,同时保持感知与推理的同步性。该任务具备三大核心属性:(1)主动连贯性、(2)即时响应性、(3)同步高效性。为评估和实现这些属性,我们首先提出ESTP-Bench(自我中心流式主动基准)及ESTP-F1指标——一套用于严格评估的新型框架。
2025_NIPS_VideoRFT: Incentivizing Video Reasoning Capability in MLLMs via Reinforced Fine-Tuning
VIDEORFT:通过强化微调激发多模态大语言模型的视频推理能力强化微调(RFT)在实现大语言模型(LLMs)的类人推理能力方面展现出巨大潜力,且近期已扩展至多模态大语言模型(MLLMs)。然而,视频推理作为人类智能的核心组成部分,由于视频数据固有的复杂逻辑、时间和因果结构,仍是一项持续存在的挑战。为填补这一空白,我们提出VIDEORFT——一种新颖的方法,将RFT范式扩展至MLLMs,以培养其类人视频推理能力。
2025_NIPS_Table2LaTeX-RL: High-Fidelity LaTeX Code Generation from Table Images via Reinforced Mu...
本文旨在解决表格图像到LaTeX代码生成的任务,目标是从视觉输入中自动重建高质量、可直接用于学术出版的表格。该任务的核心挑战在于准确处理复杂表格——即那些尺寸大、结构深度嵌套、单元格内容语义丰富或不规则的表格,而现有方法在这类表格上往往表现不佳。我们首先进行了全面分析,明确了关键挑战并指出了现有评估协议的局限性。为克服这些问题,我们提出了一种强化多模态大语言模型(MLLM)框架:在大规模表格-LaTeX数据集上对预训练MLLM进行微调。
