Loading...

2025_NIPS_Self-alignment of Large Video Language Models with Refined Regularized Preference Optimiz
该研究针对大型视频语言模型(LVLMs)在细粒度时间理解、幻觉生成、长短视频理解等任务中的不足,提出了一套自对齐框架与优化方法。核心思路是让LVLMs从自身错误中学习:通过对视频进行时空扰动生成错误响应,构建“偏好-非偏好”响应对训练集,再利用改进的偏好优化方法RRPO(RefinedRegularizedPreferenceOptimization)实现模型对齐。

2025_NIPS_KGGen: Extracting Knowledge Graphs from Plain Text with Language Models
近年来,构建知识图谱基础模型的相关研究凸显了一个核心挑战:知识图谱数据稀缺。目前知名的知识图谱主要依赖人工标注、模式匹配或早期自然语言处理技术提取生成。尽管人工构建的知识图谱供应短缺,但自动提取的知识图谱质量又备受质疑。本文提出KGGen,一种新型文本到知识图谱生成工具,该工具利用语言模型从纯文本中提取高质量图谱,并采用创新的实体消歧方法对相关实体进行聚类,显著缓解了困扰现有提取工具的稀疏性问题。与其他知识图谱生成工具不同,KGGen通过对相关实体进行聚类和去重,减少了提取图谱中的稀疏性。

2025_NIPS_Physics-informed Value Learner for Offline Goal-Conditioned Reinforcement Learning
离线目标条件强化学习(OfflineGCRL)在自主导航和运动控制等领域具有巨大应用前景——这些领域中,收集交互数据往往成本高昂且存在安全风险。然而,由于需要从状态-动作空间覆盖有限的数据集中学习,且需泛化到长时任务,该方法在实际应用中仍面临挑战。为解决这些问题,本文提出一种基于物理信息(Pi)的正则化损失函数用于价值学习。该损失函数源于Eikonal偏微分方程(PDE),能为学到的价值函数注入几何归纳偏置。

2025_NIPS_Continuous Diffusion Model for Language Modeling
扩散模型已成为自回归模型在离散分类数据建模中的有力替代方案。然而,直接在离散数据空间运行的扩散模型无法充分发挥迭代优化的优势,因为离散状态间的转移会导致信号丢失。现有针对离散数据的连续扩散模型性能不及离散方法,且两种方法间缺乏明确关联,阻碍了离散数据扩散模型的发展。本文提出一种用于语言建模的连续扩散模型,该模型融入了底层分类分布的几何特性。我们建立了离散扩散与统计流形上连续流的关联,并基于这一对应关系,提出一种可泛化现有离散扩散模型的简单扩散过程。

2025_NIPS_Improved Representation Steering for Language Models
语言模型(LM)的引导方法旨在通过改变模型输入、权重或表征来调整行为,从而对模型生成结果进行细粒度且可解释的控制。近期研究表明,在引入或抑制特定概念等场景下,调整权重或表征的效果往往不如提示工程。本文提出无参考偏好引导(RePS)方法,通过双向偏好优化目标同时实现概念引导与抑制,以此改进表征引导技术。我们训练了三种RePS参数化模型,并在大规模模型引导基准AXBENCH上进行评估。

2025_NIPS_FGBench: A Dataset and Benchmark for Molecular Property Reasoning at Functional Group-Leve
该研究聚焦于大型语言模型(LLMs)在化学领域的分子性质推理能力,针对现有数据集多关注分子层面预测、忽略官能团(FG)细粒度信息的缺陷,提出了FGBench数据集研究背景:官能团是分子中决定物理化学性质的关键原子组,现有分子性质数据库缺乏官能团与分子性质的明确关联,导致LLMs难以进行细粒度结构-性质关系推理,限制了其在分子设计、药物发现等场景的应用。数据集构建。

2025_NIPS_Multi-Agent Debate for LLM Judges with Adaptive Stability Detection
随着大型语言模型(LLMs)推理能力的不断提升,它们越来越多地被用于复杂的评估任务,例如给学生的回答评分、验证事实性声明以及比较竞争性答案。利用多个LLM作为自动评估器,通过聚合多样化视角可以提高评估的稳健性和准确性,但现有方法通常依赖静态且简单的聚合方式(如多数投票),即便个体评估正确,也可能产生错误的最终判断。本文提出一种新颖的多智能体辩论框架,让LLMs协作推理并迭代优化判断结果,对该过程进行了数学形式化描述,并证明其相较于静态集成的优势。

2025_NIPS_Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable
强化学习(RL)是大型语言模型(LLM)后训练的关键组成部分。然而,用于后训练的在策略算法天然难以应对经验回放缓冲区中的多样化内容——而异步离策略智能体可以在训练的同时高效并行填充这些缓冲区。本文提出通过异步轨迹平衡(TBA)高效利用此类离策略数据,这是一种针对LLM的异步强化学习方法,其核心是利用原则性的离策略TB目标函数。

2025_NIPS_SAFEX: Analyzing Vulnerabilities of MoE-Based LLMs via Stable Safety-critical Expert Ident
该研究聚焦基于混合专家(MoE)架构的大型语言模型(LLMs)的安全对齐问题,核心围绕MoE特有的“位置脆弱性”展开——即模型的安全对齐行为高度依赖特定专家模块。为此,研究者提出了名为SAFEX的分析框架,通过三步流程(专家统计、专家识别、专家验证)系统识别、表征和验证安全关键专家,并将其划分为两个功能组:有害内容检测组(HCDG)和有害响应控制组(HRCG)。

2025_NIPS_An Efficient Orlicz-Sobolev Approach for Transporting Unbalanced Measures on a Graph
本文聚焦图度量空间上非平衡测度的最优传输(OT)问题,针对传统Orlicz-Wasserstein(OW)和广义Sobolev传输(GST)仅适用于等质量测度、计算复杂或难以扩展的局限,提出两种新方法:Orlicz-EPT和Orlicz-Sobolev传输(OST)。Orlicz-EPT通过重构熵偏传输(EPT)为标准OT并校准代价函数,适配非平衡测度;OST则借助对偶EPT和图结构设计正则化方案,仅需单变量优化即可高效计算。

2025_NIPS_SCPILOT: Large Language Model Reasoning Toward Automated Single-Cell Analysis and Discover
我们提出SCPILOT,这是首个践行组学原生推理的系统性框架:大语言模型(LLM)以自然语言交互,同时直接检视单细胞RNA测序数据并按需调用生物信息学工具。SCPILOT将核心单细胞分析任务(即细胞类型注释、发育轨迹重建和转录因子靶向预测)转化为模型必须解决、论证并在需要时根据新证据修正的逐步推理问题。为衡量进展,我们发布SCBENCH基准套件,包含9个专家精选数据集和评估器,用于全面评估SCPILOT在不同LLM上的组学原生推理能力。

2025_NIPS_Vocabulary In-Context Learning in Transformers: Benefits of Positional Encoding
该研究聚焦Transformer在词汇上下文学习(VICL)中的通用逼近性质(UAP),核心围绕位置编码的作用展开:1)无位置编码时,单层Transformer无法实现VICL的UAP;2)加入位置编码后,单层Transformer可达成UAP,并给出位置编码需满足的充分条件;3)针对ReLU、softmax等激活函数,进一步放宽了位置编码的约束条件。研究通过建立Transformer与前馈神经网络(FNN)的关联,从逼近理论角度揭示了位置编码在上下文学习(ICL)中的关键价值。

2025_NIPS_Mixture-of-Experts Meets In-Context Reinforcement Learning
该研究针对上下文强化学习(ICRL)面临的状态-动作-奖励数据多模态性和任务多样性/异质性两大核心挑战,提出了融合混合专家(MoE)架构的创新框架T2MIR(Token-andTask-wiseMoEforIn-contextRL)。T2MIR通过替换Transformer的前馈层为两个并行MoE层(令牌级MoE和任务级MoE),分别处理多模态语义差异和任务梯度冲突,并结合对比学习增强任务路由精度。

2025_NIPS_Unlabeled Data Improves Fine-Grained Image Zero-shot Classification with Multimodal LLMs
尽管多模态大型语言模型(MLLMs)在通用零样本图像分类任务中展现出良好效果,但细粒度图像分类仍然具有挑战性。该任务要求精准关注细微的视觉细节以区分视觉相似的子类——而如果没有明确引导,MLLMs很容易忽略这些细节。为解决这一问题,我们提出了AutoSEP,这是一种迭代式自监督提示学习框架,旨在以完全无监督的方式增强MLLMs的细粒度分类能力。我们的核心思想是利用无标签数据学习描述提示词,引导MLLMs识别图像中关键的判别特征,从而提升分类准确率。

2025_NIPS_ConfTuner: Training Large Language Models to Express Their Confidence Verbally
大语言模型(LLMs)正日益部署于科学、法律和医疗等高风险领域,在这些领域中,准确表达不确定性对于可靠性和可信度至关重要。然而,现有LLMs常被观察到会以高置信度生成错误答案——这一现象被称为“过度自信”。近期研究致力于校准LLMs的语言化置信度:即模型以文本形式表达的置信度(如“我有80%的把握认为……”)。现有方法要么依赖提示工程,要么使用启发式生成的不确定性估计进行微调,两者的有效性和泛化性均有限。

2025_NIPS_Alignment of Large Language Models with Constrained Learning
我们研究了约束对齐问题中最优大语言模型(LLM)策略的求解,目标是在满足次要效用约束的同时最大化主奖励目标。尽管基于拉格朗日的LLM策略搜索在约束对齐中被广泛应用,但迭代原始-对偶方法往往难以收敛,而非迭代对偶方法在LLM参数空间中无法达到最优。为解决这些挑战,我们利用拉格朗日对偶性开发了一种迭代对偶基对齐方法,通过交替进行拉格朗日最大化(更新LLM策略)和对偶下降(更新对偶变量)实现优化。

2025_NIPS_ChemOrch: Empowering LLMs with Chemical Intelligence via Synthetic Instructions
本文提出ChemOrch框架,通过“任务控制的指令生成”和“工具感知的响应构建”两阶段流程,解决LLM在化学领域面临的高质量数据稀缺、通用合成框架与化学领域需求不匹配等问题,生成多样化、难度可控且化学有效的指令-响应对,可用于评估LLM化学弱点和提升其化学推理、工具使用能力。赋能大型语言模型(LLMs)具备化学智能仍是一项挑战,这主要源于高质量、领域特定的指令-响应数据集稀缺,且现有合成数据生成流水线与化学信息固有的层级化、规则约束结构不匹配。

2025_NIPS_Distilling LLM Prior to Flow Model for Generalizable Agent’s Imagination in Object Goal Na
目标物体导航(ObjectNav)任务要求智能体在未知环境中通过想象场景的未观测区域来定位指定物体。现有方法依赖确定性和判别式模型完成语义地图补全,忽略了室内布局固有的不确定性,限制了其对未知环境的泛化能力。本文提出GOAL,一种基于生成式流模型的框架,通过将观测区域与LLM增强的全场景语义地图关联,建模室内环境的语义分布。训练过程中,从大型语言模型(LLMs)中推断出的空间先验被编码为二维高斯场并注入目标地图,将丰富的上下文知识蒸馏到流模型中,实现更具泛化性的补全效果。

2025_NIPS_Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Le
思维链推理已显著提升了大型语言模型(LLMs)在多个领域的性能。然而,这一推理过程仅局限于文本空间,限制了其在视觉密集型任务中的有效性。为解决这一局限,我们提出了像素空间推理(pixel-spacereasoning)的概念。在这一新型框架中,视觉语言模型(VLMs)配备了一套视觉推理操作,例如缩放(zoom-in)和帧选择(select-frame)。这些操作使VLMs能够直接检查、探究和从视觉证据中推理,从而提升视觉任务的推理准确性。

2025_NIPS_A Principle of Targeted Intervention for Multi-Agent Reinforcement Learning
引导协作式多智能体强化学习(MARL)朝向期望结果发展具有挑战性,尤其是在大规模MARL中对整个多智能体系统进行人工全局引导不切实际的场景下。另一方面,设计外部机制(如内在奖励和人类反馈)来协调智能体大多依赖实证研究,缺乏易用的研究工具。在本研究中,我们采用多智能体影响图(MAIDs)作为图形化框架来解决上述问题。首先,我们引入MARL交互范式的概念(与MARL学习范式正交),利用MAIDs分析并可视化MARL中的无引导自组织和全局引导机制。

欢迎留下您的脚印