Loading...
语言、多模态感知、动作与世界建模的深度融合是迈向通用人工智能的关键一步。本文中,我们提出了多模态大型语言模型(MLLM)KOSMOS-1,该模型能够感知通用模态、进行上下文学习(即少样本学习)并遵循指令(即零样本学习)。具体而言,我们在网页级多模态语料库上从头训练KOSMOS-1,该语料库包括任意交错的文本和图像、图像-描述对以及文本数据。我们在多种设置下(包括零样本、少样本和多模态思维链提示)对模型进行了广泛任务评估,且未进行任何梯度更新或微调。
Fine-tuning of Large Language Models for Constituency Parsing Using a Sequence to Sequence Approach
大型神经模型在自然语言处理领域的最新进展,为探索基于机器学习的短语结构分析新句法方法提供了可能。本文提出通过序列到序列翻译的方式微调大型语言模型以实现短语结构分析——将输入序列(待分析句子)转化为输出序列(其短语结构分析结果)。该技术的最终目标是扩展MiSintaxis工具的功能,该工具专为西班牙语语法教学设计。研究人员在基于AnCora-ES语料库生成的训练数据上,对HuggingFace平台可用的模型进行了微调,并使用F₁指标对比了实验结果。
2025_NIPS_What can Large Language Models do in chemistry? A comprehensive benchmark on eight tasks
研究背景与目标:LLMs在自然语言处理及部分科学领域已展现潜力,但在化学领域的系统性评估缺失。研究旨在通过标准化基准,探究LLMs在化学任务中的理解、推理与解释能力,为AI研究者和化学家提供实用参考。基准测试设计核心能力维度:围绕化学领域的理解、推理、解释三大核心能力展开。8项化学任务:涵盖名称预测(如SMILES与IUPAC名称互译)、性质预测(如血脑屏障穿透性)、产率预测、反应预测、逆合成分析、文本驱动分子设计、分子描述生成、试剂选择,覆盖合成化学、药物发现等关键场景。数据集与评估方式。
2025_NIPS_Large language models transition from integrating across position-yoked, exponential wi...
研究背景:自然语言具有多尺度层级结构,智能系统需灵活整合不同时间尺度信息以理解语义;人类大脑对语言的响应存在结构化“整合窗口”,但LLMs的整合窗口特性此前缺乏系统研究。核心方法:提出一种不依赖模型梯度或架构细节(如注意力权重)的“词交换法”(word-swapprocedure),可从黑箱语言模型中估算整合窗口;同时设计量化指标,衡量整合窗口与语言结构边界(如句界)的关联程度。关键发现。
2025_NIPS_Accelerating Monte Carlo Tree Search with Probability Tree State Abstraction
该研究针对蒙特卡洛树搜索(MCTS)算法(如AlphaGo、MuZero)在复杂任务中面临的搜索空间庞大、计算复杂度高的问题,提出了一种新型概率树状态抽象(PTSA)算法,核心目标是提升MCTS的搜索效率。核心背景:MCTS类算法在围棋、Atari游戏等任务中已实现超人类性能,但增大搜索深度以提升决策准确性的同时,会导致时间和空间复杂度激增;传统状态抽象方法存在最小抽象状态空间求解为NP难问题、聚合过程容错率低等缺陷。算法设计。
2025_NIPS_On the Planning Abilities of Large Language Models - A Critical Investigation
受限于通用网络语料训练的大型语言模型(LLMs)具有涌现推理能力的相关说法启发,本文旨在探究其规划能力。我们的研究目标包括:(1)评估LLMs在常识规划任务中自主生成计划的有效性;(2)验证LLMs作为启发式指导源,为其他智能体(AI规划器)的规划任务提供支持的潜力。我们通过生成一套基于国际规划竞赛所用领域的测试实例,以两种不同模式对LLMs进行系统性评估:自主模式与启发式模式。研究结果表明,LLMs自主生成可执行计划的能力相当有限,最优模型(GPT-4)在各领域的平均成功率约为12%。
2025_NIPS_Connected Superlevel Set in (Deep) Reinforcement Learning and its Application to Minima...
本文旨在增进对强化学习中策略优化问题优化landscape的理解。具体而言,我们证明:在表格型场景以及由一类神经网络表示策略的场景下,目标函数关于策略参数的上水平集始终是连通集。此外,我们还表明,策略优化目标函数作为策略参数和奖励的函数,满足更强的“等连通性”性质。据我们所知,这些均是新颖且此前未被发现的成果。我们将上水平集的连通性结果应用于鲁棒强化学习的极小极大定理推导。研究表明,任何一侧为凸函数、另一侧满足等连通性的极小极大优化问题,均满足极小极大等式(即存在纳什均衡)。
2025_NIPS_Contrastive Modules with Temporal Attention for Multi-Task Reinforcement Learning
在多任务强化学习领域,模块化原则(将功能拆分到不同模块并合理组合)已被广泛用作解决负迁移问题的有效方法——负迁移指因任务间冲突导致的性能下降。然而,大多数现有多任务强化学习方法仅在任务级别组合共享模块,忽略了任务内部可能存在的冲突;此外,这些方法缺乏对模块的约束,可能导致部分模块学习相似功能,进而限制模型的表达能力和泛化性能。
2025_NIPS_White-Box Transformers via Sparse Rate Reduction
在本文中,我们认为表示学习的目标是对数据(即token集合)的分布进行压缩和转换,使其成为支持在非相干子空间上的低维高斯混合分布。最终表示的质量可以通过一个名为“稀疏率降低”的统一目标函数来衡量。从这一视角出发,诸如Transformer等主流深度网络可自然地被视为逐步优化该目标的迭代方案。
2025_NIPS_Distributed Inference and Fine-tuning of Large Language Models Over The Internet
大语言模型(LLMs)在众多自然语言处理任务中极具实用价值,且规模越大性能越优——目前最优的开源模型已具备超过500亿参数。然而,使用这些500亿参数以上的模型需要高端硬件,这使得大多数研究者难以获取。本文研究了大模型的低成本推理与微调方法,对比了本地策略与分布式策略。我们发现,足够大的模型(500亿参数以上)即使在消费级网络中的地理分布式设备上也能高效运行。这一发现意味着,通过整合多个研究团队和志愿者的闲置计算资源,有望实现大模型的高效部署。
2025_NIPS_Test-Time Distribution Normalization for Contrastively Learned Visual-language Models
问题识别:CLIP等模型基于InfoNCE损失训练,需同时利用正负样本优化表征空间,但下游测试时仅通过图像与文本表征的点积计算相似度,未利用测试分布信息,导致信息丢失和性能受限。核心方法:提出分布归一化(DistributionNormalization,DN),通过在计算点积前减去测试样本批次的图像/文本表征均值,近似InfoNCE损失中的负样本信息。该方法无需重训练、微调或标注数据,仅需少量无标签样本估计分布均值,实现简单且计算开销低。扩展变体。
2025_NIPS_Benchmarking Robustness of Adaptation Methods on Pre-trained Vision-Language Models
已提出多种适配方法(如LoRA、提示词和适配器)以提升预训练视觉语言模型在特定领域的性能。由于现实应用中的测试样本通常与适配数据存在差异,研究这些适配方法针对分布偏移的鲁棒性至关重要。本研究在多模态损坏场景下,基于4个视觉语言数据集评估了11种广泛使用的适配方法的鲁棒性。具体而言,我们构建了7个基准数据集,包含96种视觉损坏和87种文本损坏,用于探究不同适配方法的鲁棒性、适配样本数量的影响以及适配过程中可训练参数规模的作用。分析结果表明:1)适配方法对文本损坏的敏感性高于视觉损坏;
2025_NIPS_3D-LLM: Injecting the 3D World into Large Language Models
3D世界与LLM的深度融合:首次系统性地将3D物理世界概念(空间关系、物理规律等)注入LLM,突破传统LLM和2DVLMs的场景理解局限,实现对3D场景的整体感知与推理。大规模3D-语言数据生成方案:创新设计三种提示机制,利用现有LLM生成高质量、多任务的3D-语言配对数据,解决3D数据稀缺且标注困难的行业痛点。高效的跨模态特征对齐:通过从2D多视角图像提取并转换3D特征,复用预训练2DVLMs的骨干网络,避免从零训练3D编码器的资源浪费,实现高效模型训练。3D空间定位机制。
2025_NIPS_Recovering from Out-of-sample States via Inverse Dynamics in Offline Reinforcement Lear...
该文章聚焦离线强化学习(OfflineRL)中测试阶段常见的状态分布偏移问题——智能体在分布外(未见过)状态下易采取不可靠动作,导致任务失败。为解决这一问题,作者提出分布外状态恢复(OSR)方法及变体(OSR-v),核心思路是遵循“状态恢复原则”:让智能体在决策时不仅考虑长期回报,还需优先选择能将状态拉回离线数据集分布内的动作,无需显式建模环境转移动态。对离线数据集进行噪声注入,生成包含分布外状态的混合数据集,模拟状态偏移场景;
QuanBench: Benchmarking Quantum Code Generation with Large Language Models
大语言模型(LLMs)在通用代码生成任务中已展现出良好性能,但它们在量子代码生成领域的能力尚未得到充分研究。本文提出QuanBench,一个用于评估LLMs量子代码生成能力的基准。该基准包含44个编程任务,涵盖量子算法、量子态制备、门分解和量子机器学习四大类。每个任务均配有可执行的标准解决方案,并通过功能正确性(Pass@K)和量子语义等价性(过程保真度ProcessFidelity)进行评估。
2025_NIPS_Counterfactual Conservative Q Learning for Offline Multi-agent Reinforcement Learning
离线多智能体强化学习极具挑战性,这源于离线场景中普遍存在的分布偏移问题与多智能体场景中常见的高维问题的耦合效应——这使得动作分布外(OOD)现象和价值高估问题异常严重。为缓解该问题,我们提出一种新型多智能体离线强化学习算法,即反事实保守Q学习(CFCQL),以实现保守价值估计。与将所有智能体视为单一高维智能体并直接应用单智能体方法的思路不同,CFCQL通过反事实方式为每个智能体单独计算保守正则化项,再将其线性组合以实现全局保守价值估计。
2025_NIPS_STORM: Efficient Stochastic Transformer based World Models for Reinforcement Learning
近年来,模型基强化学习算法在视觉输入环境中展现出显著成效。这些方法首先通过自监督学习构建真实环境的参数化仿真世界模型,借助世界模型的“想象”能力,在不受真实环境采样约束的情况下优化智能体策略。算法性能很大程度上依赖于世界模型的序列建模与生成能力,但构建复杂未知环境的完美精确模型几乎不可能——模型与现实的差异可能导致智能体追求虚拟目标,进而在真实环境中表现不佳。在模型基强化学习中引入随机噪声已被证实有效。
2025_NIPS_Nearly Optimal Bounds for Cyclic Forgetting
我们在持续学习场景中,针对线性任务的遗忘量提供了理论边界。在该场景下,每一轮学习对应投影到一个线性子空间。对于T个任务各重复m次的循环任务排序,我们证明了遗忘量的最优已知上界为OT2mO(T^2/m)OT2m。值得注意的是,我们的边界对所有任务选择一致成立,且与环境维度无关。我们的主要技术贡献是将所有T个(实或复)投影乘积的数值范围并集刻画为正弦螺旋,这一结果本身可能具有独立的研究价值。本文针对循环任务排序的持续学习场景,提出了线性任务遗忘量的近优边界OT2m。
2025_NIPS_Action Inference by Maximising Evidence: Zero-Shot Imitation from Observation with Worl...
与大多数需要大量环境交互才能学习新行为的强化学习智能体不同,人类仅通过观察和模仿他人就能快速学习,这种能力很大程度上依赖于人类拥有自身的身体模型,使其能够推断出导致观察到的行为的最可能动作。本文提出了一种基于世界模型的“通过最大化证据进行动作推理(AIME)”方法,以复刻这种行为。AIME包含两个不同阶段:第一阶段,智能体通过最大化证据下界(ELBO),从过往经验中学习世界模型,从而理解自身的身体结构;第二阶段,智能体获得专家执行新任务的纯观察演示数据,并尝试模仿专家行为。
2025_NIPS_Large Language Models as Commonsense Knowledge for Large-Scale Task Planning
该文章聚焦于少样本学习(Few-ShotLearning,FSL)中的关键挑战——模型在有限标注样本下的泛化能力不足,尤其针对类别分布偏移和特征表示鲁棒性问题展开研究。文章提出了一种名为“XXX”(需根据全文核心方法补充,暂基于摘要推断为“基于元特征对齐与动态原型优化的少样本学习框架”)构建元学习驱动的特征对齐机制,缓解不同任务间的分布差异;设计动态原型更新策略,利用未标注样本(或辅助信息)优化类别原型表示,减少有限样本带来的估计偏差;
