Loading...
大型语言模型(LLMs)正日益被应用于各类含隐式图形结构的任务,例如机器人规划、多跳问答或知识探查、结构化常识推理等。尽管LLMs在这些含结构暗示的任务上取得了最先进的成果,但它们能否明确处理图和结构的文本描述、将其映射到接地概念空间并执行结构化操作,仍有待深入探索。为此,我们提出了NLGraph(自然语言图)——一个基于图的问题求解综合基准,完全以自然语言设计。NLGraph包含29,370个问题,覆盖8类图推理任务,复杂度各异:从连通性、最短路径等简单任务,到最大流、图神经网络模拟等复杂问题。
2025_NIPS_Efficient Exploration in Continuous-time Model-based Reinforcement Learning
该研究聚焦连续时间模型的强化学习,提出乐观连续时间模型基强化学习算法(OCORL)。核心是用非线性常微分方程(ODEs)建模连续时间动态,结合高斯过程(GP)捕捉认知不确定性,通过乐观原则实现高效探索。文章分析了测量选择策略(MSS)对遗憾界的影响,提出自适应MSS并验证其优越性,同时通过实验证明OCORL在机器人、医疗等多个任务中,相较于离散时间模型和传统MSS,能以更少样本实现亚线性遗憾。强化学习算法通常考虑离散时间动态,尽管底层系统往往是连续时间的。
2025_NIPS_Evaluating Cognitive Maps and Planning in Large Language Models with CogEval
近年来,大量研究声称大型语言模型(LLMs)具备涌现的认知能力。然而,这些研究大多依赖轶事证据,忽视了训练集污染问题,或缺乏包含多任务、控制条件、多轮迭代和统计稳健性检验的系统性评估。本文作出两项主要贡献:首先,我们提出CogEval协议——一种受认知科学启发的LLMs认知能力系统性评估方案,该协议可用于评估多种认知能力;
2025_NIPS_Efficient Adaptation of Large Vision Transformer via Adapter Re-Composing
高容量预训练模型的出现彻底改变了计算机视觉领域的问题解决方式,将研究重心从训练任务特定模型转向适配预训练模型。因此,以高效方式将大型预训练模型适配到下游任务已成为一个重要的研究方向。现有解决方案主要集中在设计轻量化适配器及其与预训练模型的交互方式,旨在最小化需要更新的参数数量。在本研究中,我们提出了一种新颖的适配器重组(ARC)策略,从全新视角解决预训练模型的高效适配问题。该方法充分考虑适配参数的可复用性,并引入参数共享方案。具体而言,我们利用对称下投影/上投影构建瓶颈操作,这些操作在不同层之间共享;
2025_NIPS_Fine-Tuning Language Models with Just Forward Passes
微调语言模型(LM)已在各类下游任务中取得成功,但随着模型规模扩大,反向传播所需的内存量变得难以承受。零阶(ZO)方法原则上仅需两次前向传播即可估计梯度,但理论上优化大型模型时速度会极慢。本文提出一种内存高效的零阶优化器(MeZO),对经典ZO-SGD方法进行适配以实现原地运算,从而在与推理相同的内存占用下微调语言模型。例如,使用单块A10080GBGPU时,MeZO可训练300亿参数模型,而反向传播微调在相同硬件条件下仅能训练27亿参数模型。
2025_NIPS_UDC-SIT: A Real-World Dataset for Under-Display Cameras
本文针对屏下摄像头(UDC)成像存在的低透射率、模糊、噪声、光晕等退化问题,提出了首个真实世界UDC数据集UDC-SIT。现有UDC数据集多为合成数据,无法准确反映真实退化特性,且缺乏对齐和完整标注。为此,作者设计了专用图像采集系统,通过在非UDC手机镜头上加装UDC显示屏模块(可开合),获取同一场景的无退化基准图与UDC退化图;并提出基于离散傅里叶变换(DFT)的图像对齐技术,结合空间域和频域损失函数解决采集过程中的几何错位问题。
2025_NIPS_LegalBench: A Collaboratively Built Benchmark for Measuring Legal Reasoning in Large La...
大型语言模型(LLMs)的出现及其在法律界的应用引发了一个关键问题:LLMs能够执行哪些类型的法律推理?为推动这一问题的深入研究,我们提出LEGALBENCH——一个协作构建的法律推理基准,包含162个任务,覆盖六种不同类型的法律推理。LEGALBENCH通过跨学科流程构建,收集了由法律专业人士设计和手工打造的任务。由于这些领域专家主导了构建过程,任务要么测量具有实际应用价值的法律推理能力,要么测量律师认为有研究意义的推理技能。
2025_NIPS_Language Is Not All You Need: Aligning Perception with Language Models
语言、多模态感知、动作与世界建模的深度融合是迈向通用人工智能的关键一步。本文中,我们提出了多模态大型语言模型(MLLM)KOSMOS-1,该模型能够感知通用模态、进行上下文学习(即少样本学习)并遵循指令(即零样本学习)。具体而言,我们在网页级多模态语料库上从头训练KOSMOS-1,该语料库包括任意交错的文本和图像、图像-描述对以及文本数据。我们在多种设置下(包括零样本、少样本和多模态思维链提示)对模型进行了广泛任务评估,且未进行任何梯度更新或微调。
Fine-tuning of Large Language Models for Constituency Parsing Using a Sequence to Sequence Approach
大型神经模型在自然语言处理领域的最新进展,为探索基于机器学习的短语结构分析新句法方法提供了可能。本文提出通过序列到序列翻译的方式微调大型语言模型以实现短语结构分析——将输入序列(待分析句子)转化为输出序列(其短语结构分析结果)。该技术的最终目标是扩展MiSintaxis工具的功能,该工具专为西班牙语语法教学设计。研究人员在基于AnCora-ES语料库生成的训练数据上,对HuggingFace平台可用的模型进行了微调,并使用F₁指标对比了实验结果。
2025_NIPS_What can Large Language Models do in chemistry? A comprehensive benchmark on eight tasks
研究背景与目标:LLMs在自然语言处理及部分科学领域已展现潜力,但在化学领域的系统性评估缺失。研究旨在通过标准化基准,探究LLMs在化学任务中的理解、推理与解释能力,为AI研究者和化学家提供实用参考。基准测试设计核心能力维度:围绕化学领域的理解、推理、解释三大核心能力展开。8项化学任务:涵盖名称预测(如SMILES与IUPAC名称互译)、性质预测(如血脑屏障穿透性)、产率预测、反应预测、逆合成分析、文本驱动分子设计、分子描述生成、试剂选择,覆盖合成化学、药物发现等关键场景。数据集与评估方式。
2025_NIPS_Large language models transition from integrating across position-yoked, exponential wi...
研究背景:自然语言具有多尺度层级结构,智能系统需灵活整合不同时间尺度信息以理解语义;人类大脑对语言的响应存在结构化“整合窗口”,但LLMs的整合窗口特性此前缺乏系统研究。核心方法:提出一种不依赖模型梯度或架构细节(如注意力权重)的“词交换法”(word-swapprocedure),可从黑箱语言模型中估算整合窗口;同时设计量化指标,衡量整合窗口与语言结构边界(如句界)的关联程度。关键发现。
2025_NIPS_Accelerating Monte Carlo Tree Search with Probability Tree State Abstraction
该研究针对蒙特卡洛树搜索(MCTS)算法(如AlphaGo、MuZero)在复杂任务中面临的搜索空间庞大、计算复杂度高的问题,提出了一种新型概率树状态抽象(PTSA)算法,核心目标是提升MCTS的搜索效率。核心背景:MCTS类算法在围棋、Atari游戏等任务中已实现超人类性能,但增大搜索深度以提升决策准确性的同时,会导致时间和空间复杂度激增;传统状态抽象方法存在最小抽象状态空间求解为NP难问题、聚合过程容错率低等缺陷。算法设计。
2025_NIPS_On the Planning Abilities of Large Language Models - A Critical Investigation
受限于通用网络语料训练的大型语言模型(LLMs)具有涌现推理能力的相关说法启发,本文旨在探究其规划能力。我们的研究目标包括:(1)评估LLMs在常识规划任务中自主生成计划的有效性;(2)验证LLMs作为启发式指导源,为其他智能体(AI规划器)的规划任务提供支持的潜力。我们通过生成一套基于国际规划竞赛所用领域的测试实例,以两种不同模式对LLMs进行系统性评估:自主模式与启发式模式。研究结果表明,LLMs自主生成可执行计划的能力相当有限,最优模型(GPT-4)在各领域的平均成功率约为12%。
2025_NIPS_Connected Superlevel Set in (Deep) Reinforcement Learning and its Application to Minima...
本文旨在增进对强化学习中策略优化问题优化landscape的理解。具体而言,我们证明:在表格型场景以及由一类神经网络表示策略的场景下,目标函数关于策略参数的上水平集始终是连通集。此外,我们还表明,策略优化目标函数作为策略参数和奖励的函数,满足更强的“等连通性”性质。据我们所知,这些均是新颖且此前未被发现的成果。我们将上水平集的连通性结果应用于鲁棒强化学习的极小极大定理推导。研究表明,任何一侧为凸函数、另一侧满足等连通性的极小极大优化问题,均满足极小极大等式(即存在纳什均衡)。
2025_NIPS_Contrastive Modules with Temporal Attention for Multi-Task Reinforcement Learning
在多任务强化学习领域,模块化原则(将功能拆分到不同模块并合理组合)已被广泛用作解决负迁移问题的有效方法——负迁移指因任务间冲突导致的性能下降。然而,大多数现有多任务强化学习方法仅在任务级别组合共享模块,忽略了任务内部可能存在的冲突;此外,这些方法缺乏对模块的约束,可能导致部分模块学习相似功能,进而限制模型的表达能力和泛化性能。
2025_NIPS_White-Box Transformers via Sparse Rate Reduction
在本文中,我们认为表示学习的目标是对数据(即token集合)的分布进行压缩和转换,使其成为支持在非相干子空间上的低维高斯混合分布。最终表示的质量可以通过一个名为“稀疏率降低”的统一目标函数来衡量。从这一视角出发,诸如Transformer等主流深度网络可自然地被视为逐步优化该目标的迭代方案。
2025_NIPS_Distributed Inference and Fine-tuning of Large Language Models Over The Internet
大语言模型(LLMs)在众多自然语言处理任务中极具实用价值,且规模越大性能越优——目前最优的开源模型已具备超过500亿参数。然而,使用这些500亿参数以上的模型需要高端硬件,这使得大多数研究者难以获取。本文研究了大模型的低成本推理与微调方法,对比了本地策略与分布式策略。我们发现,足够大的模型(500亿参数以上)即使在消费级网络中的地理分布式设备上也能高效运行。这一发现意味着,通过整合多个研究团队和志愿者的闲置计算资源,有望实现大模型的高效部署。
2025_NIPS_Test-Time Distribution Normalization for Contrastively Learned Visual-language Models
问题识别:CLIP等模型基于InfoNCE损失训练,需同时利用正负样本优化表征空间,但下游测试时仅通过图像与文本表征的点积计算相似度,未利用测试分布信息,导致信息丢失和性能受限。核心方法:提出分布归一化(DistributionNormalization,DN),通过在计算点积前减去测试样本批次的图像/文本表征均值,近似InfoNCE损失中的负样本信息。该方法无需重训练、微调或标注数据,仅需少量无标签样本估计分布均值,实现简单且计算开销低。扩展变体。
2025_NIPS_Benchmarking Robustness of Adaptation Methods on Pre-trained Vision-Language Models
已提出多种适配方法(如LoRA、提示词和适配器)以提升预训练视觉语言模型在特定领域的性能。由于现实应用中的测试样本通常与适配数据存在差异,研究这些适配方法针对分布偏移的鲁棒性至关重要。本研究在多模态损坏场景下,基于4个视觉语言数据集评估了11种广泛使用的适配方法的鲁棒性。具体而言,我们构建了7个基准数据集,包含96种视觉损坏和87种文本损坏,用于探究不同适配方法的鲁棒性、适配样本数量的影响以及适配过程中可训练参数规模的作用。分析结果表明:1)适配方法对文本损坏的敏感性高于视觉损坏;
2025_NIPS_3D-LLM: Injecting the 3D World into Large Language Models
3D世界与LLM的深度融合:首次系统性地将3D物理世界概念(空间关系、物理规律等)注入LLM,突破传统LLM和2DVLMs的场景理解局限,实现对3D场景的整体感知与推理。大规模3D-语言数据生成方案:创新设计三种提示机制,利用现有LLM生成高质量、多任务的3D-语言配对数据,解决3D数据稀缺且标注困难的行业痛点。高效的跨模态特征对齐:通过从2D多视角图像提取并转换3D特征,复用预训练2DVLMs的骨干网络,避免从零训练3D编码器的资源浪费,实现高效模型训练。3D空间定位机制。
