Loading...

2025_NIPS_Tree of Thoughts: Deliberate Problem Solving with Large Language Models
语言模型正越来越多地被用于各类任务的通用问题解决,但在推理过程中仍受限于逐token、左到右的决策机制。这意味着它们在需要探索、策略性前瞻或初始决策起关键作用的任务中可能表现不佳。为克服这些挑战,我们提出了一种新的语言模型推理框架——“思维树”(TreeofThoughts,ToT),该框架对流行的“思维链”(ChainofThought)提示方法进行了泛化,允许在作为问题解决中间步骤的连贯文本单元(“思维”)上进行探索。

2025_NIPS_Patch n’ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution
计算机视觉模型在处理图像前将其调整为固定分辨率的普遍做法已被证明是次优的,但这一现状尚未被成功打破。然而,视觉Transformer(ViT)等模型提供了基于序列的灵活建模能力,因此支持可变的输入序列长度。我们利用这一特性提出了NaViT(原生分辨率ViT),它在训练过程中采用序列打包(Patchn’Pack)技术,能够处理任意分辨率和宽高比的输入。除了模型使用的灵活性外,我们还证明了NaViT在大规模监督预训练和对比性图像-文本预训练中具有更高的训练效率。

2025_NIPS_Safety Gymnasium: A Unified Safe Reinforcement Learning Benchmark
人工智能(AI)系统具有推动社会进步的巨大潜力。然而,由于存在重大安全隐患,其部署往往面临阻碍。安全强化学习(SafeRL)作为一种解决方案,能够在优化策略的同时遵守多项约束,从而解决了在安全关键场景中集成强化学习的难题。本文提出了一个名为Safety-Gymnasium的环境套件,该套件涵盖单智能体和多智能体场景下的安全关键任务,支持向量输入和纯视觉输入。此外,我们还提供了一个名为安全策略优化(SafePO)的算法库,包含16种最先进的SafeRL算法。这个全面的库可以作为研究社区的验证工具。

Assessing Coherency and Consistency of Code Execution Reasoning by Large Language Models
本文提出了CES任务,用于评估大型语言模型(LLMs)在模拟程序执行及将该推理应用于编程任务中的能力。除了测量执行模拟过程中变量预测的正确性外,CES还引入了“连贯性”概念,以判断模拟是否符合常识性执行逻辑——即便模拟过程中的预测值不正确。这一设计使CES能够排除因推理捷径、幻觉或潜在数据泄露导致的“可疑正确”输出预测。此外,CES还提出了一种新颖的度量标准,用于评估模型在具有相同或不同基本路径覆盖的测试用例间的推理一致性,并将其划分为强、弱、随机三个等级。

Benchmarking Multimodal Large Language Models for Face Recognition
多模态大型语言模型(MLLMs)在各类视觉-语言任务中取得了显著性能。然而,它们在人脸识别领域的潜力尚未得到充分探索。特别是开源MLLMs的性能,需要在采用相似协议的标准基准上与现有人脸识别模型进行评估和对比。本文在多个人脸识别数据集(包括LFW、CALFW、CPLFW、CFP、AgeDB和RFW)上,对最先进的MLLMs进行了系统的人脸识别基准测试。实验结果表明,尽管MLLMs能捕捉对人脸相关任务有用的丰富语义线索,但在零样本应用的高精度识别场景中,它们仍落后于专用模型。

Code-driven Number Sequence Calculation: Enhancing the inductive Reasoning Abilities of Large Lan...
大语言模型(LLMs)在推理任务中取得了显著进展。在不同的推理模式中,归纳推理因其更贴合人类学习方式而受到越来越多的关注。然而,归纳推理相关研究面临着若干挑战:首先,现有归纳数据多聚焦于表面规律,缺乏更复杂的内在模式;其次,当前研究仅通过提示LLMs或在简单的提示-响应对上进行微调,并未提供精准的思维过程,也未实现难度控制。与以往研究不同,本文通过引入CodeSeq(一个基于数字序列构建的合成后训练数据集)来应对这些挑战。我们将数字序列包装为算法问题以挖掘其通用项,并相应定义了通用项生成(GTG)任务。

Large Scale Retrieval for the LinkedIn Feed using Causal Language Models
在LinkedInFeed等大规模推荐系统中,检索阶段对于将数亿潜在候选内容筛选为可管理的排序子集至关重要。LinkedInFeed会基于成员的主题兴趣,推送其社交网络之外的推荐内容——需在数毫秒延迟预算和每秒数千查询量(QPS)的约束下,从数亿候选内容中检索出2000个候选。本文提出一种新型检索方法:将大型因果语言模型(Meta的LLaMA3)微调为双编码器,仅通过文本输入为用户(成员)和内容(物品)生成高质量嵌入向量。

2025_NIPS_Can Language Models Solve Graph Problems in Natural Language?
大型语言模型(LLMs)正日益被应用于各类含隐式图形结构的任务,例如机器人规划、多跳问答或知识探查、结构化常识推理等。尽管LLMs在这些含结构暗示的任务上取得了最先进的成果,但它们能否明确处理图和结构的文本描述、将其映射到接地概念空间并执行结构化操作,仍有待深入探索。为此,我们提出了NLGraph(自然语言图)——一个基于图的问题求解综合基准,完全以自然语言设计。NLGraph包含29,370个问题,覆盖8类图推理任务,复杂度各异:从连通性、最短路径等简单任务,到最大流、图神经网络模拟等复杂问题。

2025_NIPS_Efficient Exploration in Continuous-time Model-based Reinforcement Learning
该研究聚焦连续时间模型的强化学习,提出乐观连续时间模型基强化学习算法(OCORL)。核心是用非线性常微分方程(ODEs)建模连续时间动态,结合高斯过程(GP)捕捉认知不确定性,通过乐观原则实现高效探索。文章分析了测量选择策略(MSS)对遗憾界的影响,提出自适应MSS并验证其优越性,同时通过实验证明OCORL在机器人、医疗等多个任务中,相较于离散时间模型和传统MSS,能以更少样本实现亚线性遗憾。强化学习算法通常考虑离散时间动态,尽管底层系统往往是连续时间的。

2025_NIPS_Evaluating Cognitive Maps and Planning in Large Language Models with CogEval
近年来,大量研究声称大型语言模型(LLMs)具备涌现的认知能力。然而,这些研究大多依赖轶事证据,忽视了训练集污染问题,或缺乏包含多任务、控制条件、多轮迭代和统计稳健性检验的系统性评估。本文作出两项主要贡献:首先,我们提出CogEval协议——一种受认知科学启发的LLMs认知能力系统性评估方案,该协议可用于评估多种认知能力;

2025_NIPS_Efficient Adaptation of Large Vision Transformer via Adapter Re-Composing
高容量预训练模型的出现彻底改变了计算机视觉领域的问题解决方式,将研究重心从训练任务特定模型转向适配预训练模型。因此,以高效方式将大型预训练模型适配到下游任务已成为一个重要的研究方向。现有解决方案主要集中在设计轻量化适配器及其与预训练模型的交互方式,旨在最小化需要更新的参数数量。在本研究中,我们提出了一种新颖的适配器重组(ARC)策略,从全新视角解决预训练模型的高效适配问题。该方法充分考虑适配参数的可复用性,并引入参数共享方案。具体而言,我们利用对称下投影/上投影构建瓶颈操作,这些操作在不同层之间共享;

2025_NIPS_Fine-Tuning Language Models with Just Forward Passes
微调语言模型(LM)已在各类下游任务中取得成功,但随着模型规模扩大,反向传播所需的内存量变得难以承受。零阶(ZO)方法原则上仅需两次前向传播即可估计梯度,但理论上优化大型模型时速度会极慢。本文提出一种内存高效的零阶优化器(MeZO),对经典ZO-SGD方法进行适配以实现原地运算,从而在与推理相同的内存占用下微调语言模型。例如,使用单块A10080GBGPU时,MeZO可训练300亿参数模型,而反向传播微调在相同硬件条件下仅能训练27亿参数模型。

2025_NIPS_UDC-SIT: A Real-World Dataset for Under-Display Cameras
本文针对屏下摄像头(UDC)成像存在的低透射率、模糊、噪声、光晕等退化问题,提出了首个真实世界UDC数据集UDC-SIT。现有UDC数据集多为合成数据,无法准确反映真实退化特性,且缺乏对齐和完整标注。为此,作者设计了专用图像采集系统,通过在非UDC手机镜头上加装UDC显示屏模块(可开合),获取同一场景的无退化基准图与UDC退化图;并提出基于离散傅里叶变换(DFT)的图像对齐技术,结合空间域和频域损失函数解决采集过程中的几何错位问题。

2025_NIPS_LegalBench: A Collaboratively Built Benchmark for Measuring Legal Reasoning in Large La...
大型语言模型(LLMs)的出现及其在法律界的应用引发了一个关键问题:LLMs能够执行哪些类型的法律推理?为推动这一问题的深入研究,我们提出LEGALBENCH——一个协作构建的法律推理基准,包含162个任务,覆盖六种不同类型的法律推理。LEGALBENCH通过跨学科流程构建,收集了由法律专业人士设计和手工打造的任务。由于这些领域专家主导了构建过程,任务要么测量具有实际应用价值的法律推理能力,要么测量律师认为有研究意义的推理技能。

2025_NIPS_Language Is Not All You Need: Aligning Perception with Language Models
语言、多模态感知、动作与世界建模的深度融合是迈向通用人工智能的关键一步。本文中,我们提出了多模态大型语言模型(MLLM)KOSMOS-1,该模型能够感知通用模态、进行上下文学习(即少样本学习)并遵循指令(即零样本学习)。具体而言,我们在网页级多模态语料库上从头训练KOSMOS-1,该语料库包括任意交错的文本和图像、图像-描述对以及文本数据。我们在多种设置下(包括零样本、少样本和多模态思维链提示)对模型进行了广泛任务评估,且未进行任何梯度更新或微调。

Fine-tuning of Large Language Models for Constituency Parsing Using a Sequence to Sequence Approach
大型神经模型在自然语言处理领域的最新进展,为探索基于机器学习的短语结构分析新句法方法提供了可能。本文提出通过序列到序列翻译的方式微调大型语言模型以实现短语结构分析——将输入序列(待分析句子)转化为输出序列(其短语结构分析结果)。该技术的最终目标是扩展MiSintaxis工具的功能,该工具专为西班牙语语法教学设计。研究人员在基于AnCora-ES语料库生成的训练数据上,对HuggingFace平台可用的模型进行了微调,并使用F₁指标对比了实验结果。

2025_NIPS_What can Large Language Models do in chemistry? A comprehensive benchmark on eight tasks
研究背景与目标:LLMs在自然语言处理及部分科学领域已展现潜力,但在化学领域的系统性评估缺失。研究旨在通过标准化基准,探究LLMs在化学任务中的理解、推理与解释能力,为AI研究者和化学家提供实用参考。基准测试设计核心能力维度:围绕化学领域的理解、推理、解释三大核心能力展开。8项化学任务:涵盖名称预测(如SMILES与IUPAC名称互译)、性质预测(如血脑屏障穿透性)、产率预测、反应预测、逆合成分析、文本驱动分子设计、分子描述生成、试剂选择,覆盖合成化学、药物发现等关键场景。数据集与评估方式。

2025_NIPS_Large language models transition from integrating across position-yoked, exponential wi...
研究背景:自然语言具有多尺度层级结构,智能系统需灵活整合不同时间尺度信息以理解语义;人类大脑对语言的响应存在结构化“整合窗口”,但LLMs的整合窗口特性此前缺乏系统研究。核心方法:提出一种不依赖模型梯度或架构细节(如注意力权重)的“词交换法”(word-swapprocedure),可从黑箱语言模型中估算整合窗口;同时设计量化指标,衡量整合窗口与语言结构边界(如句界)的关联程度。关键发现。

2025_NIPS_Accelerating Monte Carlo Tree Search with Probability Tree State Abstraction
该研究针对蒙特卡洛树搜索(MCTS)算法(如AlphaGo、MuZero)在复杂任务中面临的搜索空间庞大、计算复杂度高的问题,提出了一种新型概率树状态抽象(PTSA)算法,核心目标是提升MCTS的搜索效率。核心背景:MCTS类算法在围棋、Atari游戏等任务中已实现超人类性能,但增大搜索深度以提升决策准确性的同时,会导致时间和空间复杂度激增;传统状态抽象方法存在最小抽象状态空间求解为NP难问题、聚合过程容错率低等缺陷。算法设计。

2025_NIPS_On the Planning Abilities of Large Language Models - A Critical Investigation
受限于通用网络语料训练的大型语言模型(LLMs)具有涌现推理能力的相关说法启发,本文旨在探究其规划能力。我们的研究目标包括:(1)评估LLMs在常识规划任务中自主生成计划的有效性;(2)验证LLMs作为启发式指导源,为其他智能体(AI规划器)的规划任务提供支持的潜力。我们通过生成一套基于国际规划竞赛所用领域的测试实例,以两种不同模式对LLMs进行系统性评估:自主模式与启发式模式。研究结果表明,LLMs自主生成可执行计划的能力相当有限,最优模型(GPT-4)在各领域的平均成功率约为12%。

欢迎留下您的脚印