Loading...

2025_NIPS_White-Box Transformers via Sparse Rate Reduction
在本文中,我们认为表示学习的目标是对数据(即token集合)的分布进行压缩和转换,使其成为支持在非相干子空间上的低维高斯混合分布。最终表示的质量可以通过一个名为“稀疏率降低”的统一目标函数来衡量。从这一视角出发,诸如Transformer等主流深度网络可自然地被视为逐步优化该目标的迭代方案。

2025_NIPS_Distributed Inference and Fine-tuning of Large Language Models Over The Internet
大语言模型(LLMs)在众多自然语言处理任务中极具实用价值,且规模越大性能越优——目前最优的开源模型已具备超过500亿参数。然而,使用这些500亿参数以上的模型需要高端硬件,这使得大多数研究者难以获取。本文研究了大模型的低成本推理与微调方法,对比了本地策略与分布式策略。我们发现,足够大的模型(500亿参数以上)即使在消费级网络中的地理分布式设备上也能高效运行。这一发现意味着,通过整合多个研究团队和志愿者的闲置计算资源,有望实现大模型的高效部署。

2025_NIPS_Test-Time Distribution Normalization for Contrastively Learned Visual-language Models
问题识别:CLIP等模型基于InfoNCE损失训练,需同时利用正负样本优化表征空间,但下游测试时仅通过图像与文本表征的点积计算相似度,未利用测试分布信息,导致信息丢失和性能受限。核心方法:提出分布归一化(DistributionNormalization,DN),通过在计算点积前减去测试样本批次的图像/文本表征均值,近似InfoNCE损失中的负样本信息。该方法无需重训练、微调或标注数据,仅需少量无标签样本估计分布均值,实现简单且计算开销低。扩展变体。

2025_NIPS_Benchmarking Robustness of Adaptation Methods on Pre-trained Vision-Language Models
已提出多种适配方法(如LoRA、提示词和适配器)以提升预训练视觉语言模型在特定领域的性能。由于现实应用中的测试样本通常与适配数据存在差异,研究这些适配方法针对分布偏移的鲁棒性至关重要。本研究在多模态损坏场景下,基于4个视觉语言数据集评估了11种广泛使用的适配方法的鲁棒性。具体而言,我们构建了7个基准数据集,包含96种视觉损坏和87种文本损坏,用于探究不同适配方法的鲁棒性、适配样本数量的影响以及适配过程中可训练参数规模的作用。分析结果表明:1)适配方法对文本损坏的敏感性高于视觉损坏;

2025_NIPS_3D-LLM: Injecting the 3D World into Large Language Models
3D世界与LLM的深度融合:首次系统性地将3D物理世界概念(空间关系、物理规律等)注入LLM,突破传统LLM和2DVLMs的场景理解局限,实现对3D场景的整体感知与推理。大规模3D-语言数据生成方案:创新设计三种提示机制,利用现有LLM生成高质量、多任务的3D-语言配对数据,解决3D数据稀缺且标注困难的行业痛点。高效的跨模态特征对齐:通过从2D多视角图像提取并转换3D特征,复用预训练2DVLMs的骨干网络,避免从零训练3D编码器的资源浪费,实现高效模型训练。3D空间定位机制。

2025_NIPS_Recovering from Out-of-sample States via Inverse Dynamics in Offline Reinforcement Lear...
该文章聚焦离线强化学习(OfflineRL)中测试阶段常见的状态分布偏移问题——智能体在分布外(未见过)状态下易采取不可靠动作,导致任务失败。为解决这一问题,作者提出分布外状态恢复(OSR)方法及变体(OSR-v),核心思路是遵循“状态恢复原则”:让智能体在决策时不仅考虑长期回报,还需优先选择能将状态拉回离线数据集分布内的动作,无需显式建模环境转移动态。对离线数据集进行噪声注入,生成包含分布外状态的混合数据集,模拟状态偏移场景;

QuanBench: Benchmarking Quantum Code Generation with Large Language Models
大语言模型(LLMs)在通用代码生成任务中已展现出良好性能,但它们在量子代码生成领域的能力尚未得到充分研究。本文提出QuanBench,一个用于评估LLMs量子代码生成能力的基准。该基准包含44个编程任务,涵盖量子算法、量子态制备、门分解和量子机器学习四大类。每个任务均配有可执行的标准解决方案,并通过功能正确性(Pass@K)和量子语义等价性(过程保真度ProcessFidelity)进行评估。

2025_NIPS_Counterfactual Conservative Q Learning for Offline Multi-agent Reinforcement Learning
离线多智能体强化学习极具挑战性,这源于离线场景中普遍存在的分布偏移问题与多智能体场景中常见的高维问题的耦合效应——这使得动作分布外(OOD)现象和价值高估问题异常严重。为缓解该问题,我们提出一种新型多智能体离线强化学习算法,即反事实保守Q学习(CFCQL),以实现保守价值估计。与将所有智能体视为单一高维智能体并直接应用单智能体方法的思路不同,CFCQL通过反事实方式为每个智能体单独计算保守正则化项,再将其线性组合以实现全局保守价值估计。

2025_NIPS_STORM: Efficient Stochastic Transformer based World Models for Reinforcement Learning
近年来,模型基强化学习算法在视觉输入环境中展现出显著成效。这些方法首先通过自监督学习构建真实环境的参数化仿真世界模型,借助世界模型的“想象”能力,在不受真实环境采样约束的情况下优化智能体策略。算法性能很大程度上依赖于世界模型的序列建模与生成能力,但构建复杂未知环境的完美精确模型几乎不可能——模型与现实的差异可能导致智能体追求虚拟目标,进而在真实环境中表现不佳。在模型基强化学习中引入随机噪声已被证实有效。

2025_NIPS_Nearly Optimal Bounds for Cyclic Forgetting
我们在持续学习场景中,针对线性任务的遗忘量提供了理论边界。在该场景下,每一轮学习对应投影到一个线性子空间。对于T个任务各重复m次的循环任务排序,我们证明了遗忘量的最优已知上界为OT2mO(T^2/m)OT2m。值得注意的是,我们的边界对所有任务选择一致成立,且与环境维度无关。我们的主要技术贡献是将所有T个(实或复)投影乘积的数值范围并集刻画为正弦螺旋,这一结果本身可能具有独立的研究价值。本文针对循环任务排序的持续学习场景,提出了线性任务遗忘量的近优边界OT2m。

2025_NIPS_Action Inference by Maximising Evidence: Zero-Shot Imitation from Observation with Worl...
与大多数需要大量环境交互才能学习新行为的强化学习智能体不同,人类仅通过观察和模仿他人就能快速学习,这种能力很大程度上依赖于人类拥有自身的身体模型,使其能够推断出导致观察到的行为的最可能动作。本文提出了一种基于世界模型的“通过最大化证据进行动作推理(AIME)”方法,以复刻这种行为。AIME包含两个不同阶段:第一阶段,智能体通过最大化证据下界(ELBO),从过往经验中学习世界模型,从而理解自身的身体结构;第二阶段,智能体获得专家执行新任务的纯观察演示数据,并尝试模仿专家行为。

2025_NIPS_Large Language Models as Commonsense Knowledge for Large-Scale Task Planning
该文章聚焦于少样本学习(Few-ShotLearning,FSL)中的关键挑战——模型在有限标注样本下的泛化能力不足,尤其针对类别分布偏移和特征表示鲁棒性问题展开研究。文章提出了一种名为“XXX”(需根据全文核心方法补充,暂基于摘要推断为“基于元特征对齐与动态原型优化的少样本学习框架”)构建元学习驱动的特征对齐机制,缓解不同任务间的分布差异;设计动态原型更新策略,利用未标注样本(或辅助信息)优化类别原型表示,减少有限样本带来的估计偏差;

2025_NIPS_Time Series as Images: Vision Transformer for Irregularly Sampled Time Series
不规则采样时间序列的应用日益广泛,尤其在医疗领域。尽管已开发出多种专门方法处理此类不规则性,但有效建模其复杂动态特征和显著稀疏性仍面临挑战。本文提出一种全新视角:将不规则采样时间序列转换为折线图图像,随后利用性能强大的预训练视觉Transformer,以图像分类的方式完成时间序列分类。该方法不仅大幅简化了专用算法的设计流程,还具备成为时间序列建模通用框架的潜力。值得注意的是,尽管方法简洁,在多个主流医疗保健和人类活动数据集上,其性能仍超越了最先进的专用算法。

2025_NIPS_Large Language Models are Fixated by Red Herrings: Exploring Creative Problem Solving a...
自人工智能研究起步以来,追求类人智能的人工智能一直是经久不衰的话题。最新一代大型语言模型(LLMs)的技术演进与新兴能力,已将这一主题从学术界推向主流文化思潮。尽管近期的自然语言处理(NLP)评估基准测试考察了类人行为的部分方面(例如BIG-bench中的“类人行为”任务),但几乎没有测试关注创造性问题解决能力。人类的创造性问题解决是认知神经科学中一个研究成熟的领域,其标准化测试主要以线索词间(异质性)关联能力作为创造力的衡量指标。

2025_NIPS_WalkLM: A Uniform Language Model Fine-tuning Framework for Attributed Graph Embedding
图被广泛用于建模互联实体,并在各类真实世界应用中提升下游预测性能。然而,如今的真实世界图通常包含多种类型节点甚至边的复杂属性,难以进行统一建模;而广泛使用的图神经网络(GNNs)往往需要针对特定下游预测任务进行充分训练才能达到良好性能。本文采用与GNNs截然不同的思路,旨在同时实现对真实世界图复杂属性与灵活结构的深度联合建模,并获取不受特定下游预测限制的无监督通用图表示。我们的框架基于语言模型(LMs)与随机游走(RWs)的自然融合,简洁、高效且数据利用率高。

2025_NIPS_Active Reasoning in an Open-World Environment
近年来,视觉-语言学习领域通过整合海量世界知识,在完整信息问答数据集上取得了显著成功。然而,大多数模型均以被动方式运行,仅基于预存储的知识响应问题。与之形成鲜明对比的是,人类具备主动探索、积累信息并利用新获取知识与既有知识进行推理的能力,能够应对信息不完全的问题。为填补这一空白,我们提出了🔍Conan——一个用于评估主动推理能力的交互式开放世界环境。🔍Conan支持主动探索,并促进多轮溯因推理,其场景类似于《我的世界》等丰富的开放世界设定。

2025_NIPS_Self-Chained Image-Language Model for Video Localization and Question Answering
近年来的研究表明,利用大规模预训练图像-语言模型解决视频问答任务取得了良好效果。尽管这些图像-语言模型能有效助力视频-语言模型的表征学习,但它们通常将均匀采样的视频帧拼接作为视觉输入,缺乏显式的语言感知时序建模。当视频中仅有部分内容与语言查询相关时,这种均匀帧采样往往会导致丢失关键视觉线索。人类通常会找到视频中相关的时刻并反复回看以回答问题,但训练查询感知的视频时刻定位器往往需要高昂的标注成本和巨大的计算开销。

2025_NIPS_BIOT: Biosignal Transformer for Cross-data Learning in the Wild
生物信号(如脑电图,EEG)在众多临床应用中发挥着关键作用,其数据格式多样且质量各异。当前基于卷积神经网络(CNN)、循环神经网络(RNN)和Transformer的生物信号深度学习模型通常针对特定数据集和临床场景设计,限制了其更广泛的适用性。本文旨在开发一种灵活的生物信号编码器架构,能够在多个数据集上进行预训练,并在不同格式的下游生物信号任务中进行微调。为克服不同格式生物信号带来的独特挑战(如通道不匹配、样本长度可变和普遍存在的缺失值),我们提出了生物信号Transformer(BIOT)。

2025_NIPS_Sample-Efficient and Safe Deep Reinforcement Learning via Reset Deep Ensemble Agents
深度强化学习(RL)通过将深度神经网络(DNNs)作为函数逼近器,在解决复杂任务方面取得了显著成功。然而,对DNNs的依赖引入了一个名为首因偏差的新挑战——这些函数逼近器倾向于优先考虑早期经验,进而导致过拟合。为缓解这种首因偏差,已有研究提出了一种重置方法:在保留回放缓冲区的同时,周期性地重置深度RL智能体的部分或全部参数。但重置方法的使用会导致重置后出现性能崩溃,这从安全强化学习和遗憾最小化的角度来看是不利的。

Rethinking Toxicity Evaluation in Large Language Models: A Multi-Label Perspective
大型语言模型(LLMs)已在一系列自然语言处理任务中取得了令人瞩目的成果,但其生成有害内容的潜在风险引发了严重的安全担忧。当前的毒性检测器主要依赖单标签基准,无法充分捕捉真实世界毒性提示所固有的模糊性和多维度特征。这一局限性导致评估存在偏差,包括漏检有毒内容和误报等问题,进而削弱了现有检测器的可靠性。此外,收集涵盖细粒度毒性类别的全面多标签标注成本极高,进一步阻碍了有效的评估与方法研发。为解决这些问题,我们引入了三个新的多标签毒性检测基准:Q-A-MLL、R-A-MLL和H-X-MLL。

欢迎留下您的脚印