Loading...
多模态大语言模型(MLLMs)强大的因果推理能力为工业异常检测(IAD)中缺陷目标的识别提供了潜力。然而,大多数传统IAD方法无法支持多轮人机对话,也难以提供异常目标的颜色、形状、具体类型等细节描述;同时,基于预训练大模型的方法尚未充分激活大模型在异常检测任务中的能力。本文探索了丰富文本语义与图像的图像级、像素级信息的融合,提出了一种基于MLLMs的新型IAD框架IAD-GPT。
RHINO: Guided Reasoning for Mapping Network Logs to Adversarial Tactics and Techniques with Large...
结构化推理框架:首次将TT映射重构为结构化推理任务,拆解为多阶段流程,模仿人类分析师工作流,提升可解释性与扩展性;上下文感知抽象:设计语义解析模块,将低层级日志转换为高层级行为描述,保留协议语义、时间模式等关键上下文,弥合原始数据与对抗意图的鸿沟;多角色协同机制:通过角色分工推理生成并验证TT假设,减少LLM幻觉与偏见(如将14种战术分组并行推理,降低T1078过度预测);权威知识验证:引入MITRE官方定义交叉验证环节,消除技术无效预测,提升输出可靠性;实用兼容性。
2025_NIPS_Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of Large Language...
程序合成是一个长期研究的领域,近年来的研究方法聚焦于直接利用大语言模型(LLMs)的能力生成代码。编程基准测试(通过精心设计的合成问题和测试用例)被用于衡量各类LLM的代码合成性能。然而,这些测试用例在数量和质量上均存在局限,难以全面评估生成代码的功能正确性。现有基准测试的这一缺陷引发了如下核心问题:在LLM时代,生成的代码真的正确吗?为解答这一问题,我们提出了EvalPlus——一个用于严格评估LLM合成代码功能正确性的代码合成评估框架。
2025_NIPS_Setting the Trap: Capturing and Defeating Backdoors in Pretrained Language Models throu...
在自然语言处理领域,主流方法是利用本地样本对预训练语言模型(PLMs)进行微调。近期研究表明,PLMs易受后门攻击——攻击者可通过操控少量训练样本嵌入恶意预测行为。本研究旨在设计一种抗后门微调流程,无论微调数据集是否包含毒样本,均能生成无后门模型。为此,我们提出并在原始PLMs中集成蜜罐模块,该模块专门用于独家吸收后门信息。我们的设计灵感源于以下观察:PLMs的低层表示包含充足的后门特征,同时仅携带极少的原始任务信息。因此,我们可通过对蜜罐模块获取的信息施加惩罚,抑制主干网络在微调过程中形成后门。
Vision-Centric Activation and Coordination for Multimodal Large Language Models
多模态大语言模型(MLLMs)将视觉编码器的图像特征与大语言模型(LLMs)相结合,展现出先进的理解能力。然而,主流MLLMs仅受文本令牌的下一个令牌预测监督,忽视了对分析能力至关重要的视觉中心信息。为解决这一问题,我们提出VaCo方法,通过来自多个视觉基础模型(VFMs)的视觉中心激活(Vision-CentricActivation)与协调(Coordination)优化MLLM的表征。
2025_NIPS_HotBEV: Hardware-oriented Transformer-based Multi-View 3D Detector for BEV Perception
鸟瞰图(BEV)感知在自动驾驶系统中起着关键作用,涉及从俯视角度对目标进行准确高效的检测与跟踪。为实现自动驾驶场景下的实时决策,低延迟计算至关重要。尽管近年来基于Lift-Splat-Shoot(LSS)或Transformer的BEV检测方法在提升检测精度方面取得了进展,但这些方法巨大的计算和内存负担,在车载多任务同时运行时会增加系统崩溃的风险。遗憾的是,关于高效BEV检测器范式的研究文献匮乏,更鲜有能实现实际速度提升的方案。
2025_NIPS_Post Hoc Explanations of Language Models Can Improve Language Models
该文章聚焦于少样本学习(Few-ShotLearning,FSL)领域,针对现有方法在利用支持集信息时存在的“信息利用不充分”和“跨样本干扰”问题,提出了一种基于“支持集特征校准与自适应聚合”的新型框架。文章首先分析了FSL中类别内特征一致性与类别间特征区分度的核心需求,指出传统方法(如原型网络)仅依赖简单平均聚合支持集特征,易受噪声样本影响且无法捕捉样本间细粒度关联;进而通过设计特征校准模块、动态注意力聚合机制,实现对支持集样本的精准加权与信息融合,并结合元学习范式优化模型泛化能力。
2025_NIPS_Birth of a Transformer: A Memory Viewpoint
文章从记忆视角研究Transformer的内部机制,核心聚焦Transformer如何平衡全局知识(如语法规则)与上下文特定知识(如语境中的新词关联)的学习。通过构建包含全局二元组和上下文特定二元组的合成数据集,作者对简化的两层Transformer进行实证分析与理论推导,发现模型先快速学习全局二元组,再通过“归纳头”机制缓慢掌握上下文二元组预测能力。
2025_NIPS_Effectively Learning Initiation Sets in Hierarchical Reinforcement Learning
该研究聚焦于分层强化学习(HRL)中启动集(InitiationSets)的有效学习问题。启动集是指选项(Option)可执行的状态集合,其学习质量直接影响HRL智能体的任务性能,但传统方法因存在数据非平稳性、时间信用分配困难和悲观偏差三大核心问题,导致启动集学习不准确、规模萎缩,进而制约下游任务表现。启动价值函数(IVF):基于通用价值函数(GVF),预测从某状态执行选项成功的概率,通过时序差分(TD)方法学习,可适应政策(Policy)变化,解决数据非平稳性和时间结构利用不足的问题;
2025_NIPS_CAMEL: Communicative Agents for “Mind“ Exploration of Large Language Model Society
聊天式语言模型的快速发展在复杂任务解决方面取得了显著进展。然而,它们的成功严重依赖人类输入来引导对话,这一过程既具挑战性又耗时。本文探索了构建可扩展技术以促进通信智能体间自主协作的潜力,并深入剖析其“认知”过程。为解决自主协作面临的难题,我们提出了一种名为角色扮演的新型通信智能体框架。该方法通过植入式提示(inceptionprompting)引导聊天智能体完成任务,同时确保与人类意图保持一致。我们展示了角色扮演如何用于生成对话数据,以研究智能体群体的行为与能力,为探索对话式语言模型提供了宝贵资源。
2025_NIPS_Cal-DETR: Calibrated Detection Transformer
该研究聚焦于基于Transformer的目标检测器(如Deformable-DETR、UP-DETR、DINO)的校准问题,核心解决深度神经网络(DNNs)在安全关键场景中常见的“过度自信预测”缺陷——即模型预测置信度与实际正确性不匹配的问题。现有校准方法多针对分类任务,且大多仅优化域内(in-domain)预测校准,对目标检测任务及域偏移(out-domain)场景的关注不足。为此,研究提出了Cal-DETR。
2025_NIPS_Importance Weighted Actor-Critic for Optimal Conservative Offline Reinforcement Learning
我们提出了A-Crab(基于平均贝尔曼误差正则化的演员-评论家算法),这是一种适用于数据覆盖不足的复杂环境下的新型实用离线强化学习(RL)算法。该算法将边际化重要性采样框架与演员-评论家范式相结合,其中评论家返回的演员(策略)评估相对于离线数据呈悲观态度,且具有较小的平均(重要性加权)贝尔曼误差。与现有方法相比,我们的算法同时具备多项优势:(1)即使结合一般函数逼近器,也能达到1N1/\sqrt{N}1/N的最优统计速率(N为离线数据集大小),收敛到离线数据中覆盖的最优策略;
2025_NIPS_The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters for Implicature...
尽管大型语言模型(LLMs)已被广泛用作对话代理,但性能评估尚未涵盖沟通的关键环节:结合语用学在语境中解读语言。人类会利用对世界的信念和先验知识理解语言,例如,我们能直观地将“你留下指纹了吗?”这一问题的回应“我戴了手套”理解为“没有”。为探究LLMs是否具备这种隐含含义推理能力,我们设计了一项简单任务,并评估了四类广泛使用的最先进模型。研究发现,尽管仅评估需要二元推理(是/否)的表述,其中三类模型的表现仍接近随机水平。然而,经过示例级指令微调的LLMs表现显著更优。
Lookahead Routing for Large Language Models
大语言模型(LLM)路由器通过将每个查询导向最合适的模型,同时利用异构LLM的多样化优势,提高了多模型系统的效率。大多数现有方法仅基于输入查询将路由建模为分类问题。虽然这种方式通过避免所有模型的推理来降低开销,但忽略了可从潜在输出中获取的宝贵信息,且无法捕捉往往仅在响应生成过程中才显现的隐含意图或上下文细微差别。这些局限性可能导致次优的路由决策,尤其对于需要深度语义理解的复杂或模糊查询。
2025_NIPS_Mitigating Over-smoothing in Transformers via Regularized Nonlocal Functionals
该研究聚焦于Transformer模型中的过平滑(Over-smoothing)问题——即随着模型层数加深,token表示逐渐趋于一致,导致模型表征能力下降。文章通过建立非局部变分去噪框架,从理论上解释了过平滑的根源,并提出了一种新型Transformer模型NeuTRENO,有效缓解了这一问题。Transformer在自然语言处理和计算机视觉等广泛应用中取得了显著成功。然而,深层Transformer模型的表征能力会因过平滑问题而下降——当模型层数增加时,token表示会变得完全一致。
2025_NIPS_Fast Bellman Updates for Wasserstein Distributionally Robust MDPs
文章聚焦Wasserstein模糊集下的分布鲁棒马尔可夫决策过程(DRMDPs),针对传统解法计算复杂度高、难以适配大规模问题的痛点,提出了高效的Bellman更新求解框架。通过拆解分布鲁棒Bellman更新的优化问题,将其转化为可快速求解的子问题,最终在L1L_1L1L2L_2L2L∞L_\inftyL∞范数设定下,实现了准线性时间复杂度的求解,数值实验验证该方法优于现有主流算法。马尔可夫决策过程(MDPs)在模型模糊性下常面临敏感性问题。
2025_NIPS_Pairwise Causality Guided Transformers for Event Sequences
尽管成对因果关系在众多学科的观察性纵向分析中已得到广泛研究,但将因果对知识融入时间序列事件的深度学习模型仍处于探索阶段。本文提出一种新方法,通过注入成对定性因果知识(如“事件Z会增强未来事件Y的发生概率”),提升基于Transformer的多变量事件序列模型性能。我们建立了一套基于Transformer架构的时间序列事件因果推断新框架,为所提方法提供理论支撑,并证明了该方法能获得无偏估计。实验结果表明,通过有效利用因果对知识,该方法在预测准确率上优于多个最先进模型。
2025_NIPS_SMACv2: An Improved Benchmark for Cooperative Multi-Agent Reinforcement Learning
该文指出经典协作式多智能体强化学习(MARL)基准测试SMAC存在随机性不足、部分可观测性无实际意义的缺陷,导致开环策略(仅依赖时间步)即可在多数场景中取得较好性能,无法有效评估复杂闭环策略。为此,作者提出改进基准SMACv2,通过程序化生成场景(随机团队构成、随机起始位置)提升随机性,引入扩展部分可观测性挑战(EPO)增强观测约束,并调整单位视野和攻击范围。实验表明,SMACv2能有效规避SMAC的缺陷,现有顶尖MARL算法在其上表现受限,可更好地推动下一代MARL方法的研发。
2025_NIPS_Budgeting Counterfactual for Offline RL
离线强化学习的核心挑战源于数据有限情况下,潜在动作领域内的一系列反事实推理困境:倘若我们选择了不同的行动方案会怎样?这些情况常常导致外推误差,而此类误差会随着问题时域的延长呈指数级累积。因此,至关重要的是要认识到,并非所有决策步骤对最终结果的重要性都相同,我们需要对策略所做出的反事实决策数量进行“预算管控”,以控制外推误差。与现有对策略或价值函数施加正则化的方法不同,我们提出了一种在训练过程中显式约束分布外动作数量的方法。
2025_NIPS_Learning World Models with Identifiable Factorization
在高维、嘈杂且非平稳的环境中,提取稳定且紧凑的环境表征对于高效强化学习至关重要。此类环境中存在不同类别的信息——如何有效提取和分离这些信息仍是一个具有挑战性的问题。本文提出IFactor,这是一个通用框架,用于建模四类不同的潜在状态变量,这些变量基于其与动作和奖励的交互关系,捕捉强化学习系统中的各类信息。我们的分析确立了这些潜在变量的块可识别性,这不仅提供了稳定且紧凑的表征,还揭示了所有与奖励相关的因素对策略学习都具有重要意义。
