Loading...

Human-Aligned Code Readability Assessment with Large Language Models
代码可读性在软件理解、维护和团队协作中起着关键作用,但大规模评估仍具挑战。传统静态指标(如行长度、嵌套深度)往往无法捕捉人类判断的主观性和上下文敏感性。大型语言模型(LLMs)提供了可扩展且可解释的替代方案,但其作为代码可读性评估工具的表现尚未得到充分探索和表征。本文提出CoReEval,首个用于评估基于LLM的代码可读性评估的大规模基准。

2025_NIPS_Large Language Models are Visual Reasoning Coordinators
视觉推理需要对世界的多模态感知和常识认知。近年来,已有多个视觉语言模型(VLMs)被提出,它们在不同领域具备出色的常识推理能力。然而,如何利用这些互补VLMs的集体力量尚未得到充分探索。现有方法(如集成学习)仍难以聚合这些模型并实现理想的高阶通信。在本文中,我们提出Cola——一种新型范式,通过协调多个VLMs完成视觉推理任务。核心洞见是:大型语言模型(LLM)可通过自然语言通信高效协调多个VLMs,充分利用它们独特且互补的能力。

2025_NIPS_General Munchausen Reinforcement Learning with Tsallis Kullback-Leibler Divergence
许多强化学习中的策略优化方法会引入与先前策略的KL(Kullback-Leibler)散度,以防止策略变化过快。这一思想最初在保守策略迭代(ConservativePolicyIteration)的开创性论文中提出,TRPO和蒙乔森价值迭代(MunchausenValueIteration,MVI)等算法对此进行了近似实现。本文延续这一研究方向,探讨了一种广义KL散度——TsallisKL散度。基于q-对数定义的TsallisKL散度是严格的泛化形式:当q=1时,它等价于标准KL散度;

2025_NIPS_Langevin Quasi-Monte Carlo
Langevin蒙特卡洛(LMC)及其随机梯度版本是从复杂高维分布中采样的强大算法。为了从密度为πθ∝exp⁡−Uθπθ∝exp−Uθ))的分布中采样,LMC通过沿梯度方向∇U\nablaU∇U迈出一步并添加高斯扰动,迭代生成下一个样本。目标分布π\piπ的期望通过对LMC样本求平均来估计。在普通蒙特卡洛方法中,众所周知,用低偏差序列等拟随机样本替代独立随机样本可以大幅降低估计误差。在本文中,我们表明,使用拟随机样本也可以降低LMC的估计误差。

2025_NIPS_Improved Bayesian Regret Bounds for Thompson Sampling in Reinforcement Learning
在本文中,我们证明了汤普森采样(ThompsonSampling)在多种强化学习场景下的首个贝叶斯遗憾界。我们通过离散的替代环境集合简化学习问题,并利用后验一致性对信息比进行精细化分析。这导致在时变强化学习问题中,我们得到了一个阶为OHdl1TOHdl1​​T​的上界,其中H为episode长度,dl1d_{l_1}dl1​​是环境空间的Kolmogorovl1l_1l1​维度。随后,我们在多种场景(如表格型、线性和有限混合模型)中给出了dl1。

2025_NIPS_Density of States Prediction of Crystalline Materials via Prompt-guided Multi-Modal Tra...
该研究聚焦于晶体材料的态密度(DOS,包括声子DOS和电子DOS)预测问题。态密度是晶体材料的光谱特性,对理解材料的导电性、热容量等关键性质至关重要,但传统密度泛函理论(DFT)计算成本高昂。现有机器学习方法多专注于单值材料特性预测,且忽略了态密度的核心本质——其由材料本身和能量水平共同决定,未充分整合异质信息。为此,研究提出将晶体材料(通过图神经网络编码原子和结构信息)与能量水平作为异质输入模态;利用交叉注意力机制建模材料与能量水平的复杂关系,通过自注意力机制整合能量间的全局信息;

2025_NIPS_CoLLAT: On Adding Fine-grained Audio Understanding to Language Models using Token-Level...
该研究针对传统音频理解模型难以识别未训练类别、无法保留预训练语言模型文本理解能力、对含多音频概念的复杂音频片段理解不足等问题,提出了框架。其核心是在冻结预训练文本编码器(如CLIP文本编码器)的前提下,通过对比学习实现音频-文本的细粒度对齐,从而构建兼具强音频理解能力与文本编码器原有优势的模型。

IAD-GPT: Advancing Visual Knowledge in Multimodal Large Language Model for Industrial Anomaly Det...
多模态大语言模型(MLLMs)强大的因果推理能力为工业异常检测(IAD)中缺陷目标的识别提供了潜力。然而,大多数传统IAD方法无法支持多轮人机对话,也难以提供异常目标的颜色、形状、具体类型等细节描述;同时,基于预训练大模型的方法尚未充分激活大模型在异常检测任务中的能力。本文探索了丰富文本语义与图像的图像级、像素级信息的融合,提出了一种基于MLLMs的新型IAD框架IAD-GPT。

RHINO: Guided Reasoning for Mapping Network Logs to Adversarial Tactics and Techniques with Large...
结构化推理框架:首次将TT映射重构为结构化推理任务,拆解为多阶段流程,模仿人类分析师工作流,提升可解释性与扩展性;上下文感知抽象:设计语义解析模块,将低层级日志转换为高层级行为描述,保留协议语义、时间模式等关键上下文,弥合原始数据与对抗意图的鸿沟;多角色协同机制:通过角色分工推理生成并验证TT假设,减少LLM幻觉与偏见(如将14种战术分组并行推理,降低T1078过度预测);权威知识验证:引入MITRE官方定义交叉验证环节,消除技术无效预测,提升输出可靠性;实用兼容性。

2025_NIPS_Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of Large Language...
程序合成是一个长期研究的领域,近年来的研究方法聚焦于直接利用大语言模型(LLMs)的能力生成代码。编程基准测试(通过精心设计的合成问题和测试用例)被用于衡量各类LLM的代码合成性能。然而,这些测试用例在数量和质量上均存在局限,难以全面评估生成代码的功能正确性。现有基准测试的这一缺陷引发了如下核心问题:在LLM时代,生成的代码真的正确吗?为解答这一问题,我们提出了EvalPlus——一个用于严格评估LLM合成代码功能正确性的代码合成评估框架。

2025_NIPS_Setting the Trap: Capturing and Defeating Backdoors in Pretrained Language Models throu...
在自然语言处理领域,主流方法是利用本地样本对预训练语言模型(PLMs)进行微调。近期研究表明,PLMs易受后门攻击——攻击者可通过操控少量训练样本嵌入恶意预测行为。本研究旨在设计一种抗后门微调流程,无论微调数据集是否包含毒样本,均能生成无后门模型。为此,我们提出并在原始PLMs中集成蜜罐模块,该模块专门用于独家吸收后门信息。我们的设计灵感源于以下观察:PLMs的低层表示包含充足的后门特征,同时仅携带极少的原始任务信息。因此,我们可通过对蜜罐模块获取的信息施加惩罚,抑制主干网络在微调过程中形成后门。

Vision-Centric Activation and Coordination for Multimodal Large Language Models
多模态大语言模型(MLLMs)将视觉编码器的图像特征与大语言模型(LLMs)相结合,展现出先进的理解能力。然而,主流MLLMs仅受文本令牌的下一个令牌预测监督,忽视了对分析能力至关重要的视觉中心信息。为解决这一问题,我们提出VaCo方法,通过来自多个视觉基础模型(VFMs)的视觉中心激活(Vision-CentricActivation)与协调(Coordination)优化MLLM的表征。

2025_NIPS_HotBEV: Hardware-oriented Transformer-based Multi-View 3D Detector for BEV Perception
鸟瞰图(BEV)感知在自动驾驶系统中起着关键作用,涉及从俯视角度对目标进行准确高效的检测与跟踪。为实现自动驾驶场景下的实时决策,低延迟计算至关重要。尽管近年来基于Lift-Splat-Shoot(LSS)或Transformer的BEV检测方法在提升检测精度方面取得了进展,但这些方法巨大的计算和内存负担,在车载多任务同时运行时会增加系统崩溃的风险。遗憾的是,关于高效BEV检测器范式的研究文献匮乏,更鲜有能实现实际速度提升的方案。

2025_NIPS_Post Hoc Explanations of Language Models Can Improve Language Models
该文章聚焦于少样本学习(Few-ShotLearning,FSL)领域,针对现有方法在利用支持集信息时存在的“信息利用不充分”和“跨样本干扰”问题,提出了一种基于“支持集特征校准与自适应聚合”的新型框架。文章首先分析了FSL中类别内特征一致性与类别间特征区分度的核心需求,指出传统方法(如原型网络)仅依赖简单平均聚合支持集特征,易受噪声样本影响且无法捕捉样本间细粒度关联;进而通过设计特征校准模块、动态注意力聚合机制,实现对支持集样本的精准加权与信息融合,并结合元学习范式优化模型泛化能力。

2025_NIPS_Birth of a Transformer: A Memory Viewpoint
文章从记忆视角研究Transformer的内部机制,核心聚焦Transformer如何平衡全局知识(如语法规则)与上下文特定知识(如语境中的新词关联)的学习。通过构建包含全局二元组和上下文特定二元组的合成数据集,作者对简化的两层Transformer进行实证分析与理论推导,发现模型先快速学习全局二元组,再通过“归纳头”机制缓慢掌握上下文二元组预测能力。

2025_NIPS_Effectively Learning Initiation Sets in Hierarchical Reinforcement Learning
该研究聚焦于分层强化学习(HRL)中启动集(InitiationSets)的有效学习问题。启动集是指选项(Option)可执行的状态集合,其学习质量直接影响HRL智能体的任务性能,但传统方法因存在数据非平稳性、时间信用分配困难和悲观偏差三大核心问题,导致启动集学习不准确、规模萎缩,进而制约下游任务表现。启动价值函数(IVF):基于通用价值函数(GVF),预测从某状态执行选项成功的概率,通过时序差分(TD)方法学习,可适应政策(Policy)变化,解决数据非平稳性和时间结构利用不足的问题;

2025_NIPS_CAMEL: Communicative Agents for “Mind“ Exploration of Large Language Model Society
聊天式语言模型的快速发展在复杂任务解决方面取得了显著进展。然而,它们的成功严重依赖人类输入来引导对话,这一过程既具挑战性又耗时。本文探索了构建可扩展技术以促进通信智能体间自主协作的潜力,并深入剖析其“认知”过程。为解决自主协作面临的难题,我们提出了一种名为角色扮演的新型通信智能体框架。该方法通过植入式提示(inceptionprompting)引导聊天智能体完成任务,同时确保与人类意图保持一致。我们展示了角色扮演如何用于生成对话数据,以研究智能体群体的行为与能力,为探索对话式语言模型提供了宝贵资源。

2025_NIPS_Cal-DETR: Calibrated Detection Transformer
该研究聚焦于基于Transformer的目标检测器(如Deformable-DETR、UP-DETR、DINO)的校准问题,核心解决深度神经网络(DNNs)在安全关键场景中常见的“过度自信预测”缺陷——即模型预测置信度与实际正确性不匹配的问题。现有校准方法多针对分类任务,且大多仅优化域内(in-domain)预测校准,对目标检测任务及域偏移(out-domain)场景的关注不足。为此,研究提出了Cal-DETR。

2025_NIPS_Importance Weighted Actor-Critic for Optimal Conservative Offline Reinforcement Learning
我们提出了A-Crab(基于平均贝尔曼误差正则化的演员-评论家算法),这是一种适用于数据覆盖不足的复杂环境下的新型实用离线强化学习(RL)算法。该算法将边际化重要性采样框架与演员-评论家范式相结合,其中评论家返回的演员(策略)评估相对于离线数据呈悲观态度,且具有较小的平均(重要性加权)贝尔曼误差。与现有方法相比,我们的算法同时具备多项优势:(1)即使结合一般函数逼近器,也能达到1N1/\sqrt{N}1/N​的最优统计速率(N为离线数据集大小),收敛到离线数据中覆盖的最优策略;

2025_NIPS_The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters for Implicature...
尽管大型语言模型(LLMs)已被广泛用作对话代理,但性能评估尚未涵盖沟通的关键环节:结合语用学在语境中解读语言。人类会利用对世界的信念和先验知识理解语言,例如,我们能直观地将“你留下指纹了吗?”这一问题的回应“我戴了手套”理解为“没有”。为探究LLMs是否具备这种隐含含义推理能力,我们设计了一项简单任务,并评估了四类广泛使用的最先进模型。研究发现,尽管仅评估需要二元推理(是/否)的表述,其中三类模型的表现仍接近随机水平。然而,经过示例级指令微调的LLMs表现显著更优。

欢迎留下您的脚印