Loading...

2025_NIPS_No-Regret Online Reinforcement Learning with Adversarial Losses and Transitions
本文聚焦对抗性马尔可夫决策过程(MDPs)的在线强化学习问题,解决了现有算法无法同时处理对抗性损失和对抗性转移的局限。现有算法在转移函数固定时能达到OTOT​遗憾界,但对抗性转移会导致无遗憾学习不可行。本文提出系列算法,让遗憾界随转移恶意程度CPC^PCP平滑增长,同时适配更简单的环境。现有对抗性马尔可夫决策过程(MDPs)的在线学习算法,即使损失函数由对手任意选择,在TTT轮交互后仍能达到OTOT​的遗憾界,但前提是转移函数必须固定。

2025_NIPS_De novo Drug Design using Reinforcement Learning with Multiple GPT Agents
从头药物设计是药理学中的关键问题,也是人工智能在科学研究领域的新焦点。该领域的核心挑战在于生成具有特定属性的分子,同时产出多样化的候选化合物。尽管Transformer模型和强化学习等先进技术已应用于药物设计,但它们的潜力尚未完全发挥。因此,我们提出了MolRL-MGPT——一种基于多GPT智能体的强化学习算法,用于药物分子生成。为提升分子多样性,我们鼓励多个智能体协作,在不同方向上搜索目标分子。该算法在GuacaMol基准测试中取得了良好结果,并在设计SARS-CoV-2蛋白靶点抑制剂方面展现出有效性。

Capabilities and Evaluation Biases of Large Language Models in Classical Chinese Poetry Generatio...
大型语言模型(LLMs)正日益应用于创意领域,但它们在古典中文诗歌生成与评估中的表现仍鲜为人知。本文提出一种三步评估框架,整合计算指标、LLM作为评判者的评估与人类专家验证。利用该框架,我们从主题、情感、意象、格式和风格等多个诗歌质量维度,对6个最先进的LLM进行评估。分析结果揭示了系统性的生成偏差与评估偏差:LLM在评估创意质量时存在“回音室效应”,往往会收敛于与人类判断相悖的有缺陷标准。

Outraged AI: Large language models prioritise emotion over cost in fairness enforcement
情绪指导人类决策,但大型语言模型(LLMs)是否以类似方式利用情绪仍不明确。我们通过利他第三方惩罚任务对此进行了测试——观察者为维护公平而承担个人成本,这是人类道德的标志性特征,且常由负面情绪驱动。在对4068个LLM智能体与1159名成年人的796100次决策进行大规模对比后发现:LLM会利用情绪指导惩罚行为,有时甚至比人类更强烈——不公平会引发更强的负面情绪,进而导致更多惩罚;惩罚不公平分配比接受分配产生更积极的情绪;关键的是,促使LLM自我报告情绪会因果性地增加其惩罚行为。

SoK: Taxonomy and Evaluation of Prompt Security in Large Language Models
大语言模型(LLMs)已迅速成为现实世界应用的核心组成部分,为多个领域提供服务支撑。然而,其广泛部署暴露了关键安全风险,尤其是越狱提示词(jailbreakprompts)可绕过模型对齐机制,诱导产生有害输出。尽管针对攻击与防御技术的研究日益增多,但该领域仍处于碎片化状态:定义、威胁模型和评估标准差异显著,阻碍了系统性进展与公平对比。在本系统性研究(SoK)中,我们通过以下方式应对这些挑战:(1)提出一套全面的多层次分类体系,对LLM提示词安全领域的攻击、防御及漏洞进行系统化梳理;

Selecting and Combining Large Language Models for Scalable Code Clone Detection
源代码克隆会带来从知识产权侵权到意外漏洞等一系列风险。高效且可扩展的克隆检测(尤其是针对变异克隆)仍然面临挑战。近年来,大型语言模型(LLMs)已被应用于克隆检测任务。然而,LLMs的快速涌现引发了关于最优模型选择和潜在集成有效性的问题。本文通过识别76个LLMs并筛选出适用于大规模克隆检测的候选模型,解决了第一个问题。候选模型在两个公开工业数据集(BigCloneBench)和一个商业大规模数据集上进行了评估。

EditMark: Watermarking Large Language Models based on Model Editing
大型语言模型(LLMs)已展现出卓越的能力,但其训练需要大量数据和计算资源,使其成为宝贵的数字资产。因此,为LLMs添加水印以保护其版权、追踪未授权使用或转售行为至关重要。现有LLM水印方法主要依赖带水印的数据集训练模型,这不仅带来高昂的训练成本,还会对LLM的性能产生负面影响。此外,这些方法生成的水印文本缺乏逻辑性和自然性,降低了水印的隐蔽性。为解决这些问题,我们提出了EditMark——首个利用模型编辑为LLMs嵌入无训练、高隐蔽性、无性能损失水印的方法。

Risk-adaptive Activation Steering for Safe Multimodal Large Language Models
现代人工智能模型的核心挑战之一是确保其对良性查询提供有用响应,同时拒绝恶意查询。但这些模型往往容易受到图像中嵌入恶意意图的多模态查询的攻击。安全对齐的一种方法是使用大规模安全数据集进行训练,但这在数据集构建和训练过程中都会产生高昂成本。推理时对齐方法虽能降低这些成本,却存在两个缺陷:误分类良性查询导致的过度拒绝,以及迭代输出调整带来的推理速度下降。为克服这些局限,我们提出对查询进行重构,以强化模型对安全关键图像区域的跨模态注意力,从而实现查询级别的准确风险评估。

2025_NIPS_OFCOURSE: A Multi-Agent Reinforcement Learning Environment for Order Fulfillment
本文针对全球电子商务增长背景下订单履行(从下单到配送全流程)的高效低成本需求,聚焦其多阶段、决策interdependent(相互依赖)、信息动态揭示的核心挑战,提出了基于多智能体强化学习(MARL)的一体化解决方案,并设计了对应的仿真环境OFCOURSE。问题背景:订单履行涉及订单处理、打包提货、仓储、订单合并、最后一公里配送等多个相互关联的决策阶段,传统研究多单独解决各子问题,易导致全局次优;且缺乏标准化仿真环境支持全流程MARL研究。核心方法。

2025_NIPS_Robust Knowledge Transfer in Tiered Reinforcement Learning
本文研究分层强化学习(TieredReinforcementLearning)框架,这是一种并行迁移学习架构,其目标是在并行求解低层级(源)任务与高层级(目标)任务的同时,将源任务的知识迁移至目标任务,以降低目标任务的探索风险。与现有研究不同,我们不预设低层级与高层级任务具有相同的动力学或奖励函数,而是聚焦于无任务相似性先验知识下的鲁棒知识迁移问题。我们为目标实现识别出一个自然且必要的条件,称为“最优价值优势(OptimalValueDominance)”。

STABLE: Gated Continual Learning for Large Language Models
该研究针对大型语言模型(LLMs)持续学习中存在的灾难性遗忘问题(即新增知识更新会破坏已有知识),提出了名为STABLE的门控持续自编辑框架。核心思路是基于低秩适配(LoRA)的参数高效微调(PEFT),通过门控机制约束模型更新,在保留适配能力的同时避免遗忘。核心问题:LLMs部署后需增量更新(如融入新事实、领域术语),但无约束的顺序更新会导致灾难性遗忘,降低模型可靠性。框架设计每个LoRA编辑候选需通过门控评估,门控基于用户选择的三种指标之一与预设预算对比;

MalCVE: Malware Detection and CVE Association Using Large Language Models
恶意软件攻击正产生日益显著的经济影响。商业恶意软件检测软件成本高昂,而将恶意软件与其利用的特定软件漏洞相关联的工具则严重匮乏。理解恶意软件与目标漏洞之间的关联,对于分析过往威胁和主动防御当前威胁至关重要。本研究提出一种利用大型语言模型(LLMs)检测JAR文件中二进制恶意软件的方法,并结合检索增强生成(RAG)技术,识别恶意软件可能利用的常见漏洞与暴露(CVEs)。

Evaluating Arabic Large Language Models: A Survey of Benchmarks, Methods, and Gaps
本综述首次对阿拉伯语大型语言模型(LLM)评估基准进行系统性梳理,分析了40余个覆盖自然语言处理(NLP)任务、知识领域、文化理解及专项能力的评估基准。我们提出一种分类体系,将基准划分为四大类别:知识类、自然语言处理任务类、文化与方言类及目标特定类。分析表明,基准多样性已取得显著进展,但仍存在关键缺口:时序评估有限、多轮对话评估不足,以及翻译数据集存在文化错位问题。我们探讨了三种主要数据收集方法——原生收集、翻译与合成生成,并讨论了它们在真实性、规模与成本方面的权衡。

Sparse Subnetwork Enhancement for Underrepresented Languages in Large Language Models
大型语言模型在不同语言间表现不均衡,高资源语言与低资源语言之间存在显著差距。本文提出一种框架,通过对语言特异性子网络进行靶向微调,增强大模型在代表性不足语言中的单语能力,同时保留其通用性能。该方法利用语言激活概率熵(LAPE)识别语言特异性神经元,并仅对这些神经元相关的权重(一个专用子网络)在目标语言数据上进行微调。

2025_NIPS_Efficient Potential-based Exploration in Reinforcement Learning using Inverse Dynamic B...
该研究聚焦强化学习中的探索效率与策略不变性问题,针对传统基于势能的奖励塑造(PBRS)依赖人工设计、认知偏差明显,以及现有内在奖励探索方法依赖计数型项、可扩展性差等缺陷,提出了一种名为LIBERTY(expLorationvIaBisimulationmEtRic-basedsTatediscrepancY)的端到端探索框架。核心思路是利用逆动态互模拟度量。

2025_NIPS_Transformer-based Planning for Symbolic Regression
该研究聚焦于符号回归(SR)任务——即从数据中挖掘可解释的数学表达式,其核心挑战在于平衡模型拟合精度、复杂度与泛化能力,同时解决传统方法效率低或目标偏差的问题。背景与现有方法局限传统遗传编程(GP)类方法:需为每个数据集从头搜索,计算成本高、收敛慢,易过拟合。现有基于预训练Transformer的SR方法:利用大规模合成数据预训练,推理速度快,但依赖文本生成的token级交叉熵损失,忽视了符号回归核心的拟合精度、表达式复杂度等目标,导致生成结果次优。

2025_NIPS_Adjustable Robust Reinforcement Learning for Online 3D Bin Packing
设计在线3D装箱问题(3D-BPP)的有效策略是一项长期挑战,主要源于输入箱子序列的不可预测性和严格的物理约束。尽管当前基于深度强化学习(DRL)的在线3D-BPP方法在优化箱子序列分布下的平均性能方面取得了良好成果,但在某些最坏情况可能出现的现实场景中往往表现不佳。标准鲁棒DRL算法倾向于过度优先优化最坏情况性能,却以牺牲正常问题实例分布下的性能为代价。为解决这些问题,我们首先引入一种基于排列的攻击者,用于研究现有DRL基方法和启发式方法在在线3D-BPP中的实际鲁棒性。

2025_NIPS_Alternating Updates for Efficient Transformers
已有充分研究表明,深度Transformer网络的规模扩大能带来质量和性能的提升。然而,这种规模增长往往伴随着计算成本和推理延迟的激增。本文提出交替更新(AltUp)——一种易于实现的方法,可在不增加计算负担的前提下提升模型容量。AltUp能够加宽学习到的表示(即token嵌入),同时仅导致可忽略的延迟增加。其核心机制是在每层对加宽表示的一个子块进行操作,并通过“预测-修正”机制更新未激活的子块。

Human-Aligned Code Readability Assessment with Large Language Models
代码可读性在软件理解、维护和团队协作中起着关键作用,但大规模评估仍具挑战。传统静态指标(如行长度、嵌套深度)往往无法捕捉人类判断的主观性和上下文敏感性。大型语言模型(LLMs)提供了可扩展且可解释的替代方案,但其作为代码可读性评估工具的表现尚未得到充分探索和表征。本文提出CoReEval,首个用于评估基于LLM的代码可读性评估的大规模基准。

2025_NIPS_Large Language Models are Visual Reasoning Coordinators
视觉推理需要对世界的多模态感知和常识认知。近年来,已有多个视觉语言模型(VLMs)被提出,它们在不同领域具备出色的常识推理能力。然而,如何利用这些互补VLMs的集体力量尚未得到充分探索。现有方法(如集成学习)仍难以聚合这些模型并实现理想的高阶通信。在本文中,我们提出Cola——一种新型范式,通过协调多个VLMs完成视觉推理任务。核心洞见是:大型语言模型(LLM)可通过自然语言通信高效协调多个VLMs,充分利用它们独特且互补的能力。

欢迎留下您的脚印