Loading...

Stable but Miscalibrated: A Kantian View on Overconfidence from Filters to Large Language Models
稳定但校准偏差:从滤波器到大型语言模型的康德式过度自信视角作者:AkiraOkutomi(爱沙尼亚塔林ToppyMicroServicesOÜ)本文将康德《纯粹理性批判》重新诠释为一种反馈稳定性理论,将理性视为一种调节器,确保推理始终处于可能经验的边界之内。我们通过一个复合不稳定性指标(H-Risk)将这一直觉形式化,该指标整合了谱裕度、条件数、时间敏感性和创新放大率四大维度。在线性高斯模拟中,即使在形式稳定性的前提下,更高的H-Risk仍能预测过度自信误差,揭示了名义稳定性与认知稳定性之间的差距。

LongCat-Audio-Codec: An Audio Tokenizer and Detokenizer Solution Designed for Speech Large Langua...
本文提出了,一种专为工业级端到端语音大语言模型(SpeechLLM)设计的音频编码-解码方案,核心目标是平衡编码效率与解码质量,同时满足低延迟流式合成需求。

Controllable Abstraction in Summary Generation for Large Language Models via Prompt Engineering
该研究针对大型语言模型(LLMs)摘要生成中存在的质量与可控性不足问题,提出了一种基于提示工程的可控抽象摘要生成方法。核心围绕多阶段提示生成框架展开,通过对输入文本进行语义分析、主题建模和噪声控制,实现不同抽象层级的摘要生成。提示长度存在最优区间(30-40个token),过短或过长都会导致摘要质量下降;数据噪声与摘要质量呈负相关,噪声水平升高会使ROUGE-L分数逐步降低;模型对不同文本类型适应性差异显著,处理新闻文本效果最佳,学术文章处理效果相对较差。

K-Merge: Online Continual Merging of Adapters for On-device Large Language Models
设备端大语言模型(LLM)的部署通常利用低秩适配器(LoRA),在严格的资源约束下支持多样化的下游任务。为解决移动设备存储容量有限的问题,近期研究探索了模型融合技术,将多个LoRA融合为单个适配器。然而在实际应用中,随着用户请求新任务支持(如新型问题类型或语言),LoRA往往是增量交付的。这种场景带来了一个新挑战:设备端在线持续融合——目标是在整合新LoRA的同时,保留对先前支持任务的性能。本文提出了一种无数据且计算高效的策略,用于在新LoRA可用时选择并融合适配器,假设设备仅能存储有限数量的适配器。

2025_NIPS_Multi-Agent Meta-Reinforcement Learning: Sharper Convergence Rates with Task Similarity
多智能体强化学习(MARL)主要聚焦于孤立解决单个任务,而在实际场景中,环境往往是动态演化的,需要处理大量相关任务。本文研究了元学习在联合解决多个MARL任务时的优势,首次为广泛的基础MARL场景建立了元学习的理论结果,包括双人零和马尔可夫博弈和马尔可夫势博弈中的纳什均衡学习,以及一般和马尔可夫博弈中的粗相关均衡学习。在自然的任务相似性定义下,我们证明:与孤立学习每个任务相比,元学习能以可证明的更优收敛速率逼近各类博弈论解概念。作为重要的中间步骤,我们提出了多种具有初始化依赖收敛保证的MARL算法。

2025_NIPS_Efficient Diffusion Policies For Offline Reinforcement Learning
该研究聚焦离线强化学习(OfflineRL)中的策略参数化问题,针对现有扩散模型策略(如Diffusion-QL)存在的计算效率低下、与极大似然类RL算法不兼容的核心缺陷,提出了高效扩散策略(EDP)。核心背景:离线强化学习需从离线数据集学习最优策略,但传统策略(如对角高斯分布)难以拟合复杂多模态数据分布;Diffusion-QL引入扩散模型提升了性能,却因依赖长马尔可夫链采样导致训练耗时(达5天),且无法适配需tractable对数似然的策略梯度算法(如IQL、CRR)。EDP核心设计。

2025_NIPS_Instructing Goal-Conditioned Reinforcement Learning Agents with Temporal Logic Objectives
目标条件强化学习(RL)是一种通过达成多样化目标来学习通用技能的强大方法。然而,当目标由以线性时序逻辑(LTL)形式语言编写的时序扩展指令指定时,它在任务条件策略方面存在局限性。现有寻找满足LTL规范的策略的方法,依赖于在训练期间采样大量LTL指令,以适应推理时未见过的任务。但这些方法无法保证对分布外的LTL目标具有泛化能力,而这些分布外目标的复杂度可能更高。在本文中,我们提出一种新方法来应对这一挑战。我们表明,无需在LTL任务空间上进行额外训练,简单的目标条件RL智能体就能被指导遵循任意LTL规范。

2025_NIPS_No-Regret Online Reinforcement Learning with Adversarial Losses and Transitions
本文聚焦对抗性马尔可夫决策过程(MDPs)的在线强化学习问题,解决了现有算法无法同时处理对抗性损失和对抗性转移的局限。现有算法在转移函数固定时能达到OTOT​遗憾界,但对抗性转移会导致无遗憾学习不可行。本文提出系列算法,让遗憾界随转移恶意程度CPC^PCP平滑增长,同时适配更简单的环境。现有对抗性马尔可夫决策过程(MDPs)的在线学习算法,即使损失函数由对手任意选择,在TTT轮交互后仍能达到OTOT​的遗憾界,但前提是转移函数必须固定。

2025_NIPS_De novo Drug Design using Reinforcement Learning with Multiple GPT Agents
从头药物设计是药理学中的关键问题,也是人工智能在科学研究领域的新焦点。该领域的核心挑战在于生成具有特定属性的分子,同时产出多样化的候选化合物。尽管Transformer模型和强化学习等先进技术已应用于药物设计,但它们的潜力尚未完全发挥。因此,我们提出了MolRL-MGPT——一种基于多GPT智能体的强化学习算法,用于药物分子生成。为提升分子多样性,我们鼓励多个智能体协作,在不同方向上搜索目标分子。该算法在GuacaMol基准测试中取得了良好结果,并在设计SARS-CoV-2蛋白靶点抑制剂方面展现出有效性。

Capabilities and Evaluation Biases of Large Language Models in Classical Chinese Poetry Generatio...
大型语言模型(LLMs)正日益应用于创意领域,但它们在古典中文诗歌生成与评估中的表现仍鲜为人知。本文提出一种三步评估框架,整合计算指标、LLM作为评判者的评估与人类专家验证。利用该框架,我们从主题、情感、意象、格式和风格等多个诗歌质量维度,对6个最先进的LLM进行评估。分析结果揭示了系统性的生成偏差与评估偏差:LLM在评估创意质量时存在“回音室效应”,往往会收敛于与人类判断相悖的有缺陷标准。

Outraged AI: Large language models prioritise emotion over cost in fairness enforcement
情绪指导人类决策,但大型语言模型(LLMs)是否以类似方式利用情绪仍不明确。我们通过利他第三方惩罚任务对此进行了测试——观察者为维护公平而承担个人成本,这是人类道德的标志性特征,且常由负面情绪驱动。在对4068个LLM智能体与1159名成年人的796100次决策进行大规模对比后发现:LLM会利用情绪指导惩罚行为,有时甚至比人类更强烈——不公平会引发更强的负面情绪,进而导致更多惩罚;惩罚不公平分配比接受分配产生更积极的情绪;关键的是,促使LLM自我报告情绪会因果性地增加其惩罚行为。

SoK: Taxonomy and Evaluation of Prompt Security in Large Language Models
大语言模型(LLMs)已迅速成为现实世界应用的核心组成部分,为多个领域提供服务支撑。然而,其广泛部署暴露了关键安全风险,尤其是越狱提示词(jailbreakprompts)可绕过模型对齐机制,诱导产生有害输出。尽管针对攻击与防御技术的研究日益增多,但该领域仍处于碎片化状态:定义、威胁模型和评估标准差异显著,阻碍了系统性进展与公平对比。在本系统性研究(SoK)中,我们通过以下方式应对这些挑战:(1)提出一套全面的多层次分类体系,对LLM提示词安全领域的攻击、防御及漏洞进行系统化梳理;

Selecting and Combining Large Language Models for Scalable Code Clone Detection
源代码克隆会带来从知识产权侵权到意外漏洞等一系列风险。高效且可扩展的克隆检测(尤其是针对变异克隆)仍然面临挑战。近年来,大型语言模型(LLMs)已被应用于克隆检测任务。然而,LLMs的快速涌现引发了关于最优模型选择和潜在集成有效性的问题。本文通过识别76个LLMs并筛选出适用于大规模克隆检测的候选模型,解决了第一个问题。候选模型在两个公开工业数据集(BigCloneBench)和一个商业大规模数据集上进行了评估。

EditMark: Watermarking Large Language Models based on Model Editing
大型语言模型(LLMs)已展现出卓越的能力,但其训练需要大量数据和计算资源,使其成为宝贵的数字资产。因此,为LLMs添加水印以保护其版权、追踪未授权使用或转售行为至关重要。现有LLM水印方法主要依赖带水印的数据集训练模型,这不仅带来高昂的训练成本,还会对LLM的性能产生负面影响。此外,这些方法生成的水印文本缺乏逻辑性和自然性,降低了水印的隐蔽性。为解决这些问题,我们提出了EditMark——首个利用模型编辑为LLMs嵌入无训练、高隐蔽性、无性能损失水印的方法。

Risk-adaptive Activation Steering for Safe Multimodal Large Language Models
现代人工智能模型的核心挑战之一是确保其对良性查询提供有用响应,同时拒绝恶意查询。但这些模型往往容易受到图像中嵌入恶意意图的多模态查询的攻击。安全对齐的一种方法是使用大规模安全数据集进行训练,但这在数据集构建和训练过程中都会产生高昂成本。推理时对齐方法虽能降低这些成本,却存在两个缺陷:误分类良性查询导致的过度拒绝,以及迭代输出调整带来的推理速度下降。为克服这些局限,我们提出对查询进行重构,以强化模型对安全关键图像区域的跨模态注意力,从而实现查询级别的准确风险评估。

2025_NIPS_OFCOURSE: A Multi-Agent Reinforcement Learning Environment for Order Fulfillment
本文针对全球电子商务增长背景下订单履行(从下单到配送全流程)的高效低成本需求,聚焦其多阶段、决策interdependent(相互依赖)、信息动态揭示的核心挑战,提出了基于多智能体强化学习(MARL)的一体化解决方案,并设计了对应的仿真环境OFCOURSE。问题背景:订单履行涉及订单处理、打包提货、仓储、订单合并、最后一公里配送等多个相互关联的决策阶段,传统研究多单独解决各子问题,易导致全局次优;且缺乏标准化仿真环境支持全流程MARL研究。核心方法。

2025_NIPS_Robust Knowledge Transfer in Tiered Reinforcement Learning
本文研究分层强化学习(TieredReinforcementLearning)框架,这是一种并行迁移学习架构,其目标是在并行求解低层级(源)任务与高层级(目标)任务的同时,将源任务的知识迁移至目标任务,以降低目标任务的探索风险。与现有研究不同,我们不预设低层级与高层级任务具有相同的动力学或奖励函数,而是聚焦于无任务相似性先验知识下的鲁棒知识迁移问题。我们为目标实现识别出一个自然且必要的条件,称为“最优价值优势(OptimalValueDominance)”。

STABLE: Gated Continual Learning for Large Language Models
该研究针对大型语言模型(LLMs)持续学习中存在的灾难性遗忘问题(即新增知识更新会破坏已有知识),提出了名为STABLE的门控持续自编辑框架。核心思路是基于低秩适配(LoRA)的参数高效微调(PEFT),通过门控机制约束模型更新,在保留适配能力的同时避免遗忘。核心问题:LLMs部署后需增量更新(如融入新事实、领域术语),但无约束的顺序更新会导致灾难性遗忘,降低模型可靠性。框架设计每个LoRA编辑候选需通过门控评估,门控基于用户选择的三种指标之一与预设预算对比;

MalCVE: Malware Detection and CVE Association Using Large Language Models
恶意软件攻击正产生日益显著的经济影响。商业恶意软件检测软件成本高昂,而将恶意软件与其利用的特定软件漏洞相关联的工具则严重匮乏。理解恶意软件与目标漏洞之间的关联,对于分析过往威胁和主动防御当前威胁至关重要。本研究提出一种利用大型语言模型(LLMs)检测JAR文件中二进制恶意软件的方法,并结合检索增强生成(RAG)技术,识别恶意软件可能利用的常见漏洞与暴露(CVEs)。

Evaluating Arabic Large Language Models: A Survey of Benchmarks, Methods, and Gaps
本综述首次对阿拉伯语大型语言模型(LLM)评估基准进行系统性梳理,分析了40余个覆盖自然语言处理(NLP)任务、知识领域、文化理解及专项能力的评估基准。我们提出一种分类体系,将基准划分为四大类别:知识类、自然语言处理任务类、文化与方言类及目标特定类。分析表明,基准多样性已取得显著进展,但仍存在关键缺口:时序评估有限、多轮对话评估不足,以及翻译数据集存在文化错位问题。我们探讨了三种主要数据收集方法——原生收集、翻译与合成生成,并讨论了它们在真实性、规模与成本方面的权衡。

欢迎留下您的脚印