Loading...
多模态大语言模型(MLLMs)仍然容易受到可迁移对抗样本的攻击。现有方法通常通过对齐对抗样本与目标样本之间的全局特征(如CLIP的[CLS]令牌)来实现靶向攻击,但往往忽略了补丁令牌中编码的丰富局部信息。这导致对齐效果欠佳且迁移性有限,尤其对于闭源模型而言。为解决这一局限,我们提出一种基于特征最优对齐的靶向迁移对抗攻击方法,名为FOA-Attack,以提升对抗迁移能力。具体而言,在全局层面,我们引入基于余弦相似度的全局特征损失,使对抗样本的粗粒度特征与目标样本对齐;
2025_NIPS_Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL
大型语言模型(LLMs)在问答和对话等任务中表现出色,但谈判、说服等需要交互的复杂任务,要求模型具备额外的长期推理和规划能力。原则上,强化学习(RL)微调可赋予模型此类规划能力,但存在扩展性不足的缺陷:多轮RL训练会产生高昂的内存和计算成本,在训练LLM作为策略模型时该问题尤为突出;此外,最大规模的LLM并未提供此类训练所需的API。因此,当前提升LLM推理能力的主流方法依赖复杂的提示工程而非RL微调。
2025_NIPS_Table as a Modality for Large Language Models
为迁移大型语言模型(LLMs)的卓越成果,研究界已做出大量努力将其推广至表格推理任务,以适配广泛部署的表格数据。尽管如此,本研究通过在我们提出的StructQA基准数据集上进行探测实验发现,即使是最先进的LLMs(如GPT系列)仍难以妥善处理表格数据。具体而言,现有方案通常仅将表格数据及其元信息序列化后输入LLMs,我们认为结构信息的丢失是这一缺陷的根源。为此,我们提出TAMO框架,其核心思想是将表格视为与文本标记相融合的独立模态。
2025_NIPS_FP4 All the Way: Fully Quantized Training of LLMs
我们首次展示了大型语言模型(LLMs)的全量化训练(FQT),在高达1万亿token的数据集上,权重、激活值和梯度主要采用4位浮点数(FP4)精度。我们深入研究了FP4的关键设计选择,包括块大小、缩放格式和舍入方式。分析表明,NVFP4格式(每个包含16个FP4值的块(E2M1)共享一个以E4M3格式表示的缩放因子)能提供最优结果。我们在反向传播和更新过程中使用随机舍入,在前向传播中使用就近舍入,以提升训练稳定性。
2025_NIPS_Physics of Language Models: Part 4.1, Architecture Design and the Magic of Canon Layers
理解语言模型的架构差异具有挑战性,尤其是在学术规模的预训练中(例如1.3B参数、100Btokens),其结果往往受噪声和随机性主导。为解决这一问题,我们引入了受控的合成预训练任务,用于隔离和评估模型的核心能力。在该框架下,我们发现了Canon层:一种轻量级架构组件——命名灵感源自音乐术语“卡农”(canon)——能够促进相邻token间的水平信息流。Canon层计算相邻token表示的加权和,并可无缝集成到Transformer、线性注意力模型、状态空间模型或任何序列架构中。
2025_NIPS_Explainably Safe Reinforcement Learning
信任决策系统既需要安全保证,也需要解释和理解其行为的能力——这对于学习型系统尤为重要,因为这类系统的决策过程通常高度不透明。屏蔽(Shielding)是强化学习中保障安全性的主流模型驱动技术,但由于屏蔽器通过严格的形式化方法自动合成,其决策对人类而言同样难以解释。近年来,决策树已成为表示控制器和策略的常用工具,但由于屏蔽器本质上具有非确定性,其决策树表示往往过于庞大,无法实际用于解释。为应对这一挑战,我们提出一种新型可解释安全强化学习方法,通过提供人类可理解的屏蔽器决策解释来增强信任。
2025_NIPS_Q-Palette: Fractional-Bit Quantizers Toward Optimal Bit Allocation for Efficient LLM Deplo
本文聚焦大语言模型(LLM)的权重量化技术,提出Q-Palette(一套支持分数位宽的量化器套件)和融合感知混合方案量化(fusion-awareMSQ)框架,解决LLM权重分布不规则、量化误差与推理效率难以平衡的问题,实现无需重训练的高效部署(尤其适用于边缘设备等内存受限场景)。我们研究了仅权重训练后量化(PTQ)技术,该技术无需重训练即可量化大语言模型(LLM)的权重,且仅需少量或无需校准数据。
2025_NIPS_Steering When Necessary: Flexible Steering Large Language Models with Backtracking
该研究针对大型语言模型(LLMs)生成内容可能存在的误导性、不真实等问题,提出了一种带回溯的灵活激活引导(FASB)框架,核心目标是在推理阶段动态控制LLMs输出,使其符合真实、可靠等期望行为,同时避免微调带来的高昂成本。大型语言模型(LLMs)在众多生成任务中已取得显著性能,但有效使其与期望行为对齐仍是一项重大挑战。激活引导是一种高效且经济的方法,它在推理阶段直接修改LLMs的激活状态,使模型响应与期望行为对齐,同时避免了微调的高昂成本。
2025_NIPS_FlowerTune: A Cross-Domain Benchmark for Federated Fine-Tuning of Large Language Models
大型语言模型(LLMs)已在多个领域取得最先进成果,但其发展仍依赖海量公开数据,引发了数据稀缺以及难以获取领域特定敏感信息的担忧。联邦学习(FL)通过在不共享原始数据的前提下对预训练LLMs进行去中心化微调,为解决这些挑战提供了极具吸引力的框架。然而,预训练LLMs在联邦学习环境中的兼容性和性能仍未得到充分探索。
2025_NIPS_ı˙Finder: Structured Zero-Shot Vision-Based LLM Grounding for Dash-Cam Video Reasoning
将大型语言模型(LLM)应用于行车记录仪视频事后分析等特定领域任务面临挑战,这源于其通用目的训练特性以及缺乏结构化归纳偏置。由于此类分析通常仅能依赖视觉模态(即无激光雷达、全球定位系统等辅助传感器),现有基于视频的视觉语言模型(V-VLM)在输入视频的空间推理、因果推断和事件可解释性方面存在不足。为此,我们提出˙ıFinder,一种结构化语义接地框架,通过将行车记录仪视频转换为层级化、可解释的数据结构供LLM使用,实现感知与推理的解耦。
Monitoring Decomposition Attacks in LLMs with Lightweight Sequential Monitors
主要内容研究背景与问题现有大语言模型(LLM)的安全防御在“分解攻击”下失效——攻击者将恶意目标分解为多个看似良性的子任务,绕过模型的拒绝机制。传统防御仅检测即时提示中的显式危害,无法推理长程恶意意图。核心方法数据集构建:创建了首个涵盖问答(QA)、文本到图像(Text-to-Image)和智能体任务(Agent)的多场景分解攻击数据集,验证了分解攻击的普遍性(如GPT-4o平均攻击成功率87%)。轻量级顺序监测框架:通过累积评估对话历史中的子任务,检测隐藏的恶意意图。
Code Execution as Grounded Supervision for LLM Reasoning
本文聚焦于提升大语言模型(LLMs)的推理能力,针对现有思维链(CoT)监督数据获取成本高、可靠性不足的问题,提出了一种借助代码执行确定性来生成高质量CoT监督数据的可扩展方法。该方法先从开源Python程序中提取包含中间变量值、执行顺序等信息的代码执行轨迹,再利用LLM将这些原始轨迹翻译成自然语言形式的CoT推理过程。在多个推理基准(如MATH500、BBH、AGIEval等)上的实验表明,此方法能有效赋予LLMs跨任务的迁移推理能力。
GUARD: Guided Unlearning and Retention via Data Attribution for Large Language Models
LLM遗忘的重要性:随着LLM的广泛应用,隐私保护、法规合规和版权问题日益凸显,选择性删除敏感信息的“遗忘”技术成为关键。现有方法的局限性:传统LLM遗忘方法(如梯度上升)存在“意外遗忘”问题,即删除目标数据时会损害模型对保留数据的性能,且计算效率低、缺乏理论保证。在大型语言模型(LLMs)中,遗忘技术因法规合规、版权保护和隐私问题而变得愈发重要。然而,LLM遗忘的关键挑战在于“意外遗忘”,即删除特定数据时会无意损害模型效用及其对有价值信息的保留能力。
Evaluating Large Language Models on Non-Code Software Engineering Tasks
一、主要内容研究背景与目标大型语言模型(LLMs)在代码理解和生成任务中表现突出,但在非代码软件工程(SE)任务(如需求分析、问题分类、工作量估算等)中的效果尚未被充分探索。本文旨在建立首个全面的评估基准,系统分析LLMs在非代码SE任务中的表现。SELU基准的构建提出“软件工程语言理解”(SELU)基准,包含17个非代码任务,覆盖分类、回归、命名实体识别(NER)和掩码语言建模(MLM),数据来源包括代码仓库、问题跟踪系统和开发者论坛等。
Self-Adapting Language Models
本文提出了自适应性大型语言模型(Self-AdaptingLLMs,SEAL)框架,旨在解决传统大型语言模型(LLMs)静态化的问题——即无法根据新任务、知识或示例动态调整权重。SEAL的核心思想是让LLM通过生成“自我编辑(self-edits)”来实现自我适应,这些自我编辑是模型生成的自然语言指令,用于指定微调数据、优化超参数或调用工具进行数据增强,最终通过监督微调(SFT)实现模型权重的持续更新。大型语言模型(LLMs)功能强大但具有静态性,它们缺乏根据新任务、知识或示例调整自身权重的机制。
GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning
本文介绍了,这是一款由智谱AI与清华大学合作开发的视觉语言模型(VLM),旨在提升通用多模态推理能力。模型设计与训练框架基于视觉编码器(AIMv2Huge)、MLP适配器和大语言模型(GLM)构建,支持图像和视频的原生分辨率处理,并通过3D-RoPE增强时空理解。训练流程分为三阶段:预训练:使用大规模多模态数据(图像-文本对、学术语料、OCR数据等)构建强基础能力;监督微调(SFT):通过长链思维(CoT)数据标准化推理格式,为强化学习奠定基础;强化学习:提出带课程采样的强化学习(RLCS)
VALID-Mol: a Systematic Framework for Validated LLM-Assisted Molecular Design
大型语言模型(LLMs)在科学发现中展现出显著潜力,但在需要事实准确性和领域特定约束的领域(如药物发现中的分子设计)应用仍具挑战。LLMs虽能提出创造性的分子修饰方案,却常生成化学上无效或不实用的结构。本文提出VALID-Mol——一个整合化学验证与LLM驱动分子设计的系统框架,将有效化学结构的生成率从3%提升至83%。该方法结合系统化提示工程、自动化学验证和领域适配的微调LLM,确保生成具有优化性质且可合成的分子。除具体实现外,我们贡献了一种适用于科学约束型LLM应用的通用方法,可量化提升可靠性。
DesignCoder: Hierarchy-Aware and Self-Correcting UI Code Generation with Large Language Models
多模态大型语言模型(MLLMs)通过自动化代码生成简化了前端界面开发。然而,这些模型在保证代码质量方面仍面临挑战。现有方法难以在生成的组件中同时维持视觉一致性和功能完整性,且缺乏评估渲染页面保真度和正确性的机制。为解决这些问题,我们提出了DesignCoder——一种新型的层级感知且自校正的自动化代码生成框架。具体而言,我们引入了UI分组链(UIGroupingChains),以增强MLLMs对复杂嵌套UI层级的理解和预测能力。随后,DesignCoder采用层级分治策略生成前端代码。
LARGE LANGUAGE MODELS AS ‘HIDDEN PERSUADERS’: FAKE PRODUCT REVIEWS ARE INDISTINGUISHABLE TO HUMANS A
人类无法有效区分真假评论:人类区分真实评论与LLM生成的虚假评论的平均准确率仅为50.8%,接近随机水平;且存在“怀疑偏见”——对过于正面的评论持怀疑态度,却容易误判虚假负面评论的真实性。LLMs同样无法有效区分:最先进的LLMs在区分真假评论时表现与人类相当甚至更差,且存在“真实性偏见”——倾向于将大多数评论判定为真实,依赖表面文本特征(如长度、结构复杂度)而非深层真实性线索。人类与LLMs的判断策略差异:两者准确率相近,但精确率、召回率和F1分数不同,表明它们在判断的不同方面存在缺陷。
ENHANCING LARGE LANGUAGE MODELS WITH RELIABLE KNOWLEDGE GRAPHS
本文是香港理工大学QinggangZhang的博士论文,核心主题是通过优化和利用可靠的知识图谱(KG)来增强大型语言模型(LLMs)的性能。知识图谱错误检测:提出基于对比学习的结构感知方法(CAGED),通过生成多视图三元组表示识别错误事实,并结合实体属性构建属性感知框架(AEKE),融合结构和语义信号以修正错误。知识图谱补全:设计归纳补全模型(NORAN),通过逻辑推理和关系网络推断动态演化KG中缺失的关系,解决KG不完整性问题。LLM与KG整合。
