Loading...

Monitoring Decomposition Attacks in LLMs with Lightweight Sequential Monitors
主要内容研究背景与问题现有大语言模型(LLM)的安全防御在“分解攻击”下失效——攻击者将恶意目标分解为多个看似良性的子任务,绕过模型的拒绝机制。传统防御仅检测即时提示中的显式危害,无法推理长程恶意意图。核心方法数据集构建:创建了首个涵盖问答(QA)、文本到图像(Text-to-Image)和智能体任务(Agent)的多场景分解攻击数据集,验证了分解攻击的普遍性(如GPT-4o平均攻击成功率87%)。轻量级顺序监测框架:通过累积评估对话历史中的子任务,检测隐藏的恶意意图。

Code Execution as Grounded Supervision for LLM Reasoning
本文聚焦于提升大语言模型(LLMs)的推理能力,针对现有思维链(CoT)监督数据获取成本高、可靠性不足的问题,提出了一种借助代码执行确定性来生成高质量CoT监督数据的可扩展方法。该方法先从开源Python程序中提取包含中间变量值、执行顺序等信息的代码执行轨迹,再利用LLM将这些原始轨迹翻译成自然语言形式的CoT推理过程。在多个推理基准(如MATH500、BBH、AGIEval等)上的实验表明,此方法能有效赋予LLMs跨任务的迁移推理能力。

GUARD: Guided Unlearning and Retention via Data Attribution for Large Language Models
LLM遗忘的重要性:随着LLM的广泛应用,隐私保护、法规合规和版权问题日益凸显,选择性删除敏感信息的“遗忘”技术成为关键。现有方法的局限性:传统LLM遗忘方法(如梯度上升)存在“意外遗忘”问题,即删除目标数据时会损害模型对保留数据的性能,且计算效率低、缺乏理论保证。在大型语言模型(LLMs)中,遗忘技术因法规合规、版权保护和隐私问题而变得愈发重要。然而,LLM遗忘的关键挑战在于“意外遗忘”,即删除特定数据时会无意损害模型效用及其对有价值信息的保留能力。

Evaluating Large Language Models on Non-Code Software Engineering Tasks
一、主要内容研究背景与目标大型语言模型(LLMs)在代码理解和生成任务中表现突出,但在非代码软件工程(SE)任务(如需求分析、问题分类、工作量估算等)中的效果尚未被充分探索。本文旨在建立首个全面的评估基准,系统分析LLMs在非代码SE任务中的表现。SELU基准的构建提出“软件工程语言理解”(SELU)基准,包含17个非代码任务,覆盖分类、回归、命名实体识别(NER)和掩码语言建模(MLM),数据来源包括代码仓库、问题跟踪系统和开发者论坛等。

Self-Adapting Language Models
本文提出了自适应性大型语言模型(Self-AdaptingLLMs,SEAL)框架,旨在解决传统大型语言模型(LLMs)静态化的问题——即无法根据新任务、知识或示例动态调整权重。SEAL的核心思想是让LLM通过生成“自我编辑(self-edits)”来实现自我适应,这些自我编辑是模型生成的自然语言指令,用于指定微调数据、优化超参数或调用工具进行数据增强,最终通过监督微调(SFT)实现模型权重的持续更新。大型语言模型(LLMs)功能强大但具有静态性,它们缺乏根据新任务、知识或示例调整自身权重的机制。

GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning
本文介绍了,这是一款由智谱AI与清华大学合作开发的视觉语言模型(VLM),旨在提升通用多模态推理能力。模型设计与训练框架基于视觉编码器(AIMv2Huge)、MLP适配器和大语言模型(GLM)构建,支持图像和视频的原生分辨率处理,并通过3D-RoPE增强时空理解。训练流程分为三阶段:预训练:使用大规模多模态数据(图像-文本对、学术语料、OCR数据等)构建强基础能力;监督微调(SFT):通过长链思维(CoT)数据标准化推理格式,为强化学习奠定基础;强化学习:提出带课程采样的强化学习(RLCS)

VALID-Mol: a Systematic Framework for Validated LLM-Assisted Molecular Design
大型语言模型(LLMs)在科学发现中展现出显著潜力,但在需要事实准确性和领域特定约束的领域(如药物发现中的分子设计)应用仍具挑战。LLMs虽能提出创造性的分子修饰方案,却常生成化学上无效或不实用的结构。本文提出VALID-Mol——一个整合化学验证与LLM驱动分子设计的系统框架,将有效化学结构的生成率从3%提升至83%。该方法结合系统化提示工程、自动化学验证和领域适配的微调LLM,确保生成具有优化性质且可合成的分子。除具体实现外,我们贡献了一种适用于科学约束型LLM应用的通用方法,可量化提升可靠性。

DesignCoder: Hierarchy-Aware and Self-Correcting UI Code Generation with Large Language Models
多模态大型语言模型(MLLMs)通过自动化代码生成简化了前端界面开发。然而,这些模型在保证代码质量方面仍面临挑战。现有方法难以在生成的组件中同时维持视觉一致性和功能完整性,且缺乏评估渲染页面保真度和正确性的机制。为解决这些问题,我们提出了DesignCoder——一种新型的层级感知且自校正的自动化代码生成框架。具体而言,我们引入了UI分组链(UIGroupingChains),以增强MLLMs对复杂嵌套UI层级的理解和预测能力。随后,DesignCoder采用层级分治策略生成前端代码。

LARGE LANGUAGE MODELS AS ‘HIDDEN PERSUADERS’: FAKE PRODUCT REVIEWS ARE INDISTINGUISHABLE TO HUMANS A
人类无法有效区分真假评论:人类区分真实评论与LLM生成的虚假评论的平均准确率仅为50.8%,接近随机水平;且存在“怀疑偏见”——对过于正面的评论持怀疑态度,却容易误判虚假负面评论的真实性。LLMs同样无法有效区分:最先进的LLMs在区分真假评论时表现与人类相当甚至更差,且存在“真实性偏见”——倾向于将大多数评论判定为真实,依赖表面文本特征(如长度、结构复杂度)而非深层真实性线索。人类与LLMs的判断策略差异:两者准确率相近,但精确率、召回率和F1分数不同,表明它们在判断的不同方面存在缺陷。

ENHANCING LARGE LANGUAGE MODELS WITH RELIABLE KNOWLEDGE GRAPHS
本文是香港理工大学QinggangZhang的博士论文,核心主题是通过优化和利用可靠的知识图谱(KG)来增强大型语言模型(LLMs)的性能。知识图谱错误检测:提出基于对比学习的结构感知方法(CAGED),通过生成多视图三元组表示识别错误事实,并结合实体属性构建属性感知框架(AEKE),融合结构和语义信号以修正错误。知识图谱补全:设计归纳补全模型(NORAN),通过逻辑推理和关系网络推断动态演化KG中缺失的关系,解决KG不完整性问题。LLM与KG整合。

HealthQA-BR: A System-Wide Benchmark Reveals Critical Knowledge Gaps in Large Language Models
医疗领域大型语言模型(LLMs)的评估一直由以医生为中心的英语基准主导,这造成了一种危险的“能力幻觉”,忽视了患者护理的跨专业本质。为提供更全面、更贴近现实的评估,我们引入了HealthQA-BR——首个针对葡萄牙语医疗领域的大规模、系统级基准。该基准包含5,632个来自巴西国家执照考试和住院医师考试的问题,独特之处在于不仅评估医学及其亚专科知识,还涵盖护理、牙科、心理学、社会工作及其他相关健康职业的知识。我们对20多个主流LLMs进行了严格的零样本评估。

2025_NIPS_Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization
问题背景:现有统一视觉-语言模型虽在理解和生成任务中表现出色,但受限于缺乏细粒度监督数据和模态转换引导,难以生成文本与图像交错的多模态输出,无法满足复杂场景下的推理与交互需求。核心方案预热阶段(Warm-upStage):构建混合数据集(含少量精选交错文本-图像序列、多模态理解数据和文本到图像生成数据),激活模型潜在的交错生成能力,同时保留预训练的核心性能,避免灾难性遗忘。强化学习优化阶段:将分组相对策略优化(GRPO)扩展至多模态场景,提出统一策略优化框架,将文本和图像生成建模为单一解码轨迹;

Evaluating LLM Agent Collusion in Double Auctions
本文聚焦大型语言模型(LLM)代理在连续双重拍卖(CDA)市场中的合谋行为,通过控制实验系统分析了影响卖家合谋的关键因素,旨在为LLM代理在经济场景中的部署提供伦理和经济层面的参考。研究背景:随着LLM代理在电商、金融等领域的普及,其在市场交互中可能出现的合谋行为(如抑制竞争、操纵价格)对市场效率和公平性构成潜在威胁。现有研究多关注强化学习算法的合谋,而LLM的自然语言交互能力可能带来更复杂的合谋风险。研究问题卖家代理间的自然语言沟通是否会增强合谋倾向?不同LLM模型的合谋倾向是否存在差异?

EdgeLoRA: An Efficient Multi-Tenant LLM Serving System on Edge Devices
本文介绍了EdgeLoRA,这是一种针对资源受限边缘设备设计的高效多租户大语言模型(LLM)服务系统。该系统旨在解决边缘设备上部署微调LLM时面临的关键挑战,包括适配器选择复杂、内存开销大、多租户场景下计算效率低等问题。EdgeLoRA基于Llama3.1-8B等模型进行了全面评估,结果显示其在延迟、吞吐量和能效方面显著优于现有方案(如llama.cpp):吞吐量提升高达4倍,能耗更低,同时能支持数量级更多的适配器并行服务且不损失推理性能。

SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement
本文介绍了一种名为SPIRAL的自我对弈框架,旨在通过多智能体多轮强化学习提升语言模型(LLMs)的推理能力。核心思路是让模型在零和游戏中与不断进化的自身版本进行多轮对弈,无需人类标注数据或特定领域的奖励工程。核心机制零和游戏(如KuhnPoker、井字棋、简单谈判)提供了理想的训练环境,规则清晰、结果可验证,且需要战略思考和规划。通过自我对弈,模型生成无限的、难度递增的训练数据(自动课程),迫使模型持续适应更强的对手,避免过拟合到静态策略。技术实现。

LLM Weekly(2026.1.19-2026.1.25)
MCP并非问题根源,问题在你的服务器:搭建MCP服务器的最佳实践。高性能的MCP服务器会将该协议视为智能体的交互接口,而非简单的REST封装器:这类服务器会提供以结果为导向、扁平化且文档完善的工具,精简并清晰命名功能模块,对大容量结果进行分页处理,同时与技能插件形成互补——技能插件负责提供更高层级的工作流和指令,而非结构化的工具模式。该团队通过融合领域并行的专家训练、基于DORA的大规模异步强化学习、噪声感知的训练流程,以及新增的“深度思考模式”,全方位提升了模型的泛化能力、鲁棒性和推理阶段的表现。

Using multi-agent architecture to mitigate the risk of LLM hallucinations
本文聚焦于大型语言模型(LLMs)在客户服务场景中应用时的“幻觉”风险(即生成虚假信息),提出了一种基于多智能体架构结合模糊逻辑的系统,用于处理客户通过SMS发送的请求(如处方续药、服务调整等)。背景:LLMs能提升客户服务的个性化、效率和响应速度(如Comcast案例节省10%交互时间),但幻觉风险可能导致法律纠纷(如航空公司、保险公司因AI错误建议被追责),阻碍其广泛应用。

SafePTR : Token-Level Jailbreak Defense in Multimodal LLMs via Prune-then-Restore Mechanism
本文聚焦多模态大语言模型(MLLMs)的安全问题,针对其易受多模态越狱攻击的vulnerabilities,提出了一种名为SafePTR的防御框架。现有防御方法(如图文转换、安全提示词、多模态安全微调)存在缺陷:易受文本驱动的越狱攻击、过度防御导致效用下降、训练开销大且泛化能力弱。通过分析,作者发现MLLMs中仅早期-中期层中不到1%的有害token会引发不安全行为,这些token通过语义偏移(偏离安全对齐表示)绕过安全机制。

Efficient Out-of-Scope Detection in Dialogue Systems via Uncertainty-Driven LLM Routing
本文提出了一种名为UDRIL(Uncertainty-DrivenLLMRouting)的框架,用于任务导向对话系统(TODS)中的高效超出范围(OOS)意图检测。第一步:使用轻量级的DistilBERT作为范围内(INS)意图分类器,对用户输入进行初步意图预测,并通过不确定性评分函数(EC-NNK-Means)评估预测的不确定性;第二步。

2024_NIPS_LLMs Encode Harmfulness and Refusal Separately
大型语言模型(LLMs)经训练会拒绝有害指令,但它们是否真正理解伤害性本身,而非仅仅执行拒绝行为?以往研究表明,LLMs的拒绝行为可通过一维子空间(即拒绝方向)调控。本文识别出一个分析LLMs安全机制的新维度——伤害性,它在模型内部被编码为与拒绝行为分离的独立概念,且存在一个与拒绝方向截然不同的伤害性方向。因果证据显示,沿伤害性方向引导模型,会使其将无害指令解读为有害;而沿拒绝方向引导,则会直接引发拒绝响应,却不会改变模型对伤害性的判断。

欢迎留下您的脚印