Loading...

Presenting Large Language Models as Companions Affects What Mental Capacities People Attribute to...
公共话语中对大型语言模型(LLMs)的描述方式,会如何影响人们对这些模型的认知与互动方式?为解答这一问题,我们将470名参与者随机分配至三组——观看分别将LLMs描述为机器、工具或同伴的简短科普视频,或不观看任何视频。随后,我们评估了参与者对LLMs具备各类心智能力(如拥有意图、记忆事物等)的认可程度。结果显示,观看“同伴”视频的参与者,比其他组更倾向于认为LLMs完全具备这些能力。

Select-Then-Decompose: From Empirical Analysis to Adaptive Selection Strategy for Task Decomposit...
大型语言模型(LLMs)已展现出卓越的推理和规划能力,推动了任务分解领域的广泛研究。现有任务分解方法主要聚焦于记忆、工具使用和反馈机制,在特定领域取得了显著成功,但往往忽视了性能与成本之间的权衡。本研究首先对任务分解进行了全面调研,提出了6类分类方案。随后,我们对影响任务分解性能和成本的三个因素进行了实证分析:方法类型、任务特征以及分解与执行模型的配置,揭示了三大关键洞察并总结了一套实用原则。

Contextual Attention Modulation: Towards Efficient Multi-Task Adaptation in Large Language Models
大型语言模型(LLMs)具备卓越的泛化能力,但在多任务适应方面面临挑战,尤其是在平衡知识保留与任务特异性专精时。传统微调方法存在灾难性遗忘和大量资源消耗的问题,而现有参数高效方法在复杂多任务场景下表现欠佳。为解决这一问题,我们提出上下文注意力调制(CAM)机制,该机制能动态调制LLMs中自注意力模块的表示。CAM在保留通用知识的同时增强任务特异性特征,从而实现更有效、更高效的适应。

ParaVul: A Parallel Large Language Model and Retrieval-Augmented Framework for Smart Contract Vul...
智能合约在自动化区块链服务中发挥着重要作用。然而,智能合约中的漏洞对区块链安全构成了严重威胁。目前,传统检测方法主要依赖静态分析和形式化验证,这可能导致高误报率和较差的可扩展性。近年来,大语言模型(LLMs)在智能合约漏洞检测方面取得了显著进展,但仍面临推理成本高、计算开销大等挑战。本文提出了一种并行的LLM与检索增强框架ParaVul,以提升智能合约漏洞检测的可靠性和准确性。

Illusions of reflection: open-ended task reveals systematic failures in Large Language Models‘ re...
人类并非事后才发现错误——我们常常在过程中就察觉问题,因为“反思”与目标及其约束紧密相关。如今的大型语言模型能生成推理tokens和“反思性”文本,但这与人类的反思推理在功能上是否等价?以往基于封闭式任务的研究(具有明确的外部“正确性”信号)可能让“反思”显得有效,却掩盖了自我修正的局限性。因此,我们在一项简单的真实世界任务中测试了8个前沿模型,该任务虽为开放式但受规则约束,且有可审计的成功标准:生成有效的科学测试题目,然后在考虑自身批判后进行修订。首次尝试的表现较差(往往没有有效题目;

Enhanced Motion Forecasting with Plug-and-Play Multimodal Large Language Models
本文针对自动驾驶系统中运动预测模型在复杂真实场景下泛化能力不足的问题,提出了一种名为的即插即用方法。问题背景:传统自动驾驶模块化系统(感知、预测、规划等)在训练数据之外的长尾场景(如紧急车辆出现、特殊天气)中性能受限,而持续收集数据与重训模型的成本过高。MLLMs具备跨模态推理和泛化能力,可弥补这一缺陷。核心框架视觉语义分析器(VSA):通过多模态提示(图像+文本)从MLLM提取智能体(车辆、行人)级语义信息(如车辆类型、信号灯状态、行为意图、是否横穿马路等),输出结构化文本并转换为可学习嵌入;

Qomhra: A Bilingual Irish-English Large Language Model
背景与动机:爱尔兰语作为官方语言,在语言技术领域滞后于其他欧洲语言,缺乏高质量标注数据和成熟LLM。现有研究(如gaBERT、UCCIX)未覆盖指令微调与偏好对齐环节,无法直接用于聊天机器人开发。核心方法预训练:基于Qwen-3-8B模型,混合爱尔兰语(含UCCIX开源数据、国家语料库等)和英语(维基百科数据)语料进行双语CPT,避免灾难性遗忘;

SARSteer: Safeguarding Large Audio Language Models via Safe-Ablated Refusal Steering
大型音频语言模型(LALMs)正成为现实世界应用中强大的多模态骨干模型,变得愈发重要。然而,近期研究表明,与文本相比,音频输入更容易引发有害响应,给部署带来了新的风险。尽管大型语言模型(LLMs)和大型视觉语言模型(LVLMs)的安全对齐已取得初步进展,但我们发现,将这些方法直接适配到LALMs时面临两大关键局限:1)由于激活分布之间存在巨大差异,基于LLM的引导在音频输入下失效;2)基于提示的防御会对良性语音查询产生过度拒绝。

This is Going to Sound Crazy, But What If We Used Large Language Models to Boost Automatic Databa...
文章提出Booster框架,旨在解决现有数据库调优器(成本型、机器学习型、大语言模型型)难以适应环境变化(如工作负载漂移、跨模式迁移、硬件变更等)的问题。其核心逻辑是:将历史调优artifacts结构化為查询-配置(QConfig)对象,通过大语言模型(LLM)基于查询语义生成单查询候选配置(种子),再通过束搜索组合为整体配置,注入现有调优器以加速优化。实验基于PostgreSQL和OLAP工作负载验证,Booster可使调优器性能提升最高74%,优化时间缩短最高4.7倍。

StreamingThinker: Large Language Models Can Think While Reading
大语言模型(LLMs)在思维链(CoT)推理方面已展现出卓越能力。然而,当前的LLM推理范式仅在获取完整输入后才启动推理,这在动态场景中会引入不必要的延迟,并削弱对早期信息的注意力。受人类“边读边想”认知模式的启发,我们首次为LLMs设计了流式思维范式——推理按输入顺序展开,且在阅读完成后可进一步调整推理深度。我们通过StreamingThinker框架实例化该范式,该框架整合了流式CoT生成、流式约束训练和流式并行推理,使LLMs能够实现边读边想。

Explainability of Large Language Models: Opportunities and Challenges toward Generating Trustwort...
大型语言模型在自然语言处理的各类下游任务中展现出令人瞩目的性能。然而,语言模型如何预测下一个token并生成内容,人类通常难以理解。此外,这些模型在预测和推理过程中经常出现被称为“幻觉”的错误。这些问题凸显了深入理解和解读语言模型复杂内部运作机制及其预测输出生成过程的迫切需求。鉴于这一研究缺口,本文探究了基于Transformer的大型语言模型中的局部可解释性和机制可解释性,旨在增强此类模型的可信度。为此,本文致力于实现三大核心贡献:首先,综述了相关文献中关于局部可解释性和机制可解释性的方法与研究洞见;

From Local to Global: Revisiting Structured Pruning Paradigms for Large Language Models
结构化剪枝是高效部署大型语言模型(LLMs)的实用方法,因其能生成紧凑、硬件友好的架构。然而,主流的局部剪枝范式具有任务无关性:通过优化层-wise重构而非任务目标,该范式虽能保留困惑度或通用零样本性能,却无法利用适度的任务特定校准信号,往往导致下游任务增益有限。本文重新审视全局结构化剪枝,提出——一种后训练剪枝方法,通过基于一阶损失的重要性权重(经结构级块归一化聚合)移除注意力头和MLP通道。与单步剪枝不同,迭代调度策略在更高稀疏度下稳定准确率,缓解困惑度崩溃,且无需中间微调;

LLM Weekly(2026.6.15-2026.6.21)
Z.ai发布了GLM-5.2,这是一款基于MIT许可证的开放权重、以编程为先的模型,拥有100万token的上下文窗口,并基于DeepSeek稀疏注意力机制构建,适用于长周期智能体任务。VibeThinker-3B采用频谱到信号后训练、课程微调、多领域强化学习和离线自蒸馏,在AIME26上达到94.3分(扩展后97.1分),在LiveCodeBenchv6上达到80.2分,在未见过的LeetCode竞赛中达到96.1%,仅用3B参数就匹配了更大的旗舰模型。🔬有趣的论文和代码库。

Forget to Know, Remember to Use: Context-Aware Unlearning for Large Language Models
大型语言模型可能编码需要移除的敏感信息或过时知识,以确保模型响应的合规性和可靠性。遗忘技术已成为全量重训练的高效替代方案,其目标是移除特定知识的同时保留模型整体效用。现有遗忘方法的评估主要集中在:(1)对目标知识(遗忘集)的遗忘程度;(2)在保留集上的性能维持(即效用)。然而,这些评估忽略了一个重要的可用性维度:当被移除的信息通过提示词重新引入时,用户可能仍希望模型能利用该信息。在对6种最先进遗忘方法的系统评估中,我们发现它们均会显著损害这种上下文效用。

Forget to Know, Remember to Use: Context-Aware Unlearning for Large Language Models
背景与现有局限:LLM训练数据可能包含需移除的敏感/过时信息,全量重训练成本极高,遗忘技术成为高效替代方案。现有遗忘方法的评估仅关注“目标知识遗忘程度”和“保留集效用维持”,却忽略了上下文场景——用户可能在提示中重新提供已遗忘信息(如历史政策对比),此时模型应能正常利用该信息,但现有方法会显著削弱这种能力。实验验证局限。

Robobench: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models as Embodied ...
构建能够在动态、非结构化环境中感知、推理和行动的机器人仍是一项核心挑战。近年来的具身系统常采用双系统范式,其中系统2负责高层推理,系统1执行低层控制。在本研究中,我们将系统2称为“具身大脑”,强调其在操纵任务中作为推理与决策认知核心的作用。鉴于这一角色,对具身大脑的系统性评估对于推进机器人智能至关重要。然而,现有基准要么侧重于执行成功率,要么在针对高层推理时存在维度覆盖不完整、任务真实性有限的问题,仅能部分反映认知能力。

Mamba4Net: Distilled Hybrid Mamba Large Language Models For Networking
基于Transformer的大型语言模型(LLMs)正越来越多地被应用于网络研究中,以解决特定领域的挑战。然而,其二次时间复杂度和庞大的模型规模往往导致显著的计算开销和内存限制,在资源受限环境中尤为突出。本文借鉴Deepseek-R1模型在知识蒸馏范式下的高效性和性能优势,提出了一种新颖的跨架构蒸馏框架Mamba4Net。该框架将网络特定知识从基于Transformer的LLMs迁移到基于Mamba架构的学生模型中,后者具有线性时间复杂度。

Select-Then-Decompose: From Empirical Analysis to Adaptive Selection Strategy for Task Decomposit...
大型语言模型(LLMs)已展现出卓越的推理和规划能力,推动了任务分解相关的广泛研究。现有任务分解方法主要聚焦于记忆、工具使用和反馈机制,在特定领域取得了显著成功,但往往忽视了性能与成本之间的权衡。本研究首先对任务分解进行了全面调研,提出了6种分类方案。随后,我们对影响任务分解性能和成本的三个因素进行了实证分析:方法类别、任务特征以及分解与执行模型的配置,揭示了三个关键洞察并总结了一套实用原则。

Enhanced Motion Forecasting with Plug-and-Play Multimodal Large Language Models
本文针对自动驾驶系统中运动预测模型在复杂真实场景下泛化能力不足的问题,提出了一种名为的即插即用方法。问题背景:传统模块化自动驾驶系统依赖特定训练数据,在长尾罕见场景(如紧急车辆出现、极端天气)中泛化能力有限,且持续收集数据与模型迭代成本高昂。核心思路:利用自然语言对复杂场景的高效描述能力,通过提示工程从MLLMs中提取结构化的场景理解信息(包括智能体级语义与场景级特征),将其转化为可学习的嵌入向量,作为补充输入融入现有运动预测模型。核心组件视觉语义分析器(VSA)

StreamingThinker: Large Language Models Can Think While Reading
大语言模型(LLMs)在思维链(CoT)推理方面展现出卓越能力。然而,当前的LLM推理范式仅在获取完整输入后才启动推理,这会引入不必要的延迟,并在动态场景中削弱对早期信息的注意力。受人类“边读边想”认知模式的启发,我们首次为LLMs设计了流式推理范式——推理过程按输入顺序展开,且在阅读完成后可进一步调整推理深度。我们通过StreamingThinker框架实例化该范式,该框架整合流式CoT生成、流式约束训练和流式并行推理,让LLMs能够边读边想。

欢迎留下您的脚印