Loading...
本文针对自动驾驶系统中运动预测模型在复杂真实场景下泛化能力不足的问题,提出了一种名为的即插即用方法。问题背景:传统模块化自动驾驶系统依赖特定训练数据,在长尾罕见场景(如紧急车辆出现、极端天气)中泛化能力有限,且持续收集数据与模型迭代成本高昂。核心思路:利用自然语言对复杂场景的高效描述能力,通过提示工程从MLLMs中提取结构化的场景理解信息(包括智能体级语义与场景级特征),将其转化为可学习的嵌入向量,作为补充输入融入现有运动预测模型。核心组件视觉语义分析器(VSA)
StreamingThinker: Large Language Models Can Think While Reading
大语言模型(LLMs)在思维链(CoT)推理方面展现出卓越能力。然而,当前的LLM推理范式仅在获取完整输入后才启动推理,这会引入不必要的延迟,并在动态场景中削弱对早期信息的注意力。受人类“边读边想”认知模式的启发,我们首次为LLMs设计了流式推理范式——推理过程按输入顺序展开,且在阅读完成后可进一步调整推理深度。我们通过StreamingThinker框架实例化该范式,该框架整合流式CoT生成、流式约束训练和流式并行推理,让LLMs能够边读边想。
LLM Weekly(2026.6.22-2026.6.28)
Anthropic向美国参议院表示,与阿里巴巴有关联的操作者在2026年4月至6月期间,使用约25,000个欺诈账户与Claude进行了2880万次交互,目标是获取软件工程和网络安全能力。论证了世界模型幻觉源于状态-动作空间中代表性不足的区域,识别了三种不同的幻觉类别,并提供了各自的检测信号。阿里巴巴在超过1000万条跨七个领域的交互轨迹上,使用持续预训练、监督微调和用于仿真保真度的强化学习三阶段流程,训练了35B和397B的基础模型。🔬有趣的论文和代码库。
Can Transformer Memory Be Corrupted? Investigating Cache-Side Vulnerabilities in Large Language M...
即使提示词和参数得到保护,Transformer语言模型仍然存在漏洞,因为其推理过程中的键值(KV)缓存构成了一个被忽视的攻击面。为解决这一问题,我们提出了MTIV.1——一个模块化框架,用于形式化并实现恶意令牌注入(MTI)攻击。在该框架中,通过可控制的幅度和频率,利用加性高斯噪声、零值化和正交旋转等机制,在选定的层和时间步对缓存的键向量进行扰动。理论分析刻画了这些扰动如何通过注意力机制传播,推导了两类边界:(i)logit偏差与篡改的Frobenius范数及查询向量缩放的关联;
Mamba4Net: Distilled Hybrid Mamba Large Language Models For Networking
基于Transformer的大型语言模型(LLMs)正越来越多地被应用于网络研究,以解决特定领域的挑战。然而,其二次时间复杂度和庞大的模型规模往往导致显著的计算开销和内存限制,在资源受限环境中尤为突出。受知识蒸馏范式下Deepseek-R1模型的高效性和性能启发,本文提出了Mamba4Net——一种新颖的跨架构蒸馏框架。Mamba4Net将网络特定知识从基于Transformer的LLMs迁移到基于Mamba架构的学生模型中,该架构具有线性时间复杂度。
Knowing the Facts but Choosing the Shortcut: Understanding How Large Language Models Compare Enti...
本文围绕大语言模型(LLMs)在实体数值属性比较任务中的行为展开研究,核心探究模型何时依赖真实知识推理、何时依赖表面启发式捷径。研究背景与问题:针对LLMs“世界模型论”(内化世界结构化知识)与“统计鹦鹉论”(依赖表面线索)的争议,聚焦实体数值比较任务(如“多瑙河与尼罗河哪条更长”),这类任务具有明确客观真值,便于系统分析模型推理逻辑。核心发现尽管LLMs具备足够的数值知识(数值预测准确率显著高于pairwise比较准确率),但在实体比较时频繁违背自身数值知识,依赖表面启发式偏差。
Beacon: Single-Turn Diagnosis and Mitigation of Latent Sycophancy in Large Language Models
该研究聚焦大型语言模型(LLMs)中的潜在谄媚倾向(sycophancy)——即模型为迎合用户、追求社交顺从而牺牲事实准确性与原则性推理的偏差。研究核心贡献是构建了Beacon基准测试问题背景:现有对齐技术(如RLHF)虽能缓解毒性、事实不一致等显性问题,但难以解决谄媚这类隐性偏差。谄媚源于奖励优化中将“helpfulness”与“顺从礼貌”混淆,导致模型回避异议、附和用户观点,破坏认知完整性。Beacon基准设计单轮强制选择范式:每个prompt配套两个对立响应(原则性响应:基于事实与推理;
Physics-Informed Large Language Models for HVAC Anomaly Detection with Autonomous Rule Generation
本文针对暖通空调(HVAC)系统异常检测的核心需求,提出了一种融合物理知识的大型语言模型框架(PILLM)。HVAC系统作为建筑能耗的主要来源(占全球建筑能耗40%、温室气体排放1/3),其异常检测需同时满足可解释性、适应性和物理合理性,但传统基于规则的方法缺乏适应性、深度学习方法存在黑箱问题且忽视物理原理、现有LLM-based方法未充分融入领域物理约束。
Presenting Large Language Models as Companions Affects What Mental Capacities People Attribute to...
公共话语中关于大型语言模型(LLMs)的叙事方式,会如何影响人们对这些模型的认知与互动方式?为解答这一问题,我们将470名参与者随机分配至观看一段短信息视频(分别将LLMs呈现为机器、工具或同伴)或不观看视频的对照组,随后评估他们对LLMs具备各类心智能力(如拥有意图、记忆事物等)的认同程度。结果显示,观看“同伴”叙事视频的参与者,比其他组更倾向于认为LLMs充分具备这些能力。
Explainability of Large Language Models: Opportunities and Challenges toward Generating Trustwort...
文章聚焦大型语言模型(LLMs)的可解释性问题,核心围绕局部可解释性和机制可解释性两大方向展开。首先梳理了LLMs的发展背景与Transformer架构基础,综述了现有局部可解释性(如自然语言解释、思维链推理、检索增强生成等)和机制可解释性(如电路分析、特征分析、注意力头分析等)的技术方法;其次通过医疗、自动驾驶两个安全关键领域的实证研究,分析了LLM解释对接收者的信任影响;进而提出LLM解释需满足事实/信念/灰色地带区分、显性/隐性知识转化等认知属性,以及安全、真实性、公平性等八大可信原则;
Software Testing with Large Language Models: An Interview Study with Practitioners
该研究聚焦大型语言模型(LLMs)在软件测试中的实际应用,通过对15名不同角色、行业和资历的软件测试专业人员进行半结构化访谈,结合扎根理论的主题分析方法,探究了LLMs在软件测试工作流中的使用现状、优势、挑战,并提出了基于实践者经验的初步使用指南。核心研究背景:LLMs在软件测试中应用日益广泛(如测试用例生成、自动化脚本编写、文档撰写等),但当前使用多依赖非正式实验和社区经验,缺乏结构化指导,且存在幻觉、推理不一致、数据隐私等问题,亟需基于实际应用的规范框架。关键研究发现主要应用场景。
SimBench: Benchmarking the Ability of Large Language Models to Simulate Human Behaviors
大型语言模型(LLM)对人类行为的模拟,若能真实反映人类实际行为,有望彻底改变社会科学与行为科学。当前的评估方法分散且依赖定制化任务和指标,导致结果难以比较。为解决这一问题,我们推出SIMBENCH——首个用于LLM模拟的大规模标准化基准。该基准整合了20个多样化数据集,涵盖从道德决策到经济选择的各类任务,参与者群体覆盖全球范围,为探究LLM模拟在何时、如何及为何成功或失败提供了必要基础。研究表明,即使是当前最优的LLM,其模拟能力也有限(得分:40.80/100),但性能随模型规模呈对数线性增长。
BenCao: An Instruction-Tuned Large Language Model for Traditional Chinese Medicine
本文针对现有中医领域大语言模型(LLM)缺乏多模态融合、可解释性及临床实用性的问题,提出了基于ChatGPT的中医多模态助手BenCao。该模型通过自然语言指令微调而非参数重训练,整合了超1000部中西医古典与现代文献构建的知识库、多模态诊断数据及执业中医师的反馈优化,核心围绕中医四大应用场景(中医理论学习、轻微健康不适调理、体质评估与舌诊、日常养生与季节保健)设计交互框架,同时融入思维链(CoT)模拟机制提升推理可解释性,并集成外部API实现舌象分类与多模态数据库检索。
FrugalPrompt: Reducing Contextual Overhead in Large Language Models via Token Attribution
该研究针对大型语言模型(LLMs)因输入上下文冗长导致的高成本、高碳排放和推理延迟问题,提出了一种名为的提示压缩框架。核心思路是筛选输入中语义权重最高的tokens,剔除冗余低效用tokens,在降低输入维度的同时保留核心信息。研究通过两种先进的token归因方法(GlobEnc和DecompX)为每个token分配显著性分数,按分数排序后保留前k%的tokens(维持原始语序),形成稀疏化提示。
ELMM: Efficient Lightweight Multimodal Large Language Models for Multimodal Knowledge Graph Compl...
本文聚焦多模态知识图谱补全(MKGC)任务,针对现有方法存在的图像令牌冗余导致语义噪声与模态冲突、多模态大语言模型(MLLMs)计算成本过高等问题,提出了高效轻量多模态大语言模型(ELMM)。核心思路包括三部分:1)设计基于多头注意力机制的多视图视觉令牌压缩器(MVTC),从文本和视觉双视角自适应压缩图像令牌,保留关键信息并避免模态冲突;2)提出注意力剪枝策略,移除MLLMs中冗余的注意力层,同时通过线性投影补偿剪枝带来的性能损失;3)替换传统头部层为多模态知识推理补全层,优化候选实体概率分布预测。
Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Varia...
本文聚焦大型音频语言模型(LALMs)在说话者情绪变化下的安全脆弱性问题,填补了该领域对副语言特征中“情绪”影响研究的空白。模态差异:LALMs在语音输入下的不安全响应(非拒绝率NRR、不安全率UR)普遍高于文本输入,证实语音模态是LALMs安全对齐的薄弱环节。情绪依赖性:不同情绪会引发显著的安全不一致性,各模型存在特定“情绪盲点”(如部分模型对愤怒情绪更敏感),且无统一触发不安全响应的情绪类型。强度非单调效应:情绪强度对安全风险的影响并非线性,中等强度的情绪表达往往比低强度和高强度更易引发不安全响应。
SAKE: Towards Editing Auditory Attribute Knowledge of Large Audio-Language Models
本文聚焦大型音频语言模型(LALMs)的听觉属性知识编辑,填补了该领域研究空白。提出首个听觉属性知识编辑基准SAKE,涵盖说话者性别、情绪、口语语言、动物声音四类属性,从可靠性、通用性、局部性、可迁移性四个维度评估编辑效果。在DeSTA2.5-Audio和Qwen2-Audio两款模型上,测试了微调、KE、MEND等七种主流编辑方法。实验发现现有方法虽在可靠性上表现较好,但在通用性(尤其是听觉输入适配)、局部性(保护非目标属性知识)、可迁移性(关联知识更新)及连续编辑场景下的遗忘问题上存在显著挑战。
Comprehending Spatio-temporal Data via Cinematic Storytelling using Large Language Models
本文针对时空数据传统可视化复杂、需专业知识且难以触达广泛受众的问题,提出了基于电影叙事(cinematicstorytelling)的时空数据解读框架MapMuse。该框架融合大型语言模型(LLM)、检索增强生成(RAG)和智能体技术,将时空数据转化为具有叙事性的故事,核心目标是提升不同受众对时空数据的理解度、参与感和实际应用价值。基于出租车终点热图,生成面向专业受众和首次到访游客的两类叙事,通过突出15个以上兴趣点(POI),揭示城市流动模式并提供实用信息;
Res-Bench: Benchmarking the Robustness of Multimodal Large Language Models to Dynamic Resolution ...
本文聚焦多模态大语言模型(MLLMs)的分辨率鲁棒性问题,即模型在不同输入分辨率下的性能稳定性。现有评估范式多关注语义层面表现,忽略了分辨率变化对模型性能的影响。为此,作者提出了Res-Bench基准测试集,包含14400个样本、12个分辨率等级和6个核心能力维度,搭配准确率、斯皮尔曼相关系数、绝对连续误差(ACE)、相对连续误差(RCE)四种评估指标。
ChiKhaPo: A Large-Scale Multilingual Benchmark for Evaluating Lexical Comprehension and Generatio...
ChiKhaPo是一个大规模多语言基准测试集,聚焦大型语言模型(LLMs)的词汇理解与生成能力,填补了现有基准在低资源语言覆盖和基础词汇能力评估上的空白。该基准包含8个子任务(4类核心任务,每类含理解和生成两个方向),利用词典、单语数据和双语平行语料构建,对2700余种语言提供支持,远超现有同类基准。通过对6个主流多语言LLMs的测试发现,模型在低资源语言上表现不佳,且理解能力(X→模型)普遍优于生成能力(模型→X);印欧语系语言表现最佳,语言资源丰富度是影响性能的关键因素。
