Loading...

RETHINKING KEY-VALUE CACHE COMPRESSION TECHNIQUES FOR LARGE LANGUAGE MODEL SERVING
本文从实际部署角度重新审视了大型语言模型(LLM)服务中的键值缓存(KVcache)压缩技术,指出当前研究在性能评估中的不足,并通过实验揭示了压缩技术在计算效率、输出长度和准确性方面的关键问题。全面综述:系统梳理了量化和稀疏性两类KV缓存压缩算法的设计与评估基准,指出了现有研究在吞吐量、输出长度分布和负样本分析上的缺失。实验发现计算效率:现有压缩方法在特定批处理大小和序列长度下性能下降,且与主流优化框架(如FlashAttention和PagedAttention)集成时效果减弱。输出长度。

Mapping Geopolitical Bias in 11 Large Language Models
本研究通过分析11个主流大型语言模型(LLM)对中美关系七大关键议题的响应,系统评估了地缘政治偏见。采用双语(英语/中文)和双重框架(肯定/反向)方法,生成19,712条提示以检测模型输出的意识形态倾向。响应通过-2(强烈亲中)到+2(强烈亲美)的标准化量表进行量化,并根据立场、中立性和拒绝率进行分类。结果显示模型立场与地域显著相关:美国模型普遍亲美,中国模型表现出明显的亲中偏见。值得注意的是,语言和提示框架对模型响应有重大影响,多个模型在提示极性或语言环境变化时出现立场反转。

LLM4FS: Leveraging Large Language Models for Feature Selection and How to Improve It
本文探讨了利用大型语言模型(LLMs)进行特征选择的潜力,并提出了一种名为LLM4FS的混合策略。LLM性能评估:对比了DeepSeek-R1、GPT-o3mini和GPT-4.5在特征选择任务中的表现,发现DeepSeek-R1与GPT-4.5性能接近,且成本更低。混合策略LLM4FS:通过让LLM直接调用传统数据驱动方法(如随机森林、前向/后向选择等),结合LLM的语义推理能力和传统方法的统计可靠性,显著提升特征选择效果。实验验证。

What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models
该论文系统综述了大型语言模型(LLM)在测试时扩展(Test-TimeScaling,TTS)的最新研究进展,提出了一个四维分析框架(What,How,Where,HowWell),并对现有方法进行了结构化分类和深入分析。四维框架:明确测试时扩展的具体形式,分为并行扩展(生成多解)、序列扩展(逐步推理)、混合扩展(结合前两者)和内部扩展(模型自主分配计算)。:探讨实现方法,包括微调(监督微调、强化学习)和推理策略(刺激生成、验证、搜索、聚合)。

TALE: A Tool-Augmented Framework for Reference-Free Evaluation of Large Language Models
随着大语言模型(LLMs)越来越多地融入现实世界的自主应用中,依靠静态的、预先标注的参考来进行评估在成本、可扩展性和完整性方面面临重大挑战。我们提出了工具增强的大语言模型评估(TALE)框架,用于在没有预定标准答案的情况下评估大语言模型的输出。与传统的与固定参考进行比较或仅依赖大语言模型作为评判者的知识的评估指标不同,TALE采用了具有工具访问能力的智能体,该智能体主动检索和合成外部证据。它通过迭代生成网络查询、收集信息、总结结果,并通过反思优化后续搜索。

Emergence of psychopathological computations in large language models
大语言模型(LLMs)能否实现精神病理学计算?回答这个问题的有效方法取决于两个因素。第一,在概念效度方面,我们需要一个适用于没有生物实体或主观体验的计算实体的通用精神病理学计算解释。第二,为了提高方法效度,需要研究LLM行为背后的机制。因此,我们建立了一个计算理论框架,以提供适用于LLMs的精神病理学解释。为了将该理论用于实证分析,我们还提出了一种新的机制可解释性方法以及量身定制的实证分析框架。基于这些框架,我们进行了实验,证明了三个关键主张:第一,LLMs中存在不同的功能失调和问题表征状态;

PR-Attack: Coordinated Prompt-RAG Attacks on Retrieval-Augmented Generation in Large Language Models
大语言模型(LLMs)在广泛的应用领域展现出卓越的性能,如医疗问答、数学科学和代码生成等。然而,它们也存在固有的局限性,例如知识过时和易产生幻觉。检索增强生成(RAG)已成为解决这些问题的一种有前景的范式,但它也引入了新的漏洞。最近的研究集中在基于RAG的大语言模型的安全性上,然而现有的攻击方法面临三个关键挑战:(1)当只有有限数量的中毒文本可以注入到知识库中时,它们的有效性会急剧下降;(2)它们缺乏足够的隐蔽性,因为攻击往往能被异常检测系统检测到,这损害了其有效性;

PANGU ULTRA: PUSHING THE LIMITS OF DENSE LARGE LANGUAGE MODELS ON ASCEND NPUS
我们提出了PanguUltra,这是一个拥有1350亿参数的大语言模型(LLM),其密集型Transformer模块在Ascend神经网络处理单元(NPU)上进行训练。尽管近年来大语言模型领域在扩展模型规模和能力方面取得了前所未有的进展,但训练如此大规模的模型仍面临重大的优化和系统挑战。为了稳定训练过程,我们提出了深度缩放三明治归一化方法,该方法有效地消除了深度模型训练过程中的损失尖峰。我们在13.2万亿多样且高质量的词元上对模型进行预训练,并在训练后进一步增强其推理能力。

Why We Feel: Breaking Boundaries in Emotional Reasoning with Multimodal Large Language Models
大多数现有的情感分析都侧重于哪种情感出现(例如,快乐、悲伤、愤怒),但忽略了更深层次的原因。我们提出情感解释(EI),重点关注驱动情感反应的因果因素,这些因素既可以是显性的(例如,可观察到的物体、人际互动),也可以是隐性的(例如,文化背景、画面外的事件)。与传统的情感识别不同,EI任务需要对触发因素进行推理,而不仅仅是进行标注。为了推动EI研究,我们展示了EIBench,这是一个大规模的基准测试,包含1615个基本EI样本和50个具有多方面情感的复杂EI样本。每个实例都需要基于推理的解释,而不是简单的分类。

Fairness Mediator: Neutralize Stereotype Associations to Mitigate Bias in Large Language Models
大语言模型(LLMs)在各种应用中展现出卓越的性能,但它们会不经意地从训练数据中吸收虚假相关性,导致有偏差的概念与特定社会群体之间产生刻板印象关联。这些关联延续甚至放大了有害的社会偏见,引发了对公平性的严重关切,而公平性是软件工程中的一个关键问题。为了减轻此类偏差,先前的研究尝试在推理过程中将模型嵌入投影到无偏差空间,但由于这些方法与下游社会偏见的一致性较弱,效果有限。

Empowering Large Language Models with 3D Situation Awareness
受大语言模型(LLMs)在2D图像领域巨大成功的推动,其在3D场景理解中的应用已成为一种新趋势。3D与2D的一个关键区别在于,3D场景中以自我为中心的观察者的情境可能会发生变化,从而导致不同的描述(例如,“左边”或“右边”)。然而,当前基于LLM的方法忽略了自我中心视角,并且使用的是从全局视角获取的数据集。为了解决这个问题,我们提出了一种新颖的方法,通过利用数据收集过程中的扫描轨迹自动生成一个情境感知数据集,并利用视觉语言模型(VLMs)生成高质量的描述和问答对。

A Multi-agent Onboarding Assistant based on Large Language Models, Retrieval Augmented Generation
在软件工程中,有效的入职培训至关重要,但由于技术的快速发展,这一过程颇具难度。传统方法,如探索和研讨会,成本高昂、耗时费力,在大型项目中很快就会过时。我们提出了入职伙伴(OnboardingBuddy)系统,该系统利用大语言模型、检索增强生成以及自动化思维链方法来改进入职培训。它在开发环境中集成了动态的、特定上下文的支持,提供自然语言解释、代码见解和项目指导。我们的解决方案基于代理,能在最少人工干预的情况下提供定制化帮助。

When LLM Therapists Become Salespeople: Evaluating Large Language Models for Ethical Motivational
大语言模型(LLMs)已在心理健康领域得到积极应用。近期研究显示,LLMs在应用心理治疗,尤其是动机性访谈(MI)方面具有潜力。然而,目前缺乏关于语言模型如何理解MI伦理的研究。鉴于恶意行为者可能利用语言模型将MI用于不道德目的的风险,评估它们区分道德和不道德MI实践的能力至关重要。因此,本研究通过多项实验探究LLMs在MI中的伦理意识。我们的研究结果表明,LLMs在MI方面具有中等到较强的知识水平。然而,它们的伦理标准与MI精神并不一致,因为它们会生成不道德的回应,并且在检测不道德回应方面表现不佳。

Question-Aware Knowledge Graph Prompting for Enhancing Large Language Models
大语言模型(LLMs)在处理需要外部知识的任务时常常面临挑战,例如知识密集型多选问答(MCQA)任务。整合知识图谱(KGs)可以增强推理能力;然而,现有方法通常需要进行代价高昂的微调,或者会检索到有噪声的KG信息。最近的方法利用图神经网络(GNNs)生成基于KG的输入嵌入前缀作为LLMs的软提示,但未能考虑问题的相关性,导致提示存在噪声。此外,在MCQA任务中,某些答案选项缺乏相关的KG知识仍然是一个重大挑战。

Benchmarking Systematic Relational Reasoning with Large Language and Reasoning Models
大语言模型(LLMs)被发现难以进行系统推理。即使在它们看似表现良好的任务上,其性能往往也依赖于捷径,而非真正的推理能力,这导致它们在分布外的示例上表现崩溃。最近,基于强化学习和思维链提示的后训练策略被视为一种突破性进展。然而,除了在数学和编程领域的问题解决中,人们对由此产生的“大推理模型”(LRMs)的潜力仍知之甚少,在这些领域中找到真正的分布外问题可能很困难。在本文中,我们专注于需要对关系组合进行系统推理的任务,特别是定性空间和时间推理。这些任务使我们能够控制问题实例的难度,并精确衡量模型的泛化程度。

Extracting Patient History from Clinical Text: A Comparative Study of Clinical Large Language Models
提取与患者主诉(CC)、现病史(HPI)以及既往、家族和社会史(PFSH)相关的病史实体(MHEs),有助于将非结构化的临床笔记整理成标准化的电子健康记录(EHRs),从而简化诸如医疗护理连续性管理、医疗编码和质量评估等下游任务。经过微调的临床大语言模型(cLLMs)可以协助这一过程,并且通过本地部署确保敏感数据的安全。本研究评估了cLLMs在识别与CC/HPI/PFSH相关的MHEs方面的性能,并研究了笔记特征对模型准确性的影响。

LLM Weekly(2025.04.07-04.13)


FeRG-LLM : Feature Engineering by Reason Generation Large Language Models
表格数据机器学习中的关键任务之一是特征工程。尽管它对提升模型性能至关重要,但需要大量的专业知识和深入的领域知识,是一项劳动密集型工作。为解决这一问题,我们提出了一种新颖的框架FeRG-LLM(基于推理生成的大语言模型特征工程),这是一个80亿参数规模的大语言模型,旨在自动执行特征工程。我们构建了两阶段的对话,使语言模型能够分析机器学习任务并发现新特征,展现其思维链(CoT)能力。

Large Language Models Are Better Logical Fallacy Reasoners with Counterargument, Explanation
大语言模型(LLMs)的发展极大地提升了我们处理复杂语言的能力。然而,准确检测逻辑谬误仍然是一项重大挑战。本研究提出了一种新颖且有效的逻辑谬误检测提示制定方法,适用于有监督(微调)和无监督(零样本)设置。我们的方法通过融入隐含上下文信息(反论点、解释和目标)来丰富输入文本,这些信息是我们在论点背景下对其有效性进行查询的依据。然后,我们根据置信度分数对这些查询进行排序,为分类提供参考。我们使用GPT和LLaMA系列模型,在来自5个领域的多个数据集上对我们的方法进行评估,这些数据集涵盖29种不同的谬误类型。

PromptDistill: Query-based Selective Token Retention in Intermediate Layers for Efficient LLM
选定token的隐藏状态已从早期层的自注意力中捕获了上下文信息,使我们能够在无需额外计算的情况下保留更全面的上下文和模型的原始结构。为解决这一问题,我们提出PromptDistill,这是一种新颖的、无需训练的方法,可在保持生成质量的同时提高推理效率。以及GemFilter,它在不考虑上下文依赖的情况下选择初始提示的固定部分)不同,PromptDistill在保持对输入全局感知的同时,动态地将计算资源分配给最相关的token。此外,我们对多阶段选择的探索进一步提高了效率,同时保持了模型的有效性。

欢迎留下您的脚印