Loading...
该文章是一篇关于大型语言模型(LLMs)幻觉问题的综述,系统梳理了幻觉的定义、类型、成因、检测与缓解方法,同时分析了现有基准数据集、评估指标及未来挑战,为提升LLMs的真实性和可信度提供了全面参考。大型语言模型(LLMs)彻底改变了自然语言处理领域,在各类任务中展现出卓越性能。然而,其出色的流畅性往往伴随着生成虚假或编造信息的代价,这种现象被称为“幻觉”。幻觉指LLM生成的内容虽流畅且语法正确,但事实不准确或缺乏外部证据支持。幻觉会损害LLMs的可靠性和可信度,在需要事实准确性的领域(如医疗、法律)中问题尤
Evaluation of Clinical Trials Reporting Quality using Large Language Models
研究背景与目标临床试验报告质量(尤其随机对照试验RCT)影响临床决策,CONSORT是当前应用最广的报告标准,但部分医学领域报告质量仍不足。目标:测试通用领域和生物医学领域的大型生成语言模型,结合不同提示方法(含思维链CoT),依据CONSORT标准评估临床试验摘要报告质量。核心工作步骤构建语料库:创建CONSORT-QA语料库,源自两项分别针对COVID-19干预和儿童青少年抑郁症预防RCT的CONSORT-abstract标准评估研究,含139篇摘要及专家标注。
Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning
本技术报告提出Ring-linear模型系列,具体包括Ring-mini-linear-2.0和Ring-flash-linear-2.0。其中,Ring-mini-linear-2.0含160亿参数和9.57亿激活参数,Ring-flash-linear-2.0含1040亿参数和61亿激活参数。两款模型均采用有效融合线性注意力与softmax注意力的混合架构,显著降低长上下文推理场景下的I/O开销与计算开销。与320亿参数稠密模型相比,该系列将推理成本降至1/10;
EFFICIENT LONG-CONTEXT LANGUAGE MODEL TRAINING BY Core Attention Disaggregation
我们提出核心注意力解耦(CAD)技术,通过解耦核心注意力(CA)——即无参数的softmax((QKᵀ)V计算——并将其调度到独立的资源池,从而优化长上下文大语言模型(LLM)训练。现有系统将核心注意力与其他组件共置,在长上下文场景下,CA计算的二次增长与其他组件的近线性增长会导致负载不均衡,进而在数据并行组和管道并行组中产生掉队者。CAD的设计基于两个关键观察:(i)无状态性:CA无训练参数且暂态状态极少,负载均衡可简化为计算密集型任务调度;
Epistemic Diversity and Knowledge Collapse in Large Language Models
认知多样性整体偏低但有改善趋势:2023年后,Llama、Gemma、OpenAI三个模型家族的认知多样性有所提升(如2025年3月后的Gemma3、GPT-5),但所有模型的多样性仍显著低于基础网页搜索(如Google前20条结果)。模型大小与生成方式的影响:模型大小与认知多样性呈负相关,小型模型(≤8B参数)比大型模型(≥27B参数)多样性更高;检索增强生成(RAG)能显著提升多样性,但传统指令微调(IFT)效果较差。文化背景的差异化影响:IFT模式下,不同国家主题的认知多样性差异不大;
DON’T PASS@k: A BAYESIAN FRAMEWORK FOR LARGE LANGUAGE MODEL EVALUATION
现有评估方法的局限性Pass@k是LLM推理性能评估的常用指标,但在试验样本有限、计算资源受限的场景下,易产生不稳定、误导性的排名,且难以量化不确定性。平均准确率(avg@N)虽能缓解部分问题,但计算成本高,无法统一处理分级评估结果,也缺乏判断性能差异显著性的原则性规则。贝叶斯评估框架核心设计分类结果建模:将评估结果视为分类变量(如正确、部分正确、格式错误等),而非仅0/1二元结果,通过Dirichlet先验分布建模,可处理任意加权评分规则。后验估计与不确定性量化。
Exploring the Power of Diffusion Large Language Models for Software Engineering
研究背景:传统AR-LLMs在软件工程(SE)任务中存在局限,无法有效处理代码结构信息,且推理延迟高;而DLLMs具备全局双向编码和生成步骤解耦的特性,为SE任务提供新方向。研究范围:将DLLMs应用于软件工程全生命周期,涵盖代码生成、缺陷检测、程序修复、跨文件维护四大核心任务。实验设计。
Systematic Diagnosis of Brittle Reasoning in Large Language Models
研究背景:LLMs的数学推理能力虽因高质量基准(如GSM8K数据集)和思维链(CoT)提示等技术大幅提升,但仍存在逻辑错误,且缺乏系统的故障诊断框架。实验设计:以GSM8K数据集的1000个问题为样本,用gpt-3.5-turbo生成结构化推理轨迹,借助gpt-4o-mini进行错误分类和无监督聚类,分析推理模式的可靠性。核心发现模型整体准确率达84.9%,错误主要源于推理错误(49.7%),其次是计算错误(33.1%)。
Auditing Pay-Per-Token in Large Language Models
问题背景LLM服务依赖云端提供,主流按token计费模式使服务商存在虚报生成输出token数量以牟利的经济动机。信息不对称导致用户无法验证token数量真实性,且同一字符串存在多种token化方式,为服务商作弊提供可能。核心方法问题建模:将token虚报审计转化为序贯假设检验问题,定义零假设(服务商诚实,虚报强度为0)与备择假设(服务商作弊,虚报强度>0)。审计框架。
Equipping Retrieval-Augmented Large Language Models with Document Structure Awareness
研究背景:传统大语言模型(LLMs)依赖参数化知识易产生事实错误,RAG通过外部文档缓解该问题,但现有RAG方法忽略文档固有的结构信息,导致知识获取和整合能力受限,尤其在多文档合成场景中表现不佳。核心框架(RDR²):包含三个关键阶段检索(Retrieve):基于输入问题从数据存储中检索top-k相关段落及对应文档。文档路由(DocumentRoute)
Empowering Denoising Sequential Recommendation with Large Language Model Embeddings
研究背景与问题序列推荐需捕捉用户-物品交互的时序模式,但交互数据中存在意外点击、探索性行为等噪声,会降低推荐性能。现有去噪方法仅依赖协同信息(如用户-物品交互矩阵),对交互稀疏的冷启动物品易误判为噪声,导致过去噪问题。核心框架:IADSR(InterestAlignmentforDenoisingSequentialRecommendation)第一阶段:双表征学习:分别从传统序列推荐模型获取物品的协同嵌入,从LLM(通过LLM2Vec)获取物品文本描述的语义嵌入。
MLLMERASER: ACHIEVING TEST-TIME UNLEARNING IN MULTIMODAL LARGE LANGUAGE MODELS THROUGH ACTIVATION ST
MLLM的应用痛点:多模态大语言模型(MLLM)在视觉-语言任务中表现突出,但大规模部署时存在隐私数据记忆、知识过时、有害内容生成等问题,需可靠的“去学习”机制。传统方法的局限:现有去学习方法多基于训练(如梯度上升、偏好优化),存在计算成本高、不可逆、易破坏保留知识的缺陷。核心需求:需一种无需参数更新、轻量化、可逆的测试时去学习方案,在推理阶段阻止模型生成指定信息,同时不影响正常功能。
SELF SPECULATIVE DECODING FOR DIFFUSION LARGE LANGUAGE MODELS
背景与问题dLLMs作为自回归模型(ARMs)的替代方案,虽有双向注意力、并行生成等优势,但现有并行解码方法会偏离逐步解码过程,导致性能下降,且传统推测解码需额外辅助模型,存在冗余和内存开销。dLLMs因双向注意力机制,难以直接应用ARMs的KV缓存策略,虽有自适应缓存框架将其从计算密集型转为内存密集型,但仍需更高效的解码方法。SSD框架设计自生成机制:让dLLM自身同时为多个位置生成候选tokens,并输出置信度分数,无需额外草稿模型。分层验证树。
TOWARD A UNIFIED FRAMEWORK FOR DATA-EFFICIENT EVALUATION OF LARGE LANGUAGE MODELS
对大型语言模型(LLMs)进行全面基准测试评估是其发展的基石,但该过程往往在计算和财务层面难以实现。尽管项目反应理论(IRT)通过分离模型能力与题目难度,为数据高效评估提供了可行路径,但现有基于IRT的方法仍存在显著局限。这些方法通常仅适用于二元正确性指标,无法原生处理生成任务中使用的连续分数,且仅针对单一基准运行,忽略了不同指标或基准间关联等宝贵的结构知识。为克服这些挑战,我们提出LEGO-IRT——一个用于数据高效LLM评估的统一且灵活的框架。LEGO-IRT的创新设计原生支持二元和连续两种评估指标。
A Mathematical Explanation of Transformers for Large Language Models and GPTs
核心理论框架提出将Transformer架构严格解释为结构化积分微分方程的离散化结果,构建了连续域(token索引与特征维度)上的数学模型。在该框架中,自注意力机制对应非局部积分算子,层归一化对应时间依赖约束下的投影操作,前馈网络则通过积分变换与激活函数(如ReLU)实现。模型推导与验证通过算子分裂法。
QUANTIFYING RISKS IN MULTI-TURN CONVERSATION WITH LARGE LANGUAGE MODELS
研究背景与问题LLM在多轮对话中可能生成灾难性响应(如制造爆炸物、生物武器的指导),但现有评估存在缺陷:依赖固定攻击提示序列、缺乏统计保证、无法覆盖庞大的多轮对话空间。单轮越狱攻击已被广泛研究,但现实中攻击者会通过多轮看似无害的对话逐步引导模型输出有害内容,这种多轮风险评估仍存在空白。核心方法:QRLLM框架核心目标:对LLM在多轮对话分布下生成灾难性响应的概率进行边界限定,提供统计保证。对话建模。
DeepAgent: A General Reasoning Agent with Scalable Toolsets
现有大语言模型驱动的代理存在局限性:依赖预定义工作流、无法动态发现工具、长程交互中记忆管理不足、推理连贯性欠缺,难以适配真实世界复杂任务和大规模工具集。大推理模型已展现出强大的问题解决能力,但现实世界任务通常需要外部工具和长程交互。现有代理框架大多遵循预定义工作流,限制了自主完成全局任务的能力。本文提出DeepAgent,一种端到端深度推理代理,能在单一连贯的推理过程中实现自主思考、工具发现和动作执行。
LESS DIVERSE, LESS SAFE: THE INDIRECT BUT PERVASIVE RISK OF TEST-TIME SCALING IN LARGE LANGUAGE MODE
核心问题发现:TTS技术的核心前提是“候选响应多样性提升可靠性”,但研究发现,即使轻微降低候选多样性,TTS生成不安全输出的概率会显著增加,这是此前未被识别的失效模式。REFDIV协议提出:设计“参考引导多样性降低协议(REFDIV)”,通过遗传算法迭代优化提示词,先引导候选响应向有害方向偏移,再最小化其多样性(用香农熵衡量),以此对TTS管道进行压力测试。实验验证范围模型覆盖。
TROLL: TRUST REGIONS IMPROVE REINFORCEMENT LEARNING FOR LARGE LANGUAGE MODELS
本文针对大语言模型(LLMs)基于奖励的强化学习(RL)微调中,PPO类算法依赖“裁剪(Clipping)”机制导致更新不稳定、性能欠佳的问题,提出了名为的优化方法。其核心是用“离散可微信任域投影”替代传统裁剪,通过token级KL散度约束确保新旧策略的接近性,同时结合稀疏化方案解决大词汇量(超10万token)带来的计算与内存开销问题。
LLM Weekly(2025.10.20-10.26)
安全沙箱环境为代码提供保护,同时支持移动端和iOS系统适配,方便随时使用,提升漏洞修复、后端修改及日常任务的处理效率。它支持多来源数据抓取、代码仓库分析及内容整理,能检测冲突和未明确的文档缺口,通过智能合并生成全面的AI增强技能包,满足不同框架、API及工具的开发需求,提升工作流效率。开发者即日起可启动相关开发工作。该技术在DistCA中实现,可平衡512块H200GPU的计算与内存资源,训练吞吐量提升最高达1.35倍,同时消除数据并行组和流水线并行组中的滞后问题。
