Loading...

Large Language Models Do NOT Really Know What They Don’t Know
现有研究认为LLMs的内部状态(如隐藏层、注意力权重)可用于检测幻觉,暗示其“知道自己不知道什么”,但LLMs常依赖数据中的虚假关联产生事实错误,引发“内部计算能否可靠区分事实与幻觉”的疑问。关联幻觉(AH)(依赖主题知识但事实错误,如“奥巴马出生于芝加哥”)和非关联幻觉(UH)(与主题知识无关,如“奥巴马出生于东京”),核心探究两类幻觉在LLMs内部处理中的差异。

DECOUPLING SAFETY INTO ORTHOGONAL SUBSPACE: COST-EFFICIENT AND PERFORMANCE-PRESERVING ALIGNMENT
核心问题:现有大语言模型(LLMs)安全对齐方法(如SFT、RLHF、DPO)存在两大痛点——需耗费大量计算资源平衡安全数据与通用数据比例,且提升安全性时易导致模型通用能力(如知识问答、数学推理、代码生成)“灾难性遗忘”。解决方案:提出基于LoRA(低秩适应)的拒绝训练(Refusal-training),仅用安全数据训练即可实现安全对齐,无需混合通用数据。LoRA在此场景下具备三大优势:性能保留:大幅降低越狱攻击成功率(ASR),同时几乎不损失模型通用能力;成本高效。

LLM Weekly(2025.11.24-11.30)
FLUX.2可生成和编辑最高400万像素图像,支持最多10张参考图,在照片级真实感、文本渲染和提示词遵循度方面均有提升,采用潜在流架构(latentflowarchitecture)并结合Mistral-324B模型。:深度求索(DeepSeek)发布开源权重模型DeepSeekMath-V2,其性能比肩OpenAI和谷歌——不仅获得2025年国际数学奥林匹克(IMO)金牌,还在2024年普特南数学竞赛(Putnam)中取得118/120的高分,超越顶尖人类选手成绩。

Semantic-Condition Tuning: Fusing Graph Context with Large Language Models for Knowledge Graph
研究背景与问题知识图谱补全(KGC)旨在推断知识图谱中缺失的三元组(h,r,t),但现有方法存在不足:传统嵌入模型无法捕捉动态语境,基于LLM的方法多采用前缀调优,仅将知识嵌入与文本输入简单拼接,忽略了KG中的丰富关系语义,且给LLM带来沉重的隐式推理负担。核心需求:实现KG结构化知识与LLM参数化知识的深度、语义级融合,提升LLM在KGC任务中的推理准确性。SCT框架核心构成语义图模块(SemanticGraphModule)

The Idola Tribus of AI: Large Language Models tend to perceive order where none exists
研究背景:LLMs在复杂任务(如AI代理框架、检索增强生成)中依赖逻辑一致性,但存在幻觉、逻辑跳跃等问题,而现有评估多聚焦有固定答案的推理任务,缺乏对无固定答案场景中模型归纳能力的考察。实验设计构建8类共724个整数数列,涵盖算术、几何、带误差的准规律数列及完全随机数列。选取5个主流LLMs(含GPT-4.1、o3、Gemini2.5等具备多步推理能力的模型),要求其解释数列规律,并用o3模型作为“评估者”判断结果有效性(分4类:符合预设规则、正确但不符预设、错误、判定为随机)。核心发现。

Evaluating LLMs and Prompting Strategies for Automated Hardware Diagnosis from Textual User-Reports
本文聚焦于利用大型语言模型(LLMs)从用户文本报告(如“我的屏幕在闪烁”)中自动诊断硬件故障组件的任务,通过评估不同模型和提示策略,为硬件制造商提供高效的AI驱动诊断方案。评估对象:27个开源LLM(参数规模1B–72B)和2个专有LLM(如GPT-4、Gemini)。提示策略:零样本(Zero-Shot)、少样本(Few-Shot)、思维链(CoT)、思维链+少样本(CoT+FS)四种。实验规模:共执行98,948次推理,处理5100多万输入tokens,生成1300多万输出tokens。

If Probable, Then Acceptable? Understanding Conditional Acceptability Judgments in Large Language
条件句可接受性指人们对条件句合理性的感知程度。它在沟通和推理中发挥重要作用,会影响人们对隐含意义的解读、对论证的评估以及基于假设场景的决策过程。当人类判断“如果A,那么B”这类条件句的可接受性时,其判断主要受两个因素影响:一是B基于A的条件概率,二是前件A相对于后件B的语义关联(即A是否对B有实质支持作用)。尽管已有研究探讨大型语言模型(LLMs)如何对条件句进行推理,但这些模型如何判断条件句可接受性仍不明确。

Exploring Cross-Client Memorization of Training Data in Large Language Models for Federated Learning
联邦学习(FL)能够在不共享原始数据的情况下实现协同训练,但仍存在训练数据被记忆的风险。现有FL记忆检测技术每次仅关注单个样本,低估了跨样本记忆这一更隐蔽的风险。相比之下,近年来集中式学习(CL)领域已提出细粒度方法,用于评估训练数据中所有样本的跨样本记忆,但这些方法假设数据可集中访问,无法直接应用于FL。为填补这一空白,我们提出一个框架:通过跨所有客户端的细粒度跨样本记忆度量,量化FL中的客户端内和客户端间记忆。基于该框架,我们开展两项研究:(1)测量客户端间的隐蔽记忆;

NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constrain
研究背景现有多模态大语言模型(MLLMs)多采用组合式训练范式,即分别预训练视觉编码器和语言模型(LLM),再通过多模态训练整合,存在多模态缩放特性不明确、视觉-语言对齐不足等问题。原生MLLMs虽以端到端方式联合优化视觉和语言空间,但此前研究多假设训练资源无限,未充分考虑数据有限和大规模训练的实际挑战。核心研究过程架构设计探索:研究原生MLLM关键组件选择,包括LLM初始化、混合专家(MoE)架构有效性、视觉编码器结构。

ENTROPY REGULARIZING ACTIVATION: BOOSTING CONTINUOUS CONTROL, LARGE LANGUAGE MODELS, AND IMAGE CLASS
核心问题与动机现有熵调控方法存在两大缺陷:一是在强化学习(如SAC)中直接在目标函数添加熵奖励,会扭曲主任务优化目标;二是在LLM对齐等领域采用启发式方法(如clip-higher),缺乏理论保证且仅适用于单一领域。因此需要一种通用、不干扰主目标、有理论支撑的熵约束范式。ERA范式设计核心思想:通过模型输出层的激活函数g(·)直接约束熵,而非修改损失函数。激活函数将模型原始输出参数z转换为z',确保最终策略的期望熵不低于目标阈值H₀,实现主任务优化与熵约束的完全解耦。多领域实例化。

In-Context Clustering with Large Language Models
零样本聚类能力:预训练LLM(如GPT-4o、Llama系列)在文本编码的数值数据上表现出优秀零样本聚类性能,尤其在非高斯(重尾分布)数据上,准确率显著超过k-means。注意力机制的聚类结构:LLM中间层的注意力矩阵会自然呈现聚类模式,基于这些矩阵的谱聚类能达到比直接生成标签更高的准确率(如Llama-3.1-8b-Instruct未微调时,谱聚类准确率85%,直接生成仅74%)。微调提升性能。

Climate Knowledge in Large Language Models
研究核心问题探究LLMs在无外部检索(闭卷模式)下,能否准确召回特定地点的气候常态数据,以“1991-2020年7月2米处平均气温”为典型查询,对比ERA5再分析数据验证准确性。关键研究发现气候模式捕捉能力:LLMs能编码基础气候结构(如纬度、地形相关温度分布),全球均方根误差(RMSE)为3-6°C,偏差约±1°C,但高海拔(1500米以上)和高纬度地区误差显著,RMSE可达5-13°C。影响准确性的因素:添加地理语境(国家、城市等)可使误差平均降低27%;

AILoRA: Function-Aware Asymmetric Initialization for Low-Rank Adaptation of Large Language Models
参数高效微调(PEFT)旨在降低将大规模预训练模型适配到各类下游任务时产生的巨大计算和内存开销。在众多PEFT策略中,低秩适配(LoRA)因其出色的实证性能和较低的实现复杂度,已成为应用最广泛的方法之一。在实际部署中,LoRA通常应用于自注意力模块的WQW^QWQ(查询投影矩阵)和WVW^VWV(价值投影矩阵),从而在模型性能与参数效率之间实现高效平衡。尽管LoRA在实证方面取得了显著成功,但仍面临性能欠佳、收敛速度慢等挑战。

RECYCLING PRETRAINED CHECKPOINTS: ORTHOGONAL GROWTH OF MIXTURE-OF-EXPERTS FOR EFFICIENT LARGE LANGUA
预训练大型语言模型(LLM)的计算成本正快速增长,因此亟需更高效的训练方法。现有训练成熟的模型checkpoint已投入大量计算资源,但由于工程限制或模型容量不足,其中许多资源仍未被充分利用。为高效复用这些“沉没成本”,我们提出通过扩展模型参数数量并延续训练的方式,实现预训练checkpoint的“回收”。我们针对收敛后的混合专家(MoE)模型,设计了一种正交增长方法:用于深度扩展的插入式层复制,以及用于宽度扩展的带噪声注入专家复制。

CREST-Search: Comprehensive Red-teaming for Evaluating Safety Threats in Large Language Models Power
LLMs的局限性与搜索功能的引入:LLMs知识受训练数据截止日期限制,无法获取新信息,因此集成网页搜索功能以动态获取互联网信息,但这也放大了安全风险。现有红队方法的不足:传统红队方法针对独立LLMs,无法覆盖带搜索功能LLMs的多阶段风险(如信息检索、引用等),且难以应对商业黑盒模型的不透明性。核心风险类型:带搜索功能的LLMs存在三类风险,分别是响应风险(生成有害内容)、引用风险(引用含有害内容的网页)、组合风险(两者兼具),现有方法主要关注响应风险,忽视引用风险。

Mephisto: Self-Improving Large Language Model-Based Agents for Automated Interpretation
长期以来,天文学研究依赖人类专业知识解读复杂数据并提出科学假设。本研究提出Mephisto——一个由大型语言模型(LLMs)驱动的多智能体协作框架,可模拟类人推理过程,用于分析多波段星系观测数据。Mephisto对接CIGALE代码库(包含光谱能量分布(SED)模型的工具库),通过迭代优化物理模型以匹配观测数据。该框架借助树搜索实现审慎推理,通过自博弈积累知识,并动态更新知识库。

video models are zero-shot learners and reasoners
大型语言模型(LLMs)卓越的零样本能力,已将自然语言处理从任务特定模型推向统一的通用基础模型。这一变革源于简单的核心原理:基于网络规模数据训练的大型生成式模型。有趣的是,同样的原理也适用于当前的生成式视频模型。视频模型是否能像LLMs发展出通用语言理解能力那样,走向通用视觉理解的道路?本文证明,Veo3能够解决大量未经过显式训练的任务,包括物体分割、边缘检测、图像编辑、物理属性理解、物体功能识别、工具使用模拟等。这些感知、建模和操作视觉世界的能力,使其能够实现迷宫求解、对称补全等早期形式的视觉推理。

NEURON-LEVEL ANALYSIS OF CULTURAL UNDERSTANDING IN LARGE LANGUAGE MODELS
研究背景与问题背景:LLMs在全球广泛应用,但存在文化偏见,对少数族裔文化认知有限,且其文化理解机制尚未被充分探索。现有局限:此前研究多关注语言与文化的关联,依赖激活基方法,难以精准定位文化相关神经元,且缺乏多文化基准的综合评估。核心方法:CULNIGpipeline目的:精准识别支撑文化理解的“文化通用神经元”(跨文化通用)和“文化特定神经元”(对应单一文化)。关键步骤:采用基于梯度的归因分数(量化神经元对文化任务的重要性),结合控制数据集(BLEnD_ctrl)排除任务理解相关神经元。

LONGLIVE: REAL-TIME INTERACTIVE LONG VIDEO GENERATION
研究背景与挑战长视频生成需兼顾效率与质量:扩散模型及扩散强制模型虽能生成高质量视频,但依赖双向注意力导致推理效率低;因果注意力AR模型支持KV缓存加速推理,却因长视频训练时的内存问题导致质量退化。交互式需求增加复杂度:静态提示生成限制灵活性,而流式提示输入等交互能力需保证提示切换时的视觉一致性与语义连贯性,进一步提升技术难度。核心技术方案KV重缓存(KV-recache)

The Hidden Bias: A Study on Explicit and Implicit Political Stereotypes in Large Language Models
背景:LLMs日益融入信息传播与决策过程,其潜在政治偏见可能影响公众舆论与民主进程,但当前对LLM政治偏见的系统性研究仍有不足。目标:通过PCT评估8个主流LLMs的固有政治倾向,探索显式(角色提示)与隐式(多语言PCT)政治刻板印象,明确模型偏见特征与形成机制。大语言模型(LLMs)在信息传播与决策过程中的作用日益重要。鉴于其不断增强的社会影响力,理解其潜在偏见(尤其是政治领域的偏见)对于防止其对公众舆论和民主进程产生不当影响至关重要。

欢迎留下您的脚印