Loading...
大型语言模型(LLMs)展现出卓越的推理能力,但其背后支撑这些能力的结构机制仍未得到充分探索。在本研究中,我们提出GraphGhost——一个统一框架,该框架将神经元激活及其信号传播表示为图结构,以此解释LLMs如何从序列输入中捕捉结构语义,并通过结构一致的机制生成输出。这种基于图的视角使我们能够运用PageRank等图算法来刻画LLMs的特性,揭示不同数据集上模型共有的及特有的推理行为。
MathRobust-LV: Evaluation of Large Language Models’ Robustness to Linguistic Variations
大语言模型在数学基准测试中表现优异,但其数学推理能力对语言表述变化的鲁棒性尚未得到充分探索。尽管近期研究越来越多地将国际数学奥林匹克(IMO)等高水平竞赛作为评估推理能力的黄金标准,但我们认为,在真实教育场景中对高中难度数学题进行全面基准测试更为重要。本文提出MathRobust-LV——一个测试集与评估方法,该方法模拟教师在出题时调整题目表述但保持难度不变的方式:在保留数值结构与答案的前提下,仅改变题目表层信息(如名称、场景、变量符号)。
Probing the Difficulty Perception Mechanism of Large Language Models
大语言模型(LLMs)在复杂推理任务中的应用日益广泛,但人们对其内部评估问题难度的能力知之甚少,而这种能力对于自适应推理和高效资源分配至关重要。本研究旨在探究LLMs是否会在其内部表征中内隐编码问题难度。通过对LLMs最后一个token的表征进行线性探针分析,我们证明数学问题的难度级别可通过线性模型进行建模。我们进一步定位出Transformer最后一层中的特定注意力头:这些注意力头对简单问题和困难问题呈现出相反的激活模式,从而实现对难度的感知。消融实验证实了该定位的准确性。
Earl: Efficient Agentic Reinforcement Learning Systems for Large Language Models
智能体强化学习(AgenticRL)是大模型(LLM)后训练的关键技术,能通过多轮交互和工具使用提升模型推理、决策能力,但训练中存在两大瓶颈。上下文长度爆炸:多轮交互使上下文长度快速增长,导致内存占用激增(如Llama-3.1-70B模型在8192上下文长度下需354GB显存),易触发内存溢出(OOM),现有“硬限制+长度惩罚”方案会制约模型性能。
EvalMORAAL: Interpretable Chain-of-Thought and LLM-as-Judge Evaluation for Moral Alignment in
我们提出了EvalMORAAL框架,这是一个透明的思维链(Chain-of-Thought,CoT)评估框架。该框架采用两种评分方法(对数概率评分法和直接评分法),并结合“模型作为评估者”的互评机制,对20个大型语言模型(LLMs)的道德对齐性进行评估。我们基于世界价值观调查(WorldValuesSurvey,WVS,涵盖55个国家、19个主题)和皮尤全球态度调查(PEWGlobalAttitudesSurvey,涵盖39个国家、8个主题)对模型展开评估。
LLM-FS-Agent: A Deliberative Role-based Large Language Model Architecture for Transparent Feature
在机器学习流程中,高维数据这一普遍存在的难题常导致模型可解释性降低、效率受损。尽管大语言模型(LLMs)已在通过特征选择(FS)实现降维(DR)方面展现出潜力,但现有基于LLM的方法往往缺乏结构化推理能力,且无法为其决策提供透明的理由。本文提出LLM-FS-Agent,这是一种新型多智能体架构,专为可解释且稳健的特征选择设计。该系统通过协调多个LLM智能体开展结构化“辩论”发挥作用,每个智能体均在明确的角色范围内运作,能够共同评估特征相关性,并为特征选择结果提供详细依据。
Textual interpretation of transient image classifications from large language models
研究背景:现代天文巡天产生海量瞬变源数据,需区分真实天体信号(如超新星)与虚假成像伪影,但传统卷积神经网络(CNNs)虽分类精度高(超98%),其潜在表示不透明,可解释性差。核心实验:使用谷歌LLM模型Gemini,在Pan-STARRS、MeerLICHT、ATLAS三个光学瞬变巡天数据集上测试,仅提供每个望远镜15个带注释的“目标图-参考图-差值图”样本及简洁指令,平均分类准确率达93%。关键功能。
PROMPT REINFORCING FOR LONG-TERM PLANNING OF LARGE LANGUAGE MODELS
研究背景:LLMs在单轮任务中表现优异,但在多轮交互(如文本生成SQL、任务导向对话)中,常因早期假设错误、无法追踪用户目标导致性能下降;现有优化方法(如梯度微调、自反馈)存在计算成本高、依赖频繁API调用或仅适用于单轮任务的局限。核心方法:强化提示优化(RPO)框架结构:初始提示可由专家编写或LLM生成,通过“交互-反馈-重写”循环迭代优化。模型与环境(用户/模拟用户)交互生成轨迹,反馈器(人类/LLM)提供基于时序差分(TD)误差的回合级反馈,重写器(LLM)结合历史经验重写提示。反馈机制。
DACP: Domain-Adaptive Continual Pre-Training of Large Language Models for Phone Conversation
研究背景大型LLM在通用文本摘要任务中表现优异,但在与预训练数据分布不同的专业领域(如电话对话摘要)性能显著下降。小型LLM(参数小于10B)因推理成本低更适合工业部署,但领域适配需大量人工标注数据,存在成本高、隐私风险等问题。核心方法:DACP框架数据构成:包含两部分,一是25Btokens的高质量匿名业务对话数据(从50M条ASR生成transcript中筛选,基于token类型熵选25M条),二是25Btokens的经验回放数据(来自FineWeb-Edu,缓解灾难性遗忘)。训练流程。
LLM Weekly(2025.11.03-11.09)
该模型采用量化感知训练(Quantization-AwareTraining),实现高速、尖端的推理效果,在智能体搜索、编程及各类任务的推理能力上均取得显著提升。研究人员构建了“深度推理数据集”(DeepReasoningDataset),测试模型在递增复杂度任务中的表现,发现模型在高复杂度场景下性能大幅下降。为提升Siri性能,苹果将在其私有云计算服务器(PrivateCloudCompute)上运行Gemini模型,支持实时个性化查询,同时确保Siri与苹果生态系统的深度融合。
LATENTBREAK: JAILBREAKING LARGE LANGUAGE MODELS THROUGH LATENT SPACE FEEDBACK
越狱攻击是旨在绕过大型语言模型内置安全机制的对抗性攻击。自动越狱通常会优化对抗性后缀,或通过迫使模型生成受限或有害响应的初始部分来调整长提示模板。在本研究中,我们发现,现有利用此类机制解锁模型响应的越狱攻击,可通过对输入提示进行简单的基于困惑度的过滤来检测。为解决这一问题,我们提出了LatentBreak——一种白盒越狱攻击方法,该方法能生成低困惑度的自然对抗性提示,从而规避此类防御。
Leveraging Large Language Models for Cybersecurity Risk Assessment — A Case from Forestry
研究背景与问题安全关键型软件系统(如林业自主机械)需严格网络安全风险评估,但企业普遍面临网络安全、AI、合规多领域专家短缺问题。现有法规(如《机械法规2023/1230》《网络弹性法案》)要求全面风险评估,而工程师缺乏专业支持,需工具辅助评估漏洞与威胁。研究方法采用设计科学研究方法,分两个周期开展:第一周期通过文献综述、3次专家访谈明确需求;第二周期基于Llama2模型构建含RAG架构的工具,结合12位专家的访谈、交互测试与问卷调查迭代优化。
Uncovering Representation Bias for Investment Decisions in Open-Source Large Language Models
大语言模型(LLMs)在金融领域的应用日益广泛,被用于支持投资流程。然而,现有研究很少探讨这些模型如何体现与企业规模、行业或财务特征相关的偏差,而这类偏差可能对决策产生重大影响。本文通过聚焦开源Qwen模型的表征偏差,填补了这一研究空白。我们对约150家美国上市公司采用平衡轮询提示法,结合约束解码与令牌对数聚合,在不同金融场景下推导企业层面的置信度评分。通过统计检验与方差分析,我们发现:企业规模与估值会持续提高模型置信度,而风险因素则倾向于降低置信度;不同行业的置信度差异显著,其中科技行业的变异性最大。
Large Language Models Achieve Gold Medal Performance at the International Olympiad
研究背景:现有LLMs在天文学的应用多局限于特定任务(如引力波检测、星系观测解读),且评估基准仅测试基础知识,无法体现真实科研所需的复杂推理能力,亟需更全面的能力评估。研究方法:选取5个顶尖LLMs(GPT-5、Gemini2.5Pro等),用2022-2025年IOAA的理论题(49道)和数据分析题(8道)作为基准,由2位IOAA专家按官方评分标准独立打分,同时排除需物理仪器的观测题。核心结果理论考试。
The Geometry of Truth: Layer-wise Semantic Dynamics for Hallucination Detection
研究背景:大语言模型(LLMs)常生成流畅但事实错误的内容(幻觉),现有检测方法存在缺陷,如多轮采样效率低、依赖外部知识库、仅关注输出层忽略中间层信息。核心假设:事实性内容在Transformer层间的语义轨迹平滑收敛,与真实语义嵌入持续对齐;幻觉内容语义轨迹振荡发散,偏离真实语义。LSD框架流程提取模型各层隐藏状态;通过基于边际的对比学习,将隐藏状态与事实编码器生成的真实嵌入投影到统一语义空间;计算语义轨迹的对齐度、速度、加速度等几何指标;结合统计检验输出幻觉风险评分。实验结果。
REVEALING INTERCONNECTIONS BETWEEN DISEASES: FROM STATISTICAL METHODS TO LARGE LANGUAGE MODELS
通过人工分析大规模临床数据识别疾病关联,不仅耗时费力、主观性强,还容易出现专家意见分歧。尽管机器学习(ML)展现出一定潜力,但仍存在三大关键挑战:(1)需从庞大的机器学习方法体系中筛选最优方案;(2)确定真实世界临床数据(如电子健康记录EHRs)与结构化疾病描述哪类数据能提供更可靠的见解;(3)由于部分疾病关联在医学领域尚未被探索,缺乏相关“金标准”。大型语言模型(LLMs)应用广泛,但往往缺乏专业医学知识。
Reproducibility Study of “XRec: Large Language Models for Explainable Recommendation“
研究背景与目标背景:传统推荐系统多为“黑箱”,可解释性不足;原研究提出XRec框架,结合协同过滤(CF)与大语言模型(LLMs)生成个性化推荐解释。目标:用Llama3替代原研究的GPT-3.5-turbo复现XRec结果,并通过修改MoE模块的输入/输出嵌入拓展研究,验证原框架4个核心主张。研究方法模型基础:XRec含三大组件——协同关系分词器(LightGCN提取用户-物品嵌入)、协同信息适配器(MoE模块转换嵌入以适配LLM)、CF与LLM融合模块(注入嵌入并生成解释)。实验设计。
FocusMed: A Large Language Model-based Framework for Enhancing Medical Question Summarization
随着在线医疗平台的快速发展,消费者健康问题(CHQs)因包含冗余信息且频繁使用非专业术语,在诊断过程中效率较低。医疗问题摘要(MQS)任务旨在将CHQs转化为简洁的医生常用问题(FAQs),但现有方法仍面临问题焦点识别不佳、模型幻觉等挑战。本文探究了大型语言模型(LLMs)在MQS任务中的应用潜力,发现直接微调易产生焦点识别偏差并生成不忠实的内容。为此,本文提出一种基于核心焦点引导的优化框架。首先,设计提示模板驱动LLMs从CHQs中提取忠实于原文的核心焦点;
ATOMWORLD: A BENCHMARK FOR EVALUATING SPATIAL REASONING IN LARGE LANGUAGE MODELS ON CRYSTALLINE MATE
研究背景现有LLMs虽在文本推理和基础晶体生成任务中表现出色,但缺乏标准化基准来系统评估其在复杂原子结构上的核心推理能力,尤其是基于晶体信息文件(CIF)的空间操作能力。材料科学领域中,3D原子结构的深度理解至关重要,而当前LLMs在结构修改、格式理解等任务中易出现累积错误,影响后续材料分析。核心方案:AtomWorld基准数据生成逻辑。
FedSRD: Sparsify-Reconstruct-Decompose for Communication-Efficient Federated Large Language Models
当前,基于公开网络数据训练大型语言模型(LLMs)的模式正逐渐失去可持续性,专业领域的高质量数据源已濒临枯竭。联邦学习(FL)作为下一代去中心化Web人工智能的实用解决方案应运而生,它通过利用全球客户端分布的私有数据,实现了隐私保护型协同微调。低秩适应(LoRA)虽是高效微调的标准方法,但在联邦场景中的应用面临一个关键挑战:在Web异构网络环境下,通信开销仍是重大瓶颈。LoRA参数内部的结构冗余不仅带来沉重的通信负担,还会在客户端更新聚合时引发冲突。
