Loading...

TD-Pipe: Temporally-Disaggregated Pipeline Parallelism Architecture for High-Throughput LLM
随着大语言模型(LLM)规模不断扩大,流水线并行因其低通信需求,在面向吞吐量的LLM推理中展现出巨大潜力。但预填充(prefill)和解码(decode)阶段的工作负载不平衡,以及复杂的数据依赖,会导致大量流水线气泡,严重降低性能。现有方法如张量并行(TensorParallelism)存在高频通信开销,传统流水线并行则受限于气泡问题,而混合批处理与分块预填充虽有优化,但仍面临数据依赖和内存开销问题。

Scheduled Interleaved Speech-Text Training for Speech-to-Speech Translation with LLMs
研究背景与问题语音到语音翻译(S2ST)中,基于大语言模型(LLM)的方法需解决从文本到语音的模态适应问题。LLM预训练于纯文本数据,而可用的语音-语音监督数据有限,导致模态差距(长度和表示差异)难以跨越。提出方法调度交错语音文本训练(ScheduledInterleavedSpeech-TextTraining):在LLM微调阶段,使用词级对齐的语音与文本单元交错作为输入/输出,逐步降低文本比例(从0.9衰减至0),促进模型从文本到语音的渐进式模态适应。系统架构。

Specification and Evaluation of Multi-Agent LLM Systems - Prototype and Cybersecurity Applications
本文聚焦于多智能体大型语言模型(LLM)系统的规范设计与评估,提出通过整合LLM推理能力、代码生成和软件执行构建多智能体系统,以解决复杂任务。研究背景:最新LLM(如OpenAI和DeepSeek模型)在推理能力上取得突破,但多智能体系统的联合规范与应用评估尚未被充分探索。系统架构与规范:设计了支持多智能体协作的架构,定义了包含智能体类型、执行函数、评估函数的模式语言(如JSON格式),可指定提示模板、任务动作及结果评估逻辑。实验验证。

EXPEREPAIR: Dual-Memory Enhanced LLM-based Repository-Level Program Repair
研究背景与问题自动程序修复(APR)是软件工程与AI交叉领域的重要挑战,现有基于大语言模型(LLM)的仓库级修复方法存在两大局限:孤立处理问题,未利用历史修复经验;依赖静态提示策略,适应性不足。现实中软件项目常出现重复bug模式,而现有方法缺乏捕获和利用历史修复数据的机制,导致冗余探索和修复效率低下。方法核心:EXPEREPAIR框架双记忆系统:受人类认知的双记忆理论启发,设计情景记忆(存储具体修复案例)和语义记忆(存储抽象修复策略),实现历史经验的积累与复用。工作流程初始阶段。

MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention
本文介绍了MiniMax-M1模型架构与能力:基于混合专家(MoE)架构和闪电注意力(LightningAttention)机制,原生支持100万token的上下文长度(是DeepSeekR1的8倍),最大生成长度达80Ktoken,远超现有开源模型。计算效率:闪电注意力机制显著降低了推理时的计算成本,例如在100Ktoken生成长度下,其FLOPs仅为DeepSeekR1的25%,使其特别适合长上下文和复杂推理任务。训练方法。

WebSailor: Navigating Super-human Reasoning for Web Agent
本文针对开源模型在复杂信息检索任务中与专有系统(如DeepResearch)存在的性能差距,提出了一种名为WebSailor的完整后训练方法,旨在赋予开源模型“系统性降低高不确定性”的超人类推理能力。核心问题:开源模型在处理高不确定性、无预定义路径的复杂信息任务(Level3任务)时表现极差,而专有系统因具备独特推理模式(如系统性降低不确定性)表现优异。方法框架高不确定性任务生成。

Evaluating Large Language Models for Phishing Detection, Self-Consistency, Faithfulness, and Explain
本文聚焦于评估大型语言模型(LLMs)在钓鱼检测任务中的表现,重点关注模型的分类准确性、自一致性、忠实性及可解释性。研究背景为钓鱼攻击持续演化,传统检测方法难以应对,而LLMs在特定领域分类任务中展现潜力,但需同时保证预测准确性与解释的可靠性。研究中,作者使用Nazario(钓鱼邮件)和Enron(正常邮件)数据集,对BERT、Llama-2-7B、Llama-3-8B、Wizard-7B等模型进行微调,采用三种方法:二进制序列分类、对比学习(CL)和直接偏好优化(DPO)。

Instruction Following by Boosting Attention of Large Language Models
控制大型语言模型(LLMs)的生成仍是确保其安全可靠部署的核心挑战。尽管提示工程和微调是常见方法,但近期研究探索了潜在引导——一种通过改变LLM内部激活来引导生成的轻量级技术。然而,后续研究表明,潜在引导的效果有限,其性能往往不如简单的指令提示。为解决这一局限,我们首先建立了一个跨多种行为的基准,用于标准化评估引导技术。基于该基准的洞见,我们提出了指令注意力增强(INSTABOOST),这是一种潜在引导方法,通过在生成过程中调整模型的注意力来增强指令提示的效果。

LLM2Rec: Large Language Models Are Powerful Embedding Models for Sequential Recommendation
本文针对序列推荐任务(通过建模用户历史行为中的协同过滤(CF)信号预测未来交互)的局限性,提出了一种基于大型语言模型(LLM)的嵌入模型LLM2Rec。传统序列推荐方法依赖基于ID的嵌入,虽能捕捉CF信号但缺乏跨域泛化能力;而现有基于文本的推荐方法虽利用LLM的语义表示提升泛化,却忽略了CF信号。协作监督微调(CollaborativeSupervisedFine-Tuning,CSFT):在多领域推荐数据集上微调LLM,使其能根据用户历史交互序列预测下一个物品,从而学习CF信号(如物品共现模式)

ROSAQ: Rotation-based Saliency-Aware Weight Quantization for Efficiently Compressing Large Language
本文提出了一种基于旋转的显著性感知权重量化方法(ROSAQ),旨在高效压缩大型语言模型(LLMs),同时减少内存需求并提升推理速度。基于PCA的投影:对校准集执行主成分分析(PCA),通过PCA投影转换特征空间;针对多头自注意力(MHSA)层,进一步提出头级PCA(head-wisePCA),为每个头的注意力表示单独应用PCA。显著通道识别:选择对应最大K个特征值的维度作为显著通道,其余为非显著通道。混合精度的显著性感知量化。

Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model
本文提出了一种名为的大型语言-视觉-语音模型,旨在实现高效、灵活的多模态对齐,支持文本、视觉、语音多种模态组合的交互。针对视觉与文本的语义互补性,采用序列维度拼接(sequence-dimensionconcatenation)实现视觉-文本对齐;针对语音与文本的语义一致性,引入基于CTC(ConnectionistTemporalClassification)的层维度映射(layer-dimensionmapping)实现语音-文本对齐。

Bi-directional Context-Enhanced Speech Large Language Models for Multilingual Conversational ASR
本文聚焦于多语言对话式自动语音识别(ASR)任务,提出了一种融合语言特定双向上下文的语音大语言模型(SLLM),以提升多语言连续对话语音识别性能。模型架构:采用后对齐设计,结合Whisper-large-v3语音编码器、线性投影器(作为模态适配器)和Gemma-2-2B大语言模型(LLM)作为骨干,训练时冻结语音编码器,微调线性投影器和LLM。训练策略:引入字符级上下文掩码策略,随机移除部分上下文,模拟推理时可能出现的错误转录,增强模型鲁棒性。推理流程。

Decompositional Reasoning for Graph Retrieval with Large Language Models
本文聚焦于大语言模型(LLMs)在多跳推理和知识密集型任务(如复杂问答)中的局限性,提出了一种结合文本知识图谱(textualknowledgegraphs)与分解推理(decompositionalreasoning)的检索增强方法。将复杂问题分解为逻辑有序的子问题;基于子问题和原始复杂问题的加权相似性函数,检索相关文本子图;合并子图形成问题特定的知识图谱,指导LLM生成答案。

Empirical Evaluation of Large Language Models in Automated Program Repair
本文对四种具有代表性的开源大型语言模型(LLMs)在自动程序修复(APR)中的能力进行了全面实证评估,旨在填补现有研究在多语言泛化性、成本效益权衡及影响因素分析上的空白。研究选取了CodeLlama、LLaMA、StarCoder和DeepSeek-Coder四种模型(涵盖7B至33B参数规模,包括通用模型和代码专用模型),在两种bug场景(企业级项目bug和算法作业bug)、三种编程语言(Java、C/C++、Python)及四种提示工程策略下,对六个基准数据集生成并分析了超过600,000个补丁。

2025_NIPS_Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment
多模态大语言模型(MLLMs)仍然容易受到可迁移对抗样本的攻击。现有方法通常通过对齐对抗样本与目标样本之间的全局特征(如CLIP的[CLS]令牌)来实现靶向攻击,但往往忽略了补丁令牌中编码的丰富局部信息。这导致对齐效果欠佳且迁移性有限,尤其对于闭源模型而言。为解决这一局限,我们提出一种基于特征最优对齐的靶向迁移对抗攻击方法,名为FOA-Attack,以提升对抗迁移能力。具体而言,在全局层面,我们引入基于余弦相似度的全局特征损失,使对抗样本的粗粒度特征与目标样本对齐;

2025_NIPS_Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL
大型语言模型(LLMs)在问答和对话等任务中表现出色,但谈判、说服等需要交互的复杂任务,要求模型具备额外的长期推理和规划能力。原则上,强化学习(RL)微调可赋予模型此类规划能力,但存在扩展性不足的缺陷:多轮RL训练会产生高昂的内存和计算成本,在训练LLM作为策略模型时该问题尤为突出;此外,最大规模的LLM并未提供此类训练所需的API。因此,当前提升LLM推理能力的主流方法依赖复杂的提示工程而非RL微调。

2025_NIPS_Table as a Modality for Large Language Models
为迁移大型语言模型(LLMs)的卓越成果,研究界已做出大量努力将其推广至表格推理任务,以适配广泛部署的表格数据。尽管如此,本研究通过在我们提出的StructQA基准数据集上进行探测实验发现,即使是最先进的LLMs(如GPT系列)仍难以妥善处理表格数据。具体而言,现有方案通常仅将表格数据及其元信息序列化后输入LLMs,我们认为结构信息的丢失是这一缺陷的根源。为此,我们提出TAMO框架,其核心思想是将表格视为与文本标记相融合的独立模态。

2025_NIPS_FP4 All the Way: Fully Quantized Training of LLMs
我们首次展示了大型语言模型(LLMs)的全量化训练(FQT),在高达1万亿token的数据集上,权重、激活值和梯度主要采用4位浮点数(FP4)精度。我们深入研究了FP4的关键设计选择,包括块大小、缩放格式和舍入方式。分析表明,NVFP4格式(每个包含16个FP4值的块(E2M1)共享一个以E4M3格式表示的缩放因子)能提供最优结果。我们在反向传播和更新过程中使用随机舍入,在前向传播中使用就近舍入,以提升训练稳定性。

2025_NIPS_Physics of Language Models: Part 4.1, Architecture Design and the Magic of Canon Layers
理解语言模型的架构差异具有挑战性,尤其是在学术规模的预训练中(例如1.3B参数、100Btokens),其结果往往受噪声和随机性主导。为解决这一问题,我们引入了受控的合成预训练任务,用于隔离和评估模型的核心能力。在该框架下,我们发现了Canon层:一种轻量级架构组件——命名灵感源自音乐术语“卡农”(canon)——能够促进相邻token间的水平信息流。Canon层计算相邻token表示的加权和,并可无缝集成到Transformer、线性注意力模型、状态空间模型或任何序列架构中。

2025_NIPS_Explainably Safe Reinforcement Learning
信任决策系统既需要安全保证,也需要解释和理解其行为的能力——这对于学习型系统尤为重要,因为这类系统的决策过程通常高度不透明。屏蔽(Shielding)是强化学习中保障安全性的主流模型驱动技术,但由于屏蔽器通过严格的形式化方法自动合成,其决策对人类而言同样难以解释。近年来,决策树已成为表示控制器和策略的常用工具,但由于屏蔽器本质上具有非确定性,其决策树表示往往过于庞大,无法实际用于解释。为应对这一挑战,我们提出一种新型可解释安全强化学习方法,通过提供人类可理解的屏蔽器决策解释来增强信任。

欢迎留下您的脚印