Loading...

LLM Weekly(2025.02.10-02.16)
本次主要是针对2.10-2.16之间的LLM论文和相关新闻进行摘要总结。

Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention
长上下文建模对于下一代语言模型至关重要,但标准注意力机制的高计算成本带来了重大的计算挑战。稀疏注意力为在保持模型功能的同时提高效率提供了一个有前景的方向。我们提出了NSA,这是一种可本地训练的稀疏注意力机制,它将算法创新与硬件对齐的优化相结合,以实现高效的长上下文建模。NSA采用动态分层稀疏策略,将粗粒度token压缩与细粒度token选择相结合,以保持全局上下文感知和局部精度。我们的方法通过两个关键创新推进了稀疏注意力设计:(1)我们通过算术强度平衡算法设计实现了显著的加速,并对现代硬件进行了实现优化。

MOBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS
扩展有效上下文长度对于向通用人工智能(AGI)推进大型语言模型(LLM)至关重要。然而,传统注意力机制固有的计算复杂性的二次增加带来了令人望而却步的开销。现有的方法要么强加有强烈偏见的结构,如特定于任务的水槽或窗口注意力,要么从根本上将注意力机制修改为线性近似,其在复杂推理任务中的表现仍未得到充分探索。在这项工作中,我们提出了一种遵循“少结构”原则的解决方案,允许模型自主确定参加的地点,而不是引入预定义的偏差。

The Differences Between Direct Alignment Algorithms are a Blur
直接对齐算法(DAAs)通过用直接策略优化取代人类反馈强化学习(RLHF)中的强化学习(RL)和奖励建模(RM)来简化语言模型对齐。DAA可以根据其排名损失(成对与逐点)、这些损失中使用的奖励(例如,政策和参考政策的似然比或比值比)或是否需要监督微调(SFT)阶段(两阶段与一阶段)进行分类。我们首先证明了单阶段方法不如两阶段方法。为了解决这个问题,我们引入了一个显式的SFT阶段,并在单级ORPO和ASFT中引入了控制偏好优化强度的β参数。

SmolLM2: When Smol Goes Big — Data-Centric Training of a Small Language Model
虽然大型语言模型促进了人工智能在许多应用中的突破,但它们固有的庞大性使得它们在计算上昂贵,并且在资源受限的环境中部署起来具有挑战性。在本文中,我们记录了SmolLM2的发展,SmolLM2是一种最先进的“小型”(17亿参数)语言模型(LM)。为了获得强大的性能,我们使用多阶段训练过程,将网络文本与专门的数学、代码和指令跟踪数据混合在一起,在大约11万亿个数据token上对SmolLM2进行过度训练。

Efficient Reasoning with Hidden Thinking
思维链(CoT)推理已成为提高多模态大型语言模型(MLLM)复杂问题解决能力的强大框架。然而,文本推理的冗长性质导致了显著的效率低下。在这项工作中,我们提出了Heima(作为隐藏的llama),这是一种高效的推理框架,利用隐藏潜在空间的推理CoT。我们设计了Heima编码器,使用单个思维token将每个中间CoT压缩成一个紧凑的、更高级的隐藏表示,有效地减少了冗长,减少了推理过程中所需的token总数。

1.58-bit FLUX
我们提出了1.58位FLUX,这是使用1.58位权重(即{-1,0,+1}),同时保持生成1024×1024图像的可比性能。值得注意的是,我们的量化方法在不访问图像数据的情况下运行,完全依赖于FLUX.1-dev模型的自我监督。此外,我们开发了一个针对1.58位操作进行优化的自定义内核,实现了模型存储的7.7倍减少,推理内存的5.1倍减少,以及推理延迟的改善。对GenEval和T2ICompbench基准的广泛评估表明,1.58位FLUX在保持发电质量的同时显著提高了计算效率。

METEOR: Evolutionary Journey of Large Language Models from Guidance to Self-Growth
模型进化能够从反馈中学习,以完善经验和更新技能,将模型从没有领域知识转变为领域专家。然而,目前还没有统一有效的方法来指导这一进化过程。为了解决这个问题,我们提出了Meteor方法,它包括三个训练阶段:从弱到强的数据蒸馏、迭代训练和自我进化策略。每个阶段都最大化模型固有的领域能力,使其能够自主完善其领域知识并提高性能。实验表明,我们的方法显着提高了特定领域任务的准确性、完整性、相关性、连贯性和可靠性。我们的代码可以在找到。

Multi-label Sequential Sentence Classification via Large Language Model
科学出版物中的顺序句子分类(SSC)对于支持细粒度信息检索和提取摘要等下游任务至关重要。然而,当前的SSC方法受到模型大小、序列长度和单标签设置的限制。为了解决这些限制,本文提出了LLM-SSC,这是一种基于大型语言模型(LLM)的框架,适用于单标签和多标签SSC任务。与之前采用中小型语言模型的方法不同,所提出的框架利用LLM通过设计的提示生成SSC标签,通过结合演示和查询来描述预测目标,从而增强任务理解。我们还提出了一种具有自动加权方案的多标签对比学习损失,从而实现了多标签分类任务。

LLM Weekly(2025.02.03-02.09)
本次主要是针对2.3-2.9之间的LLM论文和相关新闻进行摘要总结。

A Survey on Large Language Models for Communication, Network, and Service Management
近几十年来,通信网络的快速发展加剧了对高级网络和服务管理(NSM)策略的需求,以满足对这些网络的效率、可扩展性、增强性能和可靠性日益增长的需求。大型语言模型(LLM)因其在各种自然语言处理(NLP)任务中无与伦比的能力和生成上下文感知见解而受到极大关注,为自动化各种通信NSM任务提供了变革性的潜力。对比考虑单个网络域的现有调查,本调查调查了不同通信网络域之间LLM的集成,包括移动网络和相关技术、车载网络、基于云的网络和基于雾/边缘的网络。

Enhanced Recommendation Combining Collaborative Filtering and Large Language Models
随着信息爆炸时代的到来,推荐系统在各种应用中的重要性日益凸显。传统的协同过滤算法因其在捕获用户行为模式方面的有效性而被广泛使用,但在处理冷启动问题和数据稀疏性时遇到了局限性。大型语言模型(LLMs)凭借其强大的自然语言理解和生成能力,为推荐系统提供了新的突破。本研究提出了一种结合协同过滤和LLM的增强推荐方法,旨在利用协同过滤在建模用户偏好方面的优势,同时通过LLM增强对用户和项目文本信息的理解,以提高推荐的准确性和多样性。

Dynamic Attention-Guided Context Decoding for Mitigating Context Faithfulness Hallucinations
大型语言模型(LLM)经常出现上下文忠实幻觉,由于上下文利用不足和输出不确定性高,输出与检索到的信息存在偏差。我们的不确定性评估实验表明,高不确定性和幻觉之间存在很强的相关性。我们假设注意机制编码了指示上下文利用的信号,并通过探测分析进行了验证。基于这些见解,我们提出了动态注意力引导上下文解码(DAGCD),这是一个轻量级的框架,在单次解码过程中集成了注意力分布和不确定性信号。QA数据集的实验证明了DAGCD的有效性,在保持计算效率的同时,在忠实性和鲁棒性方面实现了显著提高。

ProgCo: Program Helps Self-Correction of Large Language Models
自我纠正旨在使大型语言模型(LLM)能够在没有外部反馈的情况下自我验证和自我完善其初始反应。然而,LLM往往无法有效地进行自我验证并生成正确的反馈,从而进一步误导改进,导致自我纠正失败,尤其是在复杂的推理任务中。本文提出了程序驱动自校正(ProgCo)。首先,程序驱动验证(ProgVe)通过自生成、自执行的验证伪程序实现了复杂的验证逻辑和广泛的验证。然后,程序驱动的精化(ProgRe)从ProgVe接收反馈,对响应和验证程序进行双重反思和精化,以减少复杂推理任务中错误反馈的误导。

rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking
我们提出rStarMath来证明小型语言模型(SLM)可以与OpenAIo1的数学推理能力相媲美甚至超越,而无需从高级模型中提炼出来。rStarMath通过蒙特卡洛树搜索(MCTS)进行“深度思考”来实现这一目标,其中数学策略SLM在基于SLM的过程奖励模型的指导下执行测试时间搜索。rStarMath引入了三项创新来应对训练两个SLM的挑战:(1)一种新的代码增强CoT数据合成方法,该方法执行广泛的MCTS部署,以生成用于训练策略SLM的逐步验证推理轨迹;

Large-scale moral machine experiment on large language models
大型语言模型(LLM)的快速发展及其与自动驾驶系统的潜在集成需要了解它们的道德决策能力。虽然我们之前的研究使用道德机器实验框架考察了四个著名的LLM,但LLM发展的动态格局需要更全面的分析。在这里,我们评估了51种不同LLM的道德判断,包括多种版本的专有模型(GPT、Claude、Gemini)和开源替代品(Llama、Gemma),以评估它们在自动驾驶场景中与人类道德偏好的一致性。使用联合分析框架,我们评估了LLM反应在道德困境中与人类偏好的一致程度,并检查了模型大小、更新和架构的影响。

Byte Latent Transformer: Patches Scale Better Than Tokens
我们介绍了ByteLatentTransformer(BLT),这是一种新的字节级LLM架构,它首次大规模地匹配了基于token化的LLM性能,并显著提高了推理效率和鲁棒性。BLT将字节编码为动态大小的补丁,作为主要的计算单元。补丁根据下一个字节的熵进行分割,在数据复杂性增加的地方分配更多的计算和模型容量。我们首次对字节级模型进行了触发器控制的缩放研究,最大可达8B个参数和4T个训练字节。我们的结果证明了在没有固定词汇表的情况下,对原始字节训练的模型进行缩放的可行性。

EpiCoder: Encompassing Diversity and Complexity in Code Generation
有效的指令调优对于优化代码LLM、使模型行为与用户期望保持一致以及提高现实世界应用程序中的模型性能是必不可少的。然而,大多数现有方法都集中在代码片段上,这些代码片段仅限于特定的功能和刚性结构,限制了合成数据的复杂性和多样性。为了解决这些局限性,我们引入了一种受抽象语法树(AST)启发的基于特征树的合成框架。与捕获代码句法结构的AST不同,我们的框架对代码元素之间的语义关系进行建模,从而生成更细微和多样化的数据。特征树由原始数据构建,并迭代细化,以增加提取特征的数量和多样性。

DYNAMIC-LLAVA: EFFICIENT MULTIMODAL LARGE LANGUAGE MODELS VIA DYNAMIC VISION-LANGUAGE CONTEXT
多模态大型语言模型(MLLM)在视觉理解、推理和交互方面取得了显著的成功。然而,在解码过程中,推理计算和内存随着输出token的生成而逐渐增加,直接影响MLLM的效率。现有的方法试图减少视觉上下文冗余,以实现高效的MLLM。不幸的是,预填充阶段视觉上下文减少的效率效益在解码阶段逐渐降低。为了解决这个问题,我们提出了一种动态视觉语言上下文稀疏化框架dynamicLLaVA,该框架在预填充阶段动态减少了视觉上下文的冗余,并降低了解码过程中生成的语言上下文的内存和计算开销。

Bridging the User-side Knowledge Gap in Knowledge-aware Recommendations with Large Language Models
近年来,知识图谱作为项目侧的辅助信息被整合到推荐系统中,提高了推荐的准确性。然而,由于用户侧特征的粒度不当和固有稀缺性,构建和集成结构化用户侧知识仍然是一个重大挑战。大型语言模型(LLM)的最新进展通过利用其对人类行为的理解和广泛的现实世界知识,提供了弥合这一差距的潜力。然而,将LLM生成的信息集成到推荐系统中带来了挑战,包括噪声信息的风险和需要额外的知识迁移。在本文中,我们提出了一种基于LLM的用户端知识推理方法,以及一个精心设计的推荐框架来解决这些挑战。

欢迎留下您的脚印