Loading...
大语言模型(LLMs)已成为现代自然语言处理的支柱,但它存在泄露敏感训练数据的隐私问题。成员推理攻击(MIAs)旨在推断某个样本是否包含在模型的训练数据集中,可能引发更广泛的隐私威胁。现有的针对传统分类模型的防御方法没有考虑文本数据的序列特性,因此,它们要么需要大量的计算资源,要么无法有效降低大语言模型中的隐私风险。在这项研究中,我们提出了一种轻量级且有效的经验隐私防御方法,通过利用大语言模型中token的特定特征来保护语言模型的训练数据。
Sparse Auto-Encoder Interprets Linguistic Features in Large Language Models
大语言模型(LLMs)在需要复杂语言能力的任务中表现出色,如指代消解和隐喻识别/生成。尽管大语言模型能力卓越,但其处理和表示语言知识的内部机制在很大程度上仍是不透明的。以往关于语言机制的研究受限于粒度粗、因果分析不足以及关注点狭窄等问题。在本研究中,我们使用稀疏自动编码器(SAEs)进行了系统全面的因果研究。我们从语音、音系、形态、句法、语义和语用这六个维度提取了广泛的语言特征。通过构建最小对比数据集和反事实句子数据集,对这些特征进行提取、评估和干预。
LLM Weekly(2025.02.24-03.02)
Chegg指控谷歌"AI摘要"功能非法抓取其内容,违反《谢尔曼法案》反垄断条款。诉讼指出谷歌滥用搜索垄断地位损害竞争。谷歌回应称做法合法,将积极应诉,此案反映AI领域知识产权争议趋势。
Collaborative Stance Detection via Small-Large Language Model Consistency Verification
社交媒体上的立场检测旨在识别推文中对特定目标表达的态度。当前研究由于大语言模型(LLMs)具有显著的性能提升,因而更倾向于使用它们,而非小语言模型(SLMs)。然而,对于需要大量数据分析的现实社交媒体监测系统而言,不计成本地过度依赖大语言模型进行立场检测并不现实。为此,我们提出了通过小大语言模型一致性验证的协同立场检测(CoVer)框架,该框架通过上下文共享的批量推理以及大语言模型和小语言模型之间的逻辑验证,提高了大语言模型的利用效率。
GeoEdit: Geometric Knowledge Editing for Large Language Models
定期更新对于保持大语言模型(LLMs)中的知识时效性至关重要。因此,人们开发了各种模型编辑方法来更新LLMs中的特定知识。然而,基于训练的方法往往难以在有效融入新知识的同时保留不相关的通用知识。为应对这一挑战,我们提出了一种名为几何知识编辑(GeoEdit)的全新框架。GeoEdit利用微调过程中参数更新的几何关系,区分与新知识更新相关的神经元和与通用知识扰动相关的神经元。通过采用方向感知知识识别方法,我们避免更新与现有知识方向近似正交的神经元,从而保留模型的泛化能力。
OSWORLD: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments
能够在最少人工干预下完成复杂计算机任务的自主智能体,有望变革人机交互方式,显著提升易用性和生产效率。然而,现有的基准测试要么缺乏交互式环境,要么局限于特定应用或领域的环境,无法反映现实世界中计算机使用的多样性和复杂性,进而限制了任务范围和智能体的可扩展性。为解决这一问题,我们推出了OSWORLD,这是首个专为多模态智能体设计的可扩展真实计算机环境,支持在Ubuntu、Windows和macOS等多种操作系统上进行任务设置、基于执行的评估以及交互式学习。
Meta-Reasoner: Dynamic Guidance for Optimized Inference-time Reasoning in Large Language Models
大语言模型(LLMs)越来越依赖冗长的推理链来解决复杂任务。然而,这种试错方法往往会导致高昂的计算成本和错误传播,早期的错误可能会使后续步骤偏离正轨。为解决这些问题,我们引入了Meta-Reasoner框架,它通过让大语言模型“思考如何思考”来动态优化推理时的推理过程。受人类元认知和双过程理论的启发,Meta-Reasoner就像一个战略顾问,将高级指导与逐步生成过程分离。
Emergent Symbolic Mechanisms Support Abstract Reasoning in Large Language Models
最近的许多研究都发现了大语言模型中出现推理能力的证据,但对于这些能力的稳健性,以及它们在多大程度上依赖于结构化推理机制,仍存在争议。为了阐明这些问题,我们对支持开源语言模型Llama3-70B中抽象规则归纳的内部机制进行了全面研究。我们识别出一种新兴的符号架构,它通过一系列三个计算步骤来实现抽象推理。在早期层中,符号抽象头基于输入token之间的关系将其转换为抽象变量。在中间层中,符号归纳头对这些抽象变量进行序列归纳。最后,在后期层中,检索头通过检索与预测的抽象变量相关联的值来预测下一个token。
Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?
最近,类似o1的模型备受关注,这些模型通过生成冗长的思维链(CoT)推理步骤来提升现有大语言模型(LLMs)的推理能力。在本文中,为了理解这些长思维链的质量,并衡量现有大语言模型对这些长思维链的批判能力,我们引入了DeltaBench。它包含了不同类似o1的模型(如QwQ、DeepSeek-R1)针对不同推理任务(如数学、代码、通用推理)生成的长思维链,用于衡量在长思维链推理中检测错误的能力。
Do Large Language Models Know How Much They Know?
大型语言模型(LLM)已经成为功能强大的系统,并且越来越多地被集成到各种用途中。然而,其部署速度之快超过了对其内部机制的全面了解以及对其能力和局限性的界定。智能系统的一个理想属性是它识别自身知识范围的能力。为了研究LLM是否体现了这一特征,我们开发了一个基准测试,旨在挑战这些模型,以枚举它们在特定主题上拥有的所有信息。该基准评估模型是否回忆起过多、不足或精确的信息量,从而表明他们对自己知识的认识。我们的研究结果表明,所有经过测试的LLM,如果规模足够大,都表明他们对特定主题的了解程度。
DATAMAN: DATA MANAGER FOR PRE-TRAINING LARGE LANGUAGE MODELS
由数据缩放规律驱动的大型语言模型(LLM)的性能出现使得预训练数据的选择变得越来越重要。然而,现有的方法依赖于有限的启发式和人类直觉,缺乏全面明确的指导方针。为了解决这个问题,我们受到了“逆向思维”的启发,促使LLM自我识别哪些标准有利于其表现。由于其预训练能力与困惑度(PPL)有关,我们从文本困惑度异常的原因中推导出了14个质量标准,并引入了15个常见的应用领域来支持领域混合。
Taxonomy, Opportunities, and Challenges of Representation Engineering for Large Language Models
表示工程(RepE)是一种控制LLM行为的新范式。与修改输入或微调模型的传统方法不同,RepE直接操纵模型的内部表示。因此,它可以对模型的行为提供更有效、可解释、数据高效和灵活的控制。我们首次对LLM的RepE进行了全面调查,回顾了快速增长的文献,以解决关键问题:存在哪些RepE方法,它们有何不同?RepE被应用于哪些概念和问题?与其他方法相比,RepE的优缺点是什么?为了回答这些问题,我们提出了一个统一的框架,将RepE描述为一个包括表示识别、操作和控制的管道。
Towards Omni-RAG: Comprehensive Retrieval-Augmented Generation for Large Language Models in Medical
大型语言模型有望解决医疗挑战,如医疗诊断推理、研究知识获取、临床决策和消费者健康查询支持。然而,由于医学知识有限,他们经常产生幻觉。因此,整合外部知识至关重要,这需要多源知识的获取。我们通过将其视为源规划问题来应对这一挑战,即根据不同源的属性制定适合上下文的查询。现有的方法要么忽视了源计划,要么由于模型对源的期望与其实际内容之间的不一致而无法有效地实现它。为了弥合这一差距,我们提出了MedOmniKB,这是一个由多类型和多结构医学知识源组成的知识库。
A Survey on Large Language Models with some Insights on their Capabilities and Limitations
人工智能的快速发展,特别是基于transformer架构的大型语言模型(LLM)的发展,重新定义了自然语言处理的能力。这些模型现在在各种与语言相关的任务中表现出卓越的性能,如文本生成、问答、翻译和摘要,通常可以与人类的理解能力相媲美。更有趣的是,LLM已经证明了超越其核心功能的涌现能力,表现出对常识推理、代码生成和算术等任务的熟练程度。本文探讨了驱动这些功能的基础组件、扩展机制和架构策略。我们强调GPT和LLaMA等模型,分析指数数据和计算增长对LLM性能的影响,同时解决与扩展相关的权衡问题。
LLM Weekly(2025.01.27-02.02)
本次主要是针对1.27-2.02之间的LLM论文和相关新闻进行摘要总结。
Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs
大型语言模型(LLM),如OpenAI的o1,通过扩展测试时间计算和表现出类人的深度思维,在复杂的推理任务中表现出了非凡的能力。然而,我们发现了一种我们称之为“欠思考”的现象,即类似o1的LLM经常在不同的推理思维之间切换,而没有充分探索有希望的路径来达到正确的解决方案。这种行为会导致推理深度不足和性能下降,特别是在具有挑战性的数学问题上。为了系统地分析这个问题,我们在三个具有挑战性的测试集和两个具有代表性的开源类o1模型上进行了实验,揭示了频繁的思维转换与不正确的反应相关。
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training
监督微调(SFT)和强化学习(RL)是基础模型训练后广泛使用的技术。然而,它们在增强模型泛化方面各自的作用尚不清楚。本文研究了SFT和RL在泛化和记忆方面的比较效果,重点研究了基于文本和视觉环境。我们介绍了算术推理纸牌游戏GeneralPoints,并考虑了现实世界的导航环境V-IRL,以评估用SFT和RL训练的模型如何泛化到文本和视觉领域中看不见的变体。我们发现,强化学习,特别是在基于结果的奖励训练中,在基于规则的文本和视觉环境中都具有普遍性。
s1: Simple test-time scaling
测试时间缩放是一种有前景的语言建模新方法,它使用额外的测试时间计算来提高性能。最近,OpenAI的o1模型显示了这种能力,但没有公开分享其方法,导致了许多复制工作。我们寻求最简单的方法来实现测试时间扩展和强大的推理性能。首先,我们根据我们通过消融验证的三个标准(难度、多样性和质量),策划了一个包含1000个问题和推理痕迹的小型数据集s1K。其次,我们开发了预算强制来控制测试时间计算,方法是强制终止模型的思维过程,或者在模型试图结束时多次向模型的生成添加“等待”来延长它。
CODEI/O: Condensing Reasoning Patterns via Code Input-Output Prediction
推理是大型语言模型的基本能力。虽然之前的研究主要集中在提高数学或代码生成等狭义技能上,但由于训练数据稀疏和碎片化,提高许多其他推理任务的性能仍然具有挑战性。为了解决这个问题,我们提出了CODEI/O,这是一种新颖的方法,通过将原始代码转换为代码输入输出预测格式,系统地压缩了嵌入在基于上下文的代码中的各种推理模式。
MLGym: A New Framework and Benchmark for Advancing AI Research Agents
我们介绍了MetaMLGym和MLGymBench,这是一个新的框架和基准,用于评估和开发AI研究任务中的LLM代理。这是第一个用于机器学习(ML)任务的Gym环境,可以研究用于训练此类代理的强化学习(RL)算法。MLGymbench由13个不同的开放式人工智能研究任务组成,这些任务来自计算机视觉、自然语言处理、强化学习和博弈论等不同领域。解决这些任务需要现实世界的人工智能研究技能,例如生成新的想法和假设,创建和处理数据,实施机器学习方法,训练模型,运行实验,分析结果,并迭代这个过程以改进给定的任务。