Loading...
据《华尔街日报》报道,OpenAI与甲骨文公司据称签署了一项具有历史意义的云计算协议。甲骨文与OpenAI达成了一项重大云计算合作,承诺自2027年起的五年内,提供价值3000亿美元的计算能力。这使OpenAI成为甲骨文的主要客户之一,同时OpenAI也在从微软Azure平台多元化发展,并继续参与“星门计划”(StargateProject)以扩建数据中心。Nebius与微软签署174亿美元AI基础设施协议,股价大涨。
Towards a Unified View of Large Language Model Post-Training
现代语言模型后训练的核心数据来源主要有两类:一类是在线数据(即模型生成的rollouts数据),另一类是离线数据(即人类或其他模型提供的演示数据)。这两类数据通常分别被用于强化学习(RL)和监督微调(SFT)等后训练方法中。本文研究表明,这些方法并非相互对立,而是同一优化过程的不同实例。我们推导出一种“统一策略梯度估计器”,并证明:在不同数据分布假设和各类偏差-方差权衡条件下,各类后训练方法的计算过程均可表示为某一共同目标函数的梯度形式。
The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
智能体强化学习(AgenticRL)的出现,标志着从应用于大型语言模型(LLMs)的传统强化学习(LLMRL)向新范式的转变。它将LLMs从被动的序列生成器,重新定义为嵌入复杂、动态环境中的自主决策智能体。本综述通过对比LLMRL的退化单步马尔可夫决策过程(MDPs)与定义AgenticRL的时间扩展型部分可观测马尔可夫决策过程(POMDPs),正式确立了这一概念转变。在此基础上,我们提出了一套全面的双重分类法:一种分类法围绕核心智能体能力构建,包括规划、工具使用、记忆、推理、自我提升和感知;
INCENTIVIZING GENERAL-PURPOSE AUTOTHINKING CAPABILITY IN MLLMS VIA BI-MODE ANNEALING AND REINFORCE L
配备逐步思考能力的多模态大型语言模型(MLLMs)在复杂推理问题上已展现出卓越性能。然而,对于无需复杂推理即可解决的简单问题而言,这种思考过程存在冗余。为解决这一效率问题,我们提出了自动思考型MLLM——R-4B,它能够根据问题复杂度自适应地决定何时启动思考流程。R-4B的核心思路是通过双模式退火技术为模型同时赋予思考与非思考能力,并应用双模式策略优化(BPO)来提升模型判断是否启动思考流程的准确性。
A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems
核心分类框架:从两个正交维度对LLM推理现有方法分类机制维度(Regimes):依据推理实现的阶段划分,涵盖推理时(inferencetime)实现推理的方法,以及通过专门训练(dedicatedtraining)实现推理的方法。架构维度(Architectures):根据推理过程涉及的组件区分,一类是独立的大型语言模型(standaloneLLMs),另一类是智能体复合系统(agenticcompoundsystems),这类系统融入了外部工具和多智能体协作机制。关键分析视角。
Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth
我们引入“无意义话语学”(Drivelology)这一独特的语言现象,其特征为“有深度的无意义话语”——这类话语在句法上连贯,但在语用层面存在矛盾、蕴含情感或具有颠覆性修辞特征。尽管此类表达表面上可能与浅层无意义话语相似,但其承载着隐含意义,这些意义需要通过语境推断、道德推理或情感解读才能理解。研究发现,当前的大型语言模型(LLMs)虽在众多自然语言处理(NLP)任务中表现出色,却始终无法掌握无意义话语学文本的多层语义。
Adaptive Backtracking for Privacy Protection in Large Language Models
在人工智能时代,隐私保护已成为关键议题。然而,当前研究多聚焦于用户导向隐私,却忽视了检索增强生成(RAG)范式加剧的严重企业数据泄露风险。为填补这一空白,本文提出一个新目标:企业导向隐私关注。实现该目标需克服两大核心挑战:数据清洗等现有方法会大幅降低模型性能,且领域内缺乏用于评估的公开数据集。针对这些挑战,本文提出如下解决方案:(1)为避免性能损失,提出无需训练的机制ABack,该机制利用隐藏状态模型定位泄露意图的源头,并安全重写输出内容;
MATHREAL: We Keep It Real! A Real Scene Benchmark for Evaluating Math Reasoning in Multimodal
多模态大型语言模型(MLLMs)已在各类现有基准测试中展现出卓越的视觉数学推理能力。然而,这些基准主要基于清晰或经过处理的多模态输入,并未纳入现实世界中小学(K-12)教育场景下用户提供的图像。为填补这一空白,我们提出了MATHREAL——一个精心构建的数据集,包含2000道数学题,这些题目均为在真实场景下通过手持移动设备拍摄的图像。每道题目以图像形式呈现,包含题目文本和视觉元素。我们将这些真实图像系统地分为三大类:图像质量退化、视角变化和无关内容干扰,并进一步细分为14个子类。
Efficient Knowledge Probing of Large Language Models by Adapting Pre-trained Embeddings
大型语言模型(LLMs)在生成式预训练过程中,会获取涵盖科学、历史、地理等多个领域的知识。然而,由于其随机性,我们难以预测LLMs究竟掌握了哪些知识。以往研究通过分析模型隐藏表示、设计特定任务提示、筛选代表性样本以及估算不确定性等方式,提出了多种探测LLMs知识的方法。但这些方法若要探测LLMs对某一特定事实的掌握情况,都需要对底层模型进行前向传播,这使得它们计算成本高昂且耗时。
Omni Geometry Representation Learning vs Large Language Models for Geospatial Entity Resolution
地理空间数据库的开发、集成与维护在很大程度上依赖于高效且准确的地理空间实体解析(ER)匹配流程。尽管兴趣点(POI)的解析问题已得到广泛研究,但具有多样几何类型的实体解析却在很大程度上被忽视。部分原因在于缺乏一种能将异质几何无缝嵌入神经网络框架的统一技术。现有神经方法将复杂几何简化为单点,导致大量空间信息丢失。为解决这一局限,本文提出地理空间ER模型Omni,该模型具有全几何编码器(omni-geometryencoder)。
Learning by Teaching: Engaging Students as Instructors of Large Language Models in Computer Science
尽管大型语言模型(LLMs)常被用作计算机科学(CS)教育中的虚拟导师,但这种模式可能导致学生被动学习和过度依赖。本文提出一种新颖的教学范式,反转了这一传统角色:让学生作为“教师”,必须教会LLM解决问题。为实现这一目标,我们设计了具有“人为知识缺口”的问题——这类缺口仅能由学生填补,并开发了Socrates系统,以极低的使用门槛部署该教学方法。我们在本科课程中对该方法进行了评估,结果表明,与历史cohort相比,这种主动学习方法能显著提升学生成绩。
Self-Rewarding Vision-Language Model via Reasoning Decomposition
视觉-语言模型(VLMs)普遍存在两大关键问题:一是视觉幻觉,即生成图像中不存在的内容;二是语言捷径依赖,即跳过视觉理解,仅依靠文本先验知识回答问题。现有VLMs后训练方法多依赖简单的可验证答案匹配,仅监督最终输出,缺乏对中间视觉推理过程的明确指导,导致模型接收的视觉信号稀疏,优先选择基于语言的推理而非视觉感知。部分方法虽通过人类标注或外部大模型蒸馏标签补充视觉监督,但存在人力成本高、标注难扩展,且外部信号无法适应模型动态更新、易引发奖励攻击等局限。Vision-SR1是一种基于强化学习的自奖励框架,无需外
InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency
InternVL3.5是上海AI实验室InternVL团队推出的新一代开源多模态模型家族,聚焦提升模型的通用性、推理能力与推理效率,在多模态任务中表现突出,且大幅缩小了与商业模型(如GPT-5)的性能差距。我们提出InternVL3.5——一个全新的开源多模态模型家族,它在InternVL系列的基础上,显著提升了模型的通用性、推理能力与推理效率。其中一项核心创新是级联强化学习(CascadeRL)框架。
VIBEVOICE Technical Report
研究背景:现有文本转语音(TTS)技术虽能生成高保真单说话人短语音,但在长文本(如播客、多人有声书)和多说话人对话合成上存在局限——传统拼接式合成难以实现自然的话轮转换与内容感知生成,且多数相关研究要么未开源,要么在生成长度和稳定性上表现不佳。模型架构双语音分词器:包含声学分词器与语义分词器。声学分词器基于σ-VAE(变分自编码器)设计,采用7级改进Transformer块的分层架构,实现3200倍压缩率(24kHz输入对应7.5Hz帧速率),训练目标参考DAC框架;
LLM Weekly(2025.09.01-09.07)
Recent Advances in Transformer and Large Language Models for UAV Applications
基于Transformer的模型的快速发展重塑了无人车(UAV)系统的格局,通过提升感知、决策与自主能力,为该领域带来变革。本文系统分类并评估了应用于无人车的Transformer架构最新进展,包括注意力机制、CNN-Transformer混合模型、强化学习Transformer以及大型语言模型(LLM)。与以往综述不同,本文提出了统一的基于Transformer的无人车模型分类体系,重点强调了精准农业、自主导航等新兴应用场景,并通过结构化表格与性能基准进行对比分析。
Ontology-Guided Query Expansion for Biomedical Document Retrieval using Large Language Models
在大规模生物医学文档集合上实现高效的问答(QA)任务,需要可靠的文档检索技术支持。然而,由于生物医学领域的专用词汇以及用户查询中的语义模糊性,文档检索仍是一项具有挑战性的任务。为此,我们提出了一种新型本体感知查询扩展框架BMQExpander,该框架将UMLS术语表中的医学知识(包括概念定义与语义关系)与大型语言模型(LLM)的生成能力相结合,以提升检索效率。我们实现了多种当前主流的基线方法,包括稀疏检索器、密集检索器、查询扩展方法以及生物医学领域专用解决方案。
CRYPTOSCOPE: UTILIZING LARGE LANGUAGE MODELS FOR AUTOMATED CRYPTOGRAPHIC LOGIC VULNERABILITY DETECTI
密码算法是现代安全的基础,但实际实现中常存在难以检测的细微逻辑漏洞,且现有自动化检测方法多针对密码API误用,对密码逻辑漏洞的检测存在自动化程度低、语言依赖性强、泛化性差等问题。同时,开发者密码专业知识不足以及使用大语言模型(LLMs)辅助编码可能引入漏洞,而广泛使用的密码库若存在漏洞,会影响众多依赖项目。密码算法是现代安全的基础,但其实现却经常存在难以检测的细微逻辑漏洞。本文提出CRYPTOSCOPE,这是一个全新的自动化密码漏洞检测框架,由大语言模型(LLMs)提供技术支持。
Aware First, Think Less: Dynamic Boundary Self-Awareness Drives Extreme Reasoning Efficiency
当前大型语言模型(LLMs)通过长思维链(LongCoT)在复杂推理任务上性能显著提升,但存在大量冗余token,导致计算效率低、实时应用延迟高。现有优化方法多依赖人工定义的难度先验,与模型自身感知的难度不匹配——可能将模型需深度探索的“简单”问题误判为易处理,或将模型可简化推理的“复杂”问题误判为需冗长推理,最终造成推理效率低下、性能欠佳。提出动态推理边界认知范式。
TableReasoner: Advancing Table Reasoning Framework with Large Language Models
本文介绍了我们为表格问答(TQA)任务开发的系统。由于真实世界表格数据的特点(如大尺寸、列语义不完整、实体歧义等),TQA任务面临诸多挑战。为解决这些问题,我们提出了一个基于大语言模型(LLM)和编程的表格推理框架TableReasoner。该框架采用结合结构和语义表示的schema对表格进行建模,实现对大型表格的整体理解和高效处理。我们设计了多步schema链接方案,以生成仅保留查询相关信息的聚焦表格schema,从而消除歧义并缓解幻觉。这种聚焦表格schema为查询细化和编程提供了精确且充分的表格细节。