Loading...
大型语言模型(LLMs)在生成式预训练过程中,会获取涵盖科学、历史、地理等多个领域的知识。然而,由于其随机性,我们难以预测LLMs究竟掌握了哪些知识。以往研究通过分析模型隐藏表示、设计特定任务提示、筛选代表性样本以及估算不确定性等方式,提出了多种探测LLMs知识的方法。但这些方法若要探测LLMs对某一特定事实的掌握情况,都需要对底层模型进行前向传播,这使得它们计算成本高昂且耗时。
Omni Geometry Representation Learning vs Large Language Models for Geospatial Entity Resolution
地理空间数据库的开发、集成与维护在很大程度上依赖于高效且准确的地理空间实体解析(ER)匹配流程。尽管兴趣点(POI)的解析问题已得到广泛研究,但具有多样几何类型的实体解析却在很大程度上被忽视。部分原因在于缺乏一种能将异质几何无缝嵌入神经网络框架的统一技术。现有神经方法将复杂几何简化为单点,导致大量空间信息丢失。为解决这一局限,本文提出地理空间ER模型Omni,该模型具有全几何编码器(omni-geometryencoder)。
Learning by Teaching: Engaging Students as Instructors of Large Language Models in Computer Science
尽管大型语言模型(LLMs)常被用作计算机科学(CS)教育中的虚拟导师,但这种模式可能导致学生被动学习和过度依赖。本文提出一种新颖的教学范式,反转了这一传统角色:让学生作为“教师”,必须教会LLM解决问题。为实现这一目标,我们设计了具有“人为知识缺口”的问题——这类缺口仅能由学生填补,并开发了Socrates系统,以极低的使用门槛部署该教学方法。我们在本科课程中对该方法进行了评估,结果表明,与历史cohort相比,这种主动学习方法能显著提升学生成绩。
Self-Rewarding Vision-Language Model via Reasoning Decomposition
视觉-语言模型(VLMs)普遍存在两大关键问题:一是视觉幻觉,即生成图像中不存在的内容;二是语言捷径依赖,即跳过视觉理解,仅依靠文本先验知识回答问题。现有VLMs后训练方法多依赖简单的可验证答案匹配,仅监督最终输出,缺乏对中间视觉推理过程的明确指导,导致模型接收的视觉信号稀疏,优先选择基于语言的推理而非视觉感知。部分方法虽通过人类标注或外部大模型蒸馏标签补充视觉监督,但存在人力成本高、标注难扩展,且外部信号无法适应模型动态更新、易引发奖励攻击等局限。Vision-SR1是一种基于强化学习的自奖励框架,无需外
InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency
InternVL3.5是上海AI实验室InternVL团队推出的新一代开源多模态模型家族,聚焦提升模型的通用性、推理能力与推理效率,在多模态任务中表现突出,且大幅缩小了与商业模型(如GPT-5)的性能差距。我们提出InternVL3.5——一个全新的开源多模态模型家族,它在InternVL系列的基础上,显著提升了模型的通用性、推理能力与推理效率。其中一项核心创新是级联强化学习(CascadeRL)框架。
VIBEVOICE Technical Report
研究背景:现有文本转语音(TTS)技术虽能生成高保真单说话人短语音,但在长文本(如播客、多人有声书)和多说话人对话合成上存在局限——传统拼接式合成难以实现自然的话轮转换与内容感知生成,且多数相关研究要么未开源,要么在生成长度和稳定性上表现不佳。模型架构双语音分词器:包含声学分词器与语义分词器。声学分词器基于σ-VAE(变分自编码器)设计,采用7级改进Transformer块的分层架构,实现3200倍压缩率(24kHz输入对应7.5Hz帧速率),训练目标参考DAC框架;
LLM Weekly(2025.09.01-09.07)
Recent Advances in Transformer and Large Language Models for UAV Applications
基于Transformer的模型的快速发展重塑了无人车(UAV)系统的格局,通过提升感知、决策与自主能力,为该领域带来变革。本文系统分类并评估了应用于无人车的Transformer架构最新进展,包括注意力机制、CNN-Transformer混合模型、强化学习Transformer以及大型语言模型(LLM)。与以往综述不同,本文提出了统一的基于Transformer的无人车模型分类体系,重点强调了精准农业、自主导航等新兴应用场景,并通过结构化表格与性能基准进行对比分析。
Ontology-Guided Query Expansion for Biomedical Document Retrieval using Large Language Models
在大规模生物医学文档集合上实现高效的问答(QA)任务,需要可靠的文档检索技术支持。然而,由于生物医学领域的专用词汇以及用户查询中的语义模糊性,文档检索仍是一项具有挑战性的任务。为此,我们提出了一种新型本体感知查询扩展框架BMQExpander,该框架将UMLS术语表中的医学知识(包括概念定义与语义关系)与大型语言模型(LLM)的生成能力相结合,以提升检索效率。我们实现了多种当前主流的基线方法,包括稀疏检索器、密集检索器、查询扩展方法以及生物医学领域专用解决方案。
CRYPTOSCOPE: UTILIZING LARGE LANGUAGE MODELS FOR AUTOMATED CRYPTOGRAPHIC LOGIC VULNERABILITY DETECTI
密码算法是现代安全的基础,但实际实现中常存在难以检测的细微逻辑漏洞,且现有自动化检测方法多针对密码API误用,对密码逻辑漏洞的检测存在自动化程度低、语言依赖性强、泛化性差等问题。同时,开发者密码专业知识不足以及使用大语言模型(LLMs)辅助编码可能引入漏洞,而广泛使用的密码库若存在漏洞,会影响众多依赖项目。密码算法是现代安全的基础,但其实现却经常存在难以检测的细微逻辑漏洞。本文提出CRYPTOSCOPE,这是一个全新的自动化密码漏洞检测框架,由大语言模型(LLMs)提供技术支持。
Aware First, Think Less: Dynamic Boundary Self-Awareness Drives Extreme Reasoning Efficiency
当前大型语言模型(LLMs)通过长思维链(LongCoT)在复杂推理任务上性能显著提升,但存在大量冗余token,导致计算效率低、实时应用延迟高。现有优化方法多依赖人工定义的难度先验,与模型自身感知的难度不匹配——可能将模型需深度探索的“简单”问题误判为易处理,或将模型可简化推理的“复杂”问题误判为需冗长推理,最终造成推理效率低下、性能欠佳。提出动态推理边界认知范式。
TableReasoner: Advancing Table Reasoning Framework with Large Language Models
本文介绍了我们为表格问答(TQA)任务开发的系统。由于真实世界表格数据的特点(如大尺寸、列语义不完整、实体歧义等),TQA任务面临诸多挑战。为解决这些问题,我们提出了一个基于大语言模型(LLM)和编程的表格推理框架TableReasoner。该框架采用结合结构和语义表示的schema对表格进行建模,实现对大型表格的整体理解和高效处理。我们设计了多步schema链接方案,以生成仅保留查询相关信息的聚焦表格schema,从而消除歧义并缓解幻觉。这种聚焦表格schema为查询细化和编程提供了精确且充分的表格细节。
ON THE GENERALIZATION OF SFT: A REINFORCEMENT LEARNING PERSPECTIVE WITH REWARD RECTIFICATION
本文聚焦于大语言模型(LLM)的监督微调(SFT)方法,旨在解决其与强化学习(RL)相比泛化能力有限的问题。通过数学分析,作者揭示了标准SFT的梯度更新隐含一种有问题的奖励结构——其奖励信号稀疏且与专家行为的概率成反比,导致梯度方差无界、优化不稳定,进而限制模型泛化能力。为解决这一问题,作者提出动态微调(DynamicFine-Tuning,DFT)方法:通过用每个token的概率动态重新缩放SFT的目标函数,稳定梯度更新,修正奖励结构。
VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning
本文针对视觉语言模型(VLMs)中视觉令牌数量激增导致的效率问题,提出了一种名为的新范式。研究发现,大多数通用视觉问答(VQA)任务仅需1/4分辨率的图像即可保持性能,而OCR相关等精细任务则依赖高分辨率输入。动态分辨率调整:先处理低分辨率图像,若信息不足则输出特殊令牌请求高分辨率图像。强化学习优化:采用LLM-as-Judge策略解决通用VQA的评估难题,并扩展多轮GRPO算法适应多轮交互。奖励机制设计:结合准确率奖励、格式奖励和惩罚控制,稳定图像缩放请求比例,避免模型坍缩。
Qwen-Image Technical Report
我们提出Qwen-Image,这是Qwen系列中的一款图像生成基础模型,在复杂文本渲染和精确图像编辑方面取得了显著进展。为解决复杂文本渲染的挑战,我们设计了一套全面的数据处理流程,包括大规模数据收集、过滤、标注、合成与平衡。此外,我们采用渐进式训练策略:从非文本到文本渲染起步,从简单文本输入逐步过渡到复杂文本,最终扩展至段落级描述。这种课程学习方法大幅提升了模型的原生文本渲染能力。因此,Qwen-Image不仅在英语等拼音语言上表现优异,在中文等更具挑战性的表意文字上也取得了显著突破。
Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs
背景与问题:LLMs存在两大局限——知识幻觉(因知识静态存储)和复杂推理能力弱。为此,研究形成两大方向:RAG(提供外部知识)和推理增强方法,但早期两者多为单向增强,存在检索适配性不足、推理深度有限、系统适应性差等问题。三大框架分类推理增强RAG(Reasoning-EnhancedRAG):利用推理优化RAG的检索、整合、生成全流程(如推理感知的查询重构、证据融合、生成时的事实验证)。RAG增强推理(RAG-EnhancedReasoning)
LLM Weekly(2025.08.25-08.31)
该公司营收达467亿美元,同比增长56%,这一增长主要得益于聚焦人工智能的数据中心销售额激增。其中,Blackwell芯片贡献了270亿美元的销售额。不过,受地缘政治因素影响,英伟达在华芯片销售仍面临挑战。英伟达预测,下一季度营收将达540亿美元(不含可能向中国市场出货的H20芯片)。OpenAI推出。此次发布的GPT-Realtime模型与升级版RealtimeAPI,能帮助开发者构建更先进的语音智能体,在语音自然度、推理能力、智能水平及函数调用方面均有提升。
SCREENCODER: ADVANCING VISUAL-TO-CODE GENERATION FOR FRONT-END AUTOMATION VIA MODULAR MULTIMODAL AGE
本文提出了一个名为的模块化多智能体框架,旨在解决将用户界面(UI)设计自动转换为前端代码(HTML/CSS)的问题。**grounding阶段**:利用视觉-语言模型(VLM)检测并标记UI组件(如侧边栏、页眉、导航栏等);**planning阶段**:结合前端工程知识构建层级布局树,明确组件的空间关系和结构;**generation阶段**:通过自适应提示合成生成HTML/CSS代码,并支持用户自然语言指令的交互设计。
A Survey of Context Engineering for Large Language Models
上下文工程的定义与意义:指出LLMs的性能本质上由推理时提供的上下文信息决定,上下文工程超越了简单的提示设计,是对LLMs信息payload(信息负载)进行系统优化的正式学科,旨在解决LLMs的固有局限(如上下文长度约束、幻觉问题等),提升性能、优化资源利用。核心分类框架基础组件(FoundationalComponents)
Seed-Prover: Deep and Broad Reasoning for Automated Theorem Proving
本文介绍了字节跳动开发的两个形式化推理系统——和,旨在提升自动定理证明能力,尤其是解决IMO(国际数学奥林匹克)级别的竞赛问题。:基于Lean形式化语言的全证明推理模型,采用“引理式证明”范式,通过迭代优化(结合Lean反馈、已证明引理和自我总结)提升证明能力。设计了轻、中、重三层次测试时推理策略,实现深度与广度推理结合,在过往IMO问题(78.1%证明率)、MiniF2F(饱和)、PutnamBench(超50%)等基准测试中大幅超越现有最佳模型,并在2025年IMO中证明了6题中的5题。