Loading...
ClaudeSonnet4如今支持多达100万个token的上下文,这使得AnthropicAPI能够进行大规模的代码分析和文档合成。作为公开测试版,它已与亚马逊Bedrock集成,不久后还将在谷歌云的VertexAI上推出。对于超过20万个token的提示词,定价会有所调整,通过提示词缓存有可能获得折扣。。PerplexityAI提出以345亿美元现金收购谷歌的Chrome,这体现了在人工智能搜索竞赛中,它想利用Chrome庞大用户基础的野心。
UniConv: Unifying Retrieval and Response Generation for Large Language Models in Conversations
本文针对现有对话搜索系统中检索器与生成器分离导致的性能关联弱、维护成本高的问题,提出了一个基于大型语言模型(LLM)的统一模型UniConv,旨在融合对话场景下的密集检索与响应生成任务。设计了对话密集检索目标(基于对比学习)和对话响应生成目标(基于序列生成);提出“上下文识别指令(CII)”机制,增强检索信息与生成过程的一致性;引入“数据差异缓解(DDM)”机制,使用格式规范的对话搜索数据,解决检索与生成任务的输出要求不匹配问题。
WEIGHTED MULTI-PROMPT LEARNING WITH DESCRIPTION-FREE LARGE LANGUAGE MODEL DISTILLATION
近年来,预训练视觉语言模型(VLM)通过提示学习在下游任务中展现出良好的适应性,且无需额外标注的图像-文本配对数据。为补充VLM中与视觉数据关联训练的文本信息,已有研究提出利用大型语言模型(LLM)增强提示,以提升对未见过的多样化数据的鲁棒性。现有方法通常从LLM中提取基于文本的响应(即描述)并融入提示,但这种方式存在高变异性和低可靠性问题。本文提出无描述多提示学习(DeMul),一种跳过描述提取步骤、直接将LLM知识蒸馏到提示中的新方法。
LLM Weekly(2025.07.14-07.20)
ChatGPT引入了全新的智能体功能,能让用户将日程管理、竞争对手分析、电子表格更新等复杂任务托付给它。借助虚拟计算机以及可视化浏览器、终端等工具,ChatGPT能高效地完成各项任务。。moonshotAI推出了KimiK2,这是一款具有先进智能体能力的开源模型,激活参数达320亿,总参数为1万亿。KimiK2在多项任务中表现出色,支持更强大的编码、工具使用和统计分析功能。用户可以通过网页、API或自行托管部署的方式使用KimiK2,其功能还在持续开发优化中。。
Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model
本文针对大型语言模型(LLMs)的强化微调(RFT)中存在的计算效率问题展开研究。现有RFT方法多基于在线策略(on-policy)强化学习(如PPO、GRPO),无法充分利用训练过程中生成的历史数据,导致计算成本高、训练效率低。为此,作者提出了一种名为的通用方法,通过整合离线策略(off-policy)数据,提升RFT的效率,同时保持模型性能。
Robust Multimodal Large Language Models Against Modality Conflict
本文聚焦多模态大语言模型(MLLMs)在视觉-语言任务中因模态冲突模态冲突的定义:指视觉输入与文本输入在信息上存在不一致,具体分为三类——物体冲突(文本提及的物体不在图像中)、属性冲突(文本与图像对同一物体的属性描述不一致)、关系冲突(文本与图像对同一物体间关系的描述不一致)。数据集构建:构建了MultimodalModalityConflict(MMMC)数据集,包含20K个图像-问题-答案三元组,用于模拟上述三种模态冲突场景。缓解方法:提出三种缓解模态冲突导致幻觉的方法——
LLM Weekly(2025.07.21-07.27)
OpenAI正准备发布GPT-5,预计在8月初推出。首席执行官山姆·奥特曼强调了在数学竞赛中的测试阶段和新的研究技术。外部测试人员和安全专家正在对该模型进行评估,预计还会有迷你版和纳米版。其改进包括增强的推理能力、更自然的交互以及更长的上下文长度,这标志着其即将发布。。Lovable在8个月内年度经常性收入突破1亿美元,成为全球增长最快的初创公司。全新的LovableAgent通过处理复杂的多步骤任务以及与外部工具集成,极大地简化了大型软件的构建过程。
Expediting data extraction using a large language model (LLM) and scoping review protocol
本文是一项方法学研究,探索在复杂范围审查(scopingreview)中使用大型语言模型(LLM,具体为Claude3.5Sonnet)加速数据提取的可行性。研究以10个证据源为样本,测试了两种基于审查协议的LLM数据提取方法,并评估其表现,同时探索了LLM对人工提取数据的审查效果。数据提取表现:提取简单、定义明确的引用信息(如作者、年份、标题)时,两种方法准确率较高(83.3%和100%);但提取复杂、主观的数据项(如政策实施原则、优缺点等)时,准确率显著降低(9.6%和15.8%)。
Large Language Model for Extracting Complex Contract Information in Industrial Scenes
本文提出了一种适用于工业场景复杂合同信息提取任务的高质量数据集构建方法,并基于该数据集对大语言模型进行了微调。首先,对工业合同文本进行聚类分析,利用GPT-4和GPT-3.5从原始合同数据中提取关键信息,得到高质量的数据标注。其次,通过构建新文本实现数据增强,由GPT-3.5根据随机组合的关键词生成非结构化合同文本,提升模型的鲁棒性。最后,基于高质量数据集对大语言模型进行微调。实验结果表明,该模型在保证高领域召回率和精度的同时,兼顾了解析效率,整体性能优异。
LLM Weekly(2025.07.28-08.03)
谷歌为Gemini人工智能模型推出了DeepThink升级,通过并行思考技术,让模型有更多“思考时间”来处理复杂任务。DeepThink在创造力、策略制定和编程挑战方面表现出色。。智谱AI推出了GLM-4.5和GLM-4.5-Air,这是经过优化的大型语言模型,在推理、编码和代理任务方面表现优异。在基准测试中,GLM-4.5在顶级模型中排名第三,在网页浏览准确性和代理任务方面尤为突出。
INTEGRATING EXTERNAL TOOLS WITH LARGE LANGUAGE MODELS (LLM) TO IMPROVE ACCURACY
本文旨在改进大型语言模型(LLMs)的查询响应效果。众所周知,若缺乏相关上下文信息,LLMs可能会生成低质量响应或出现幻觉输出。已有多项研究提出通过集成外部工具为LLMs提供实时数据,以提升其准确性。本文提出了一个框架,通过集成外部工具增强LLMs在教育场景中回答查询的能力。具体而言,我们开发的框架支持访问外部API以获取额外相关信息,同时集成的工具还能提供计算能力(如计算器或日历)。基于多模态语言理解(MMLU)数据集的评估结果显示,该方法性能显著优于现有技术。
InvestAlign: Overcoming Data Scarcity in Aligning Large Language Models with Investor Decision-Makin
本文聚焦于行为金融领域中大型语言模型(LLMs)与羊群行为下投资者决策过程的对齐问题,核心挑战是监督微调(SFT)所需真实用户数据的稀缺性。为此,作者提出了InvestAlign框架,通过利用相似简单最优投资问题的理论解构建高质量SFT数据集,而非依赖复杂场景的真实数据。理论分析表明,使用InvestAlign生成的数据集训练LLMs,其参数收敛速度快于真实用户数据,学习效率更高。基于该框架微调得到的InvestAgent,在简单和复杂投资问题中均比预微调模型更接近真实用户决策,验证了InvestAlign
GR-LLMs: Recent Advances in Generative Recommendation Based on Large Language Models
本文是一篇关于基于大型语言模型(LLMs)的生成式推荐(GenerativeRecommendations,GR)的综合性综述,旨在梳理该领域的最新进展并为后续研究提供参考。背景与发展历程:推荐系统经历了三个技术范式——基于机器学习的推荐(MLR)、基于深度学习的推荐(DLR)和生成式推荐(GR)。其中,LLM驱动的GR作为新范式,凭借LLMs强大的序列建模和推理能力,逐渐展现出替代依赖手工特征的传统推荐系统的潜力。核心内容预备知识。
Evaluating Hierarchical Clinical Document Classification Using Reasoning-Based LLMs
该研究旨在评估具有推理能力的大型语言模型(LLMs)在临床文档层级分类(特别是ICD-10代码分类)中的表现。研究背景:ICD-10代码是临床编码的核心,具有层级结构(共5级,从宽泛到具体),人工编码耗时且易出错。LLMs有望辅助编码,但其实用性和推理能力尚未明确。研究目标:对比11种LLMs(含推理模型和非推理模型)在ICD-10代码分类中的表现,评估结构化推理对模型性能的影响。研究方法。
LLM Weekly(2025.08.04-08.10)
OpenAI推出了其最先进的人工智能模型GPT-5,在写作、编程、健康和多模态推理方面提升了性能。GPT-5专为实际应用打造,相比前代产品减少了错误,并改进了风格。专业订阅用户可通过GPT-5Pro获得扩展推理能力。。OpenAI发布了gpt-oss-120b和gpt-oss-20b,这是基于Apache2.0许可证的最先进的开源权重语言模型,经过优化可在消费级硬件上高效部署。这些模型在推理任务中表现出色,优于其他开源模型,并具有强大的安全标准。
LTLCRIT: A TEMPORAL LOGIC-BASED LLM CRITIC FOR SAFE AND EFFICIENT EMBODIED AGENTS
本文提出了一种名为LTLCrit的模块化演员-批评家(actor-critic)架构,旨在提升大型语言模型(LLMs)在具身代理(embodiedagents)长期规划任务中的安全性和效率。架构设计:由LLM演员(actor)和LTLCrit批评家(critic)组成。演员基于自然语言观察选择高层动作,批评家通过线性时序逻辑(LTL)分析完整轨迹,生成新的LTL约束,避免未来的不安全或低效行为。约束类型:包含人工指定的固定安全约束(如避免碰撞)和批评家自动生成的自适应效率约束(如减少冗余动作)。
Blackbox Dataset Inference for LLM
本文聚焦于大型语言模型(LLMs)训练中的“数据集滥用”问题(即检测可疑模型是否使用了特定受害者数据集进行训练),提出了一种仅需黑盒访问权限(仅通过文本响应)的数据集推理方法。问题背景:LLM训练常涉及个人信息或受版权保护的材料,引发隐私和法律争议(如《纽约时报》起诉OpenAI)。现有解决方案中,成员推理攻击(MIAs)因数据集规模扩大或数据分布独立同分布(IID)时准确率接近随机猜测而受限;现有数据集推理方法依赖灰盒访问(需中间输出如概率、损失值),实用性不足。核心方法。
Expediting data extraction using a large language model (LLM) and scoping review protocol
本文是一项方法学研究,旨在探索在复杂的范围审查(scopingreview)中,利用大型语言模型(LLM,具体为Claude3.5Sonnet)和审查协议加速数据提取的可行性。研究通过两种基于范围审查协议的方法,从10个证据源中提取数据,并对其性能进行了评估,同时测试了LLM对人工提取数据的审查能力。核心发现提取简单、定义明确的数据(如引文细节)时,两种方法的准确率较高(分别为83.3%和100%);
Nexus: Proactive Intra-GPU Disaggregation of Prefill and Decode in LLM Serving
当前的预填充-解码(PD)解耦通常部署在整个服务引擎层面,为预填充和解码阶段分配独立的GPU。这种方法虽能降低延迟,但需要更多硬件。为提高GPU利用率,“分块预填充”(ChunkedPrefill)在同一批次中混合预填充和解码请求,却会导致两阶段间的干扰。尽管现有PD解耦方案将两阶段分离到不同GPU上,但本文提出:能否在单个服务引擎内实现同样的解耦?核心挑战在于当两阶段共享硬件时,如何管理它们冲突的资源需求。本文首先证明,分块预填充请求会因对GPU资源的独特需求而干扰解码请求;
From Data-Centric to Sample-Centric: Enhancing LLM Reasoning via Progressive Optimization
本文聚焦于大语言模型(LLMs)的推理能力提升,提出从“数据中心”向“样本中心”转变的优化思路,设计了名为LPPO(Learning-ProgressandPrefix-guidedOptimization)的渐进式优化框架。前缀引导采样(Prefix-GuidedSampling,PG-Sampling):针对模型难以解决的“挑战性样本”,利用专家演示的部分解前缀作为提示,引导模型完成剩余推理,平衡探索与学习效率;