Loading...

Mephisto: Self-Improving Large Language Model-Based Agents for Automated Interpretation
长期以来,天文学研究依赖人类专业知识解读复杂数据并提出科学假设。本研究提出Mephisto——一个由大型语言模型(LLMs)驱动的多智能体协作框架,可模拟类人推理过程,用于分析多波段星系观测数据。Mephisto对接CIGALE代码库(包含光谱能量分布(SED)模型的工具库),通过迭代优化物理模型以匹配观测数据。该框架借助树搜索实现审慎推理,通过自博弈积累知识,并动态更新知识库。

video models are zero-shot learners and reasoners
大型语言模型(LLMs)卓越的零样本能力,已将自然语言处理从任务特定模型推向统一的通用基础模型。这一变革源于简单的核心原理:基于网络规模数据训练的大型生成式模型。有趣的是,同样的原理也适用于当前的生成式视频模型。视频模型是否能像LLMs发展出通用语言理解能力那样,走向通用视觉理解的道路?本文证明,Veo3能够解决大量未经过显式训练的任务,包括物体分割、边缘检测、图像编辑、物理属性理解、物体功能识别、工具使用模拟等。这些感知、建模和操作视觉世界的能力,使其能够实现迷宫求解、对称补全等早期形式的视觉推理。

NEURON-LEVEL ANALYSIS OF CULTURAL UNDERSTANDING IN LARGE LANGUAGE MODELS
研究背景与问题背景:LLMs在全球广泛应用,但存在文化偏见,对少数族裔文化认知有限,且其文化理解机制尚未被充分探索。现有局限:此前研究多关注语言与文化的关联,依赖激活基方法,难以精准定位文化相关神经元,且缺乏多文化基准的综合评估。核心方法:CULNIGpipeline目的:精准识别支撑文化理解的“文化通用神经元”(跨文化通用)和“文化特定神经元”(对应单一文化)。关键步骤:采用基于梯度的归因分数(量化神经元对文化任务的重要性),结合控制数据集(BLEnD_ctrl)排除任务理解相关神经元。

LONGLIVE: REAL-TIME INTERACTIVE LONG VIDEO GENERATION
研究背景与挑战长视频生成需兼顾效率与质量:扩散模型及扩散强制模型虽能生成高质量视频,但依赖双向注意力导致推理效率低;因果注意力AR模型支持KV缓存加速推理,却因长视频训练时的内存问题导致质量退化。交互式需求增加复杂度:静态提示生成限制灵活性,而流式提示输入等交互能力需保证提示切换时的视觉一致性与语义连贯性,进一步提升技术难度。核心技术方案KV重缓存(KV-recache)

The Hidden Bias: A Study on Explicit and Implicit Political Stereotypes in Large Language Models
背景:LLMs日益融入信息传播与决策过程,其潜在政治偏见可能影响公众舆论与民主进程,但当前对LLM政治偏见的系统性研究仍有不足。目标:通过PCT评估8个主流LLMs的固有政治倾向,探索显式(角色提示)与隐式(多语言PCT)政治刻板印象,明确模型偏见特征与形成机制。大语言模型(LLMs)在信息传播与决策过程中的作用日益重要。鉴于其不断增强的社会影响力,理解其潜在偏见(尤其是政治领域的偏见)对于防止其对公众舆论和民主进程产生不当影响至关重要。

ACTIVE CONFUSION EXPRESSION IN LARGE LANGUAGE MODELS: LEVERAGING WORLD MODELS TOWARD BETTER SOCIAL R
研究背景与问题LLMs在数学、代码推理上表现优异,但在社交推理任务中存在明显缺陷,包括认知混乱(如处理多时间线时)、逻辑不一致(分析复杂人物关系时),以及混淆客观世界状态(如物体移动、人物离开)与主观信念状态(如人物对事件的认知)。通过分析DeepSeek-R1的推理轨迹发现,模型在处理多参与者、多时间线场景时,常输出“tricky”“confused”等矛盾词汇,陷入推理僵局或无限循环,核心原因是无法区分客观现实与主体主观信念。提出的解决方案:自适应世界模型增强推理机制触发机制。

LIGHTREASONER: CAN SMALL LANGUAGE MODELS TEACH LARGE LANGUAGE MODELS REASONING?
LightReasoner是一个利用小型语言模型(SLM,扮演“Amateur模型”)指导大型语言模型(LLM,扮演“Expert模型”)提升推理能力的框架,核心是通过捕捉两模型的行为差异,定位高价值推理时刻,实现高效微调。研究背景:传统监督微调(SFT)提升LLM推理能力时,依赖大规模人工标注数据、拒绝采样演示,且对所有token均匀优化,资源消耗大,而仅少数token具有实际学习价值。核心思路:LLM与SLM在推理过程中存在行为差异,这些差异对应的时刻往往是关键推理步骤。

VCRL: VARIANCE-BASED CURRICULUM REINFORCEMENT LEARNING FOR LARGE LANGUAGE MODELS
本文聚焦于基于策略的强化学习在提升大型语言模型(LLMs)数学推理能力中的应用,针对现有基于滚动(rollout)的强化学习方法(如GRPO、DAPO、GSPO)未考虑模型对不同难度样本学习能力的缺陷,提出了基于方差的课程强化学习框架(VCRL)基于策略的强化学习目前在提升大型语言模型(LLMs)数学推理任务性能方面发挥着重要作用。然而,现有基于滚动的强化学习方法(如GRPO、DAPO、GSPO等)未能明确考虑LLMs对不同难度样本的学习能力,这与人类解决数学推理任务时“由易到难”的认知过程相悖。

SOLVING A MILLION-STEP LLM TASK WITH ZERO ERRORS
大型语言模型(LLMs)在推理、洞察和工具使用方面取得了显著突破,但将这些能力串联成人类、组织和社会日常执行的大规模流程,仍难以实现。这些模型存在持续的误差率,阻碍了规模化扩展:例如,近期在汉诺塔基准任务中的实验表明,流程最多在数百步后就会不可避免地失控。因此,尽管LLM研究通常仍以逻辑依赖步骤相对较少的任务为基准,但人们越来越关注LLM执行长程任务的能力(或无能)。本文提出MAKER系统,这是首个成功零错误解决超百万步LLM任务的系统,且理论上可扩展至更远距离。

LLM Weekly(2025.11.17-11.23)


LeJEPA: Provable and Scalable Self-Supervised Learning Without the Heuristics
针对现有联合嵌入预测架构(JEPAs)依赖启发式方法、易出现表征坍缩、理论基础薄弱的问题,提出了LeJEPA——一种基于理论的轻量化、可扩展自监督学习框架。核心逻辑:通过理论证明确定最优嵌入分布(各向同性高斯分布),设计SIGReg正则化约束嵌入满足该分布,结合JEPAs的预测损失,实现无启发式、稳定的自监督预训练。

Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds
我们提出Lumine,首个用于开发通用智能体的开放方案,该智能体能够在3D开放世界中完成数小时级的复杂任务。构建能在开放世界中以人类水平进行感知、推理和行动的通用自主智能体,长期以来一直是通用人工智能研究的核心目标。尽管传统智能体在受限领域(如Atari、围棋、Dota2等)已取得显著进展,但它们仍局限于封闭环境,泛化能力弱、适应性差,难以应对开放世界的模糊性和多样性。Lumine以自然语言为基础,统一感知、推理和行动,基于Qwen2-VL-7B-Base模型构建。

Memory Retrieval and Consolidation in Large Language Models through Function Tokens
LLMs虽能通过预训练巩固知识、推理时检索知识,但记忆检索与巩固的机制尚不明确。研究受语言学中“功能词”概念启发,将LLM的令牌分为函数令牌(高频,如标点、介词、冠词)和内容令牌(低频,如名词、动词),探究二者在记忆机制中的作用。大型语言模型(LLMs)的显著成功,源于其能在预训练阶段将海量知识巩固到记忆中,并在推理阶段从记忆中检索知识——这一能力使其具备知识记忆、指令遵循和推理等高级功能。然而,LLMs中记忆检索与巩固的机制仍未被充分理解。

One Small Step in Latent, One Giant Leap for Pixels: Fast Latent Upscale Adapter for Your Diffusion
扩散模型难以突破训练分辨率的限制:直接高分辨率采样速度慢、成本高,而事后图像超分辨率(ISR)在解码后执行,会引入伪影并增加额外延迟。本文提出潜在超分适配器(LUA),这是一个轻量级模块,在最终VAE解码步骤前,直接对生成器的潜在代码执行超分辨率。LUA可作为即插即用组件集成,无需修改基础模型或增加额外扩散阶段,通过潜在空间中的单次前馈传递实现高分辨率合成。

TiDAR: Think in Diffusion, Talk in Autoregression
TiDAR是一款序列级混合架构语言模型,核心目标是解决自回归(AR)模型吞吐量低、扩散语言模型(dLM)质量与并行性矛盾的问题。其通过“扩散drafting(思考)+自回归sampling(生成)”的双模式设计,在单模型单次前向传播中实现并行高效生成与高质量输出的平衡。背景:AR模型生成质量高但逐token生成、吞吐量低;扩散模型支持并行生成但存在质量退化,现有方法难以兼顾三者。

Haibu Mathematical-Medical Intelligent Agent: Enhancing Large Language Model Reliability in Medical
研究背景与问题LLMs在处理复杂医疗信息上潜力巨大,可应用于临床决策支持、疾病诊断等领域,但因其概率性本质,存在事实幻觉和逻辑不一致问题,在医疗这类高风险领域难以接受。现有缓解LLMs不可靠性的方法,如检索增强生成(RAG)、模型微调等,虽能降低错误频率,却无法根除错误,也缺乏对推理过程的形式化验证机制,LLMs的“黑箱”特性阻碍了信任建立。解决方案:HaibuMMIA架构核心设计。

Large Language Models Meet Virtual Cell: A Survey
核心背景与定义虚拟细胞:指在计算机中模拟细胞结构、功能与动态变化的计算系统,可加速药物研发、实现个性化医疗,但传统建模受限于知识不全与数据稀疏。LLMs的价值:凭借大规模数据处理能力,可直接学习核苷酸、转录组等生物数据特征,解决传统虚拟细胞建模的瓶颈,成为当前研究核心驱动力。LLMs应用的两大核心范式LLMs作为“预言机(Oracle)”:直接建模细胞内部状态与动态,无需依赖外部工具。包括6类应用方向,具体如下表:|应用方向|核心任务|代表模型|

Role-Conditioned Refusals: Evaluating Access Control Reasoning in Large Language Models
传统计算中,基于角色的访问控制(RBAC)是安全基石,但LLMs生成式特性会模糊角色边界,可能导致未授权用户获取敏感数据(如医疗、财务信息)。现有研究多依赖合成场景,缺乏对真实可执行访问规则的支持,无法有效评估LLMs在实际访问控制中的可靠性。访问控制是安全计算的基石,但大型语言模型(LLMs)往往会因生成无限制响应而模糊角色边界。本文研究“角色条件拒绝”问题,重点关注LLM遵循访问控制策略的能力——即授权时正常响应、未授权时拒绝访问。

L2M-AID: Autonomous Cyber-Physical Defense by Fusing Semantic Reasoning of Large Language Models
研究背景:工业物联网(IIoT)中OT与IT融合,使关键信息物理系统暴露于复杂多阶段攻击;传统基于特征的入侵检测系统(SIDS)无法应对零日攻击,基于异常的入侵检测系统(AIDS)易被“低速攻击”规避,且均缺乏对攻击者意图的理解。框架设计:L2M-AID采用分层多智能体架构,分为战略层和战术层。战略层的“协调智能体”由LLM驱动,负责威胁关联分析、任务分解与态势感知;战术层包含网络监控、主机分析、威胁情报、缓解执行4类专项智能体,执行数据感知、异常检测与防御响应。核心机制。

Metric Calculating Benchmark: Code-Verifiable Complicate Instruction Following Benchmark
研究背景:当前前沿LLMs已在MATH、IFEval等多个传统基准上接近饱和,而依赖人工或LLM作为评估者的基准存在主观性,亟需兼具挑战性与客观性的新基准。MCBench基准设计核心构成:包含三部分,分别是计算目标NLP指标的分步指南(Rubric)、用于计算指标的语句对(Candidate)、与指南对应的可执行Python平行参考代码。评估维度:从三个关键能力评估LLMs,一是复杂指令遵循能力,处理平均超5000字符的多步指令;二是数学推理能力,完成各步骤精确算术运算;

欢迎留下您的脚印