Loading...

Self-Forcing++: Towards Minute-Scale High-Quality Video Generation
技术瓶颈:扩散模型虽在图像和视频生成领域实现突破(如Sora、Hunyuan-DiT等),但依赖Transformer架构导致计算成本极高,多数模型仅能生成5-10秒的短视频;现有自回归长视频生成方法(如CausVid、Self-Forcing)存在“训练-推理不匹配”问题——训练时依赖短视距双向教师模型(5秒内),推理时需生成更长视频,导致误差累积、画面过曝或质量骤降。关键挑战:一是“时间mismatch”,训练仅覆盖5秒短片段,推理需生成超10秒长视频;

LongCodeZip: Compress Long Context for Code Language Models
随着代码大语言模型(CodeLLMs)在软件开发中广泛应用(如代码补全、总结、问答),长上下文处理需求日益迫切。效率与成本问题:Transformer注意力机制的二次复杂度导致长输入处理延迟高,API调用成本随token数量剧增;相关性识别困难:模型难以在海量代码中定位关键信息;上下文窗口限制:即使支持128ktoken的模型,处理大型代码库或长对话时仍会因截断导致输出质量下降。同时,现有上下文压缩方法存在缺陷:通用文本压缩(如LLMLingua)忽略代码结构与依赖;

SimpleFold: Folding Proteins is Simpler than You Think
蛋白质折叠模型通常通过将领域知识整合到架构模块和训练流程中,取得了突破性成果。然而,鉴于生成模型在不同但相关的任务中均获成功,人们自然会质疑:这些架构设计是否是构建高性能模型的必要条件?本文提出SimpleFold——首个基于流匹配的蛋白质折叠模型,该模型仅使用通用Transformer模块。传统蛋白质折叠模型通常采用计算成本高昂的模块,包括三角形更新、显式成对表示或为该特定领域定制的多训练目标;

Qwen3-Omni Technical Report
Qwen3-Omni是一款单模态多任务模型,在文本、图像、音频和视频等多模态任务上均实现了顶尖性能,且相较于单模态模型未出现性能衰减。我们提出Qwen3-Omni,这是一款单模态多任务模型。该模型首次实现了在文本、图像、音频和视频任务上均保持顶尖性能,且相较于单模态模型未出现任何性能衰减。在Qwen系列中,Qwen3-Omni与同规模单模态模型的性能相当,尤其在音频任务上表现卓越。

ALOPE: Adaptive Layer Optimization for Translation Quality Estimation using Large Language Models
大型语言模型(LLMs)在众多自然语言处理任务中展现出卓越性能。然而,机器翻译质量评估(QE)作为一项无需依赖参考翻译即可评估源语言-目标语言对质量的任务,对LLMs而言仍是一项具有挑战性的跨语言任务。其挑战源于现有基于LLM的QE系统存在固有局限性:这些LLMs的预训练目标是因果语言建模,而非回归类任务;此外,受预训练数据分布的影响,低资源语言的存在进一步加剧了这一挑战。本文提出了ALOPE框架,即一种用于翻译质量评估的自适应层优化框架。

Energy-Aware Code Generation with LLMs: Benchmarking Small vs. Large Language Models for Sustainable
大型语言模型(LLMs)在代码生成领域应用广泛。然而,像ChatGPT这类商业模型需要大量计算资源,这会导致高能耗和碳排放,其环境影响问题已引发担忧。本研究对专为代码生成训练的开源小型语言模型(SLMs)进行评估,并将其性能和能效与大型语言模型(LLMs)以及高效的人类编写Python代码进行对比。研究目标是探究在特定类型的编程问题中,SLMs能否匹配LLMs的性能,同时生成更具能效的代码。我们从LeetCode选取了150道编程题,这些题目均匀分布在简单、中等、困难三个难度等级。

LLM Weekly(2025.10.6-10.12)
OpenAI在ChatGPT平台内推出新一代支持聊天功能的应用程序,目前已在欧盟与英国以外地区上线。该功能由基于模型上下文协议(ModelContextProtocol)构建的全新应用程序软件开发工具包(AppsSDK)提供技术支持。OpenAI与Spotify、Zillow等合作伙伴展开合作,助力开发者触达8亿用户,通过对话式界面提升交互体验。

“Pull or Not to Pull?”: Investigating Moral Biases in Leading Large Language Models Across Ethical
随着大型语言模型(LLMs)日益介入具有伦理敏感性的决策,理解其道德推理过程变得至关重要。本研究对14个领先LLM(包括推理增强型与通用型)进行了全面实证评估,评估场景涵盖27个多样化的电车难题,并基于10种道德哲学框架(含功利主义、义务论、利他主义)设计提示。通过因子提示协议,我们收集了3780个二元决策及自然语言理由,从决策果断性、解释-答案一致性、公共道德对齐性、对无关道德线索敏感性四个维度展开分析。

Fine-Tuning Large Language Models Using EEG Microstate Features for Mental Workload Assessment
本研究探索了脑电图(EEG)微状态与大型语言模型(LLMs)的交叉领域,以提升认知负载状态的评估效果。研究通过利用EEG微状态特征,微调LLMs,从而更准确地预测“休息”(Rest)和“负载”(Load)这两种不同的认知状态。实验设计分为四个全面的阶段:数据集收集与预处理、微状态分割与EEG反拟合、特征提取与提示工程,以及LLM模型的选择与优化。研究采用监督学习范式,训练LLM基于提示中融入的EEG微状态特征识别认知负载状态,实现了对认知负载的精准区分。

Selection and Exploitation of High-Quality Knowledge from Large Language Models for Recommendation
近年来,利用大语言模型(LLMs)出色的泛化能力和推理能力来提升推荐系统性能的研究备受关注。通过这一方式,推荐系统可借助LLMs获取并学习额外的世界知识与推理信息。然而,总体而言,针对不同用户和物品,从LLMs中获取的世界知识普遍存在幻觉、内容冗余和信息同质化问题。将生成的响应嵌入直接输入推荐模型,会不可避免地导致性能下降。为解决这些挑战,本文提出一种知识选择与利用推荐(KSER)框架,能够有效从LLMs中筛选并提取高质量知识。该框架包含两个核心组件:知识过滤模块与嵌入空间对齐模块。

Assessing and Mitigating Data Memorization Risks in Fine-Tuned Large Language Models
问题背景与研究动机:LLMs在自然语言处理领域应用广泛,但存在训练数据记忆问题,尤其在微调过程中,重复接触敏感数据会导致隐私泄露风险剧增。当前研究多关注预训练阶段的记忆问题,针对微调阶段小范围、高敏感性数据集的记忆风险研究存在缺口,且缺乏兼顾安全性与实用性的隐私保护框架,同时日益严格的AI隐私监管也推动了相关研究需求。研究方法实验框架。

LLM Weekly(2025.09.29-10.5)
OpenAI推出视频-音频生成模型Sora2,相较于前代产品,其真实感与可控性均有提升。该模型可通过Sora应用获取,在物理效果模拟、复杂音景构建以及将现实元素融入场景方面表现突出。。Anthropic发布ClaudeSonnet4.5,将其定位为性能最强的编码模型,在复杂任务执行上表现卓越,且在推理与数学能力方面实现大幅提升。。谷歌深度思维(GoogleDeepMind)发布Gemini2.5Flash与Flash-Lite的更新版本,进一步提升了模型的质量与效率。

Can Smaller Large Language Models Evaluate Research Quality?
尽管谷歌Gemini(1.5Flash)和ChatGPT(4o及4o-mini)给出的研究质量评估分数,在几乎所有领域都与专家分数呈正相关,且在多数领域的相关性强于引文指标,但目前尚不清楚较小规模的大型语言模型(LLM)是否也具备这一特性。为此,本文对谷歌的Gemma-3-27b-it(一款可下载的LLM,大小为60Gb)进行了评估。

DySK-Attn: A Framework for Efficient, Real-Time Knowledge Updating in Large Language Models via Dyna
本文针对大型语言模型(LLMs)知识静态化、更新成本高、易产生事实偏差等核心问题,提出了DySK-Attn(DynamicSparseKnowledgeAttention)框架,旨在实现LLMs高效、实时的知识更新。大型语言模型(LLMs)存在一个关键局限:其知识是静态的,且会迅速过时。对这些大规模模型进行重训练的计算成本极高,而现有知识编辑技术不仅速度慢,还可能引入不可预见的副作用。为解决这一问题,我们提出了DySK-Attn——一种新型框架,可使LLMs高效整合来自动态外部源的实时知识。

Dynamic Benchmark Construction for Evaluating Large Language Models on Real-World Codes
随着大型语言模型(LLMs)在软件开发流程中的应用日益广泛,严谨评估其在复杂真实世界代码生成任务中的性能变得至关重要。然而,现有基准测试往往存在数据污染和测试严谨性不足的问题,限制了其有效揭示模型缺陷的能力。为解决这些问题,本文提出CODE2BENCH——一个系统化的端到端流程,用于从真实GitHub仓库动态构建稳健且抗污染的基准测试集。具体而言,CODE2BENCH引入三大核心创新:(1)自动化动态性:通过定期获取近期代码,最大限度减少训练数据污染;(2)基于作用域图的依赖分析。

OMNI-SAFETYBENCH: A BENCHMARK FOR SAFETY EVALUATION OF AUDIO-VISUAL LARGE LANGUAGE MODELS
融合视觉与听觉处理能力的全模态大型语言模型(OLLMs)兴起后,为降低其有害输出风险,开展可靠的安全评估变得十分必要。然而,目前尚无专门针对OLLMs的评估基准,且以往为其他类型大型语言模型设计的基准,既无法评估音视频联合输入场景下的安全性能,也不能衡量跨模态安全一致性。为填补这一空白,我们提出了Omni-SafetyBench——首个用于OLLM安全评估的全面并行基准。该基准包含24种模态组合及变体,每种组合各有972个样本,其中还涵盖专门的音视频联合有害案例。

LLM Weekly(2025.09.22-09.28)


How Effectively Can Large Language Models Connect SNP Variants and ECG Phenotypes for Cardiovascular
心血管疾病(CVD)预测因其多因素病因及全球发病率、死亡率负担,仍是一项巨大挑战。尽管基因组和电生理数据的可获得性日益提高,但从这类高维度、含噪声且标注稀疏的数据集中提取具有生物学意义的见解,仍是一项艰巨任务。近年来,大型语言模型(LLMs)已被有效应用于预测生物序列的结构变异。本研究探索了微调后的LLMs在心血管疾病预测及识别可能导致心血管疾病风险的SNP方面的潜力,所使用的遗传标志物源自高通量基因组分析。

Investigating Intersectional Bias in Large Language Models using Confidence Disparities
大型语言模型(LLMs)已取得令人瞩目的性能,这使其在招聘、录取等资源受限场景中被广泛用作决策支持工具。然而,科学界普遍认为人工智能系统可能反映并加剧社会偏见,在关键社会场景中使用时,会引发基于身份的伤害担忧。此前的研究通过评估不同语言推理任务中的人口统计学差异,为评估LLMs中的偏见奠定了坚实基础。在本研究中,我们将单维度公平性评估扩展到交叉偏见评估,认识到当多个歧视维度交叉时,会产生独特的劣势模式。

Trustworthy Medical Imaging with Large Language Models: A Study of Hallucinations Across Modalities
大型语言模型(LLMs)在医学影像任务中的应用日益广泛,涵盖影像解读与合成影像生成。然而,这些模型常产生“幻觉”——即自信却错误的输出,可能误导临床决策。本研究从两个方向考察“幻觉”问题:一是“图像到文本”方向,即LLM根据X光、CT或MRI扫描生成报告;二是“文本到图像”方向,即模型根据临床提示生成医学影像。研究分析事实矛盾、解剖不准确等错误,并基于专家制定的标准,跨影像模态评估模型输出。结果表明,在解读性与生成性任务中,“幻觉”存在共性模式,这对临床可信度具有重要意义。

欢迎留下您的脚印