Loading...

Metric Calculating Benchmark: Code-Verifiable Complicate Instruction Following Benchmark
研究背景:当前前沿LLMs已在MATH、IFEval等多个传统基准上接近饱和,而依赖人工或LLM作为评估者的基准存在主观性,亟需兼具挑战性与客观性的新基准。MCBench基准设计核心构成:包含三部分,分别是计算目标NLP指标的分步指南(Rubric)、用于计算指标的语句对(Candidate)、与指南对应的可执行Python平行参考代码。评估维度:从三个关键能力评估LLMs,一是复杂指令遵循能力,处理平均超5000字符的多步指令;二是数学推理能力,完成各步骤精确算术运算;

Generation and annotation of item usage scenarios in e-commerce using large language models
研究背景:传统电商互补推荐依赖历史数据的统计共现,但数据稀疏、有噪声,且难以捕捉主观的商品互补关系;用户需求会随场景变化,比如买相机后更需要SD卡而非同类相机,传统推荐无法满足这类动态需求。核心假设:人们选择互补商品时,会先想象具体使用场景,再基于场景识别需求。例如“用相机在家庭旅行拍纪念照”的场景,会引出对SD卡、三脚架的需求,该场景可作为连接主商品与互补品的中间载体。研究过程输入设计:采用电商平台(ASKUL)的四级商品分类作为输入,而非单个商品,兼顾可扩展性与信息丰富度。

LLM Weekly(2025.11.10-11.16)
尽管各组织对员工规模的预期存在差异,但64%的组织认为AI能促进创新,不过仅有39%的组织表示AI对息税折旧摊销前利润(EBIT)产生了显著影响。文章解决了内存使用和效率方面的挑战,探索了梯度检查点技术,并测试了多种优化策略,以提升模型的训练吞吐量和平均浮点运算利用率。评估显示,它在效率上超越了推测解码和其他扩散模型,每秒生成的令牌数量提升4.71至5.91倍,同时保持自回归模型的质量水平。该模型实现了150毫秒内的实时转录,支持英语、法语、西班牙语等多种语言,在30种语言中的准确率达到93.5%。

Search-R3: Unifying Reasoning and Embedding Generation in Large Language Models
核心问题:现有检索系统中,LLMs的推理能力与嵌入模型(如BERT类)的向量生成相互独立,导致LLMs无法通过语义分析优化嵌入质量,难以处理需要多步推理的复杂检索任务。框架设计:提出Search-R3(Reasoning-ReinforcedRepresentationforSearch),将嵌入生成视为LLMs推理过程的直接结果。通过“预填充(Prefill)-生成(Generation)”模式,先让模型输出查询意图的分析推理步骤,再生成包含语义信息的,从该token的隐藏状态中提取嵌入向量。

Beyond Monolingual Assumptions: A Survey of Code-Switched NLP in the Era of Large Language Models
语码转换(CSW)指在单一话语中交替使用多种语言和文字,即便在大语言模型(LLMs)快速发展的背景下,它仍是多语言自然语言处理(NLP)领域的核心挑战。多数LLM在处理混合语言输入时仍存在困难,加之语码转换数据集有限且评估存在偏见,这些因素阻碍了LLM在多语言社会中的应用。本综述首次对关注语码转换的LLM研究进行全面分析,回顾了涵盖5个研究领域、12类NLP任务、30余个数据集以及80多种语言的308项研究。

Utilizing Large Language Models for Machine Learning Explainability
研究目标:评估OpenAIGPT、AnthropicClaude、DeepSeek这三款主流LLMs,在自主生成ML流水线时的模型性能与可解释性,验证LLMs作为可解释ML流水线自动化工具的潜力。实验设计任务选择:包含两类分类任务,一是基于自定义数据集的驾驶员警觉状态预测(二分类任务),二是基于公开酵母数据集的蛋白质定位预测(多标签分类任务)。模型生成:让LLMs为四种常见分类器(随机森林、XGBoost、多层感知器MLP、长短期记忆网络LSTM)生成训练流水线代码。评估维度。

Ethical AI prompt recommendations in large language models using collaborative filtering
研究背景与问题LLMs在加速AI解决方案开发的同时,存在偏见、公平性及问责制等伦理风险,尤其在医疗、金融等高危领域影响显著。传统伦理监管方法(如基于规则的过滤、人工审核)存在可扩展性差、适应性弱的问题,无法应对不断变化的伦理标准与新兴风险。核心方法设计双智能体系统:以LLM(如ChatGPT)为第一智能体,协同过滤算法为第二智能体。LLM将用户提交的提示传递给协同过滤算法,算法通过计算提示间相似度,推荐高相关度的后续提示。

OpenJAI-v1.0: An Open Thai Large Language Model
模型基础与开发目标以Qwen3-14B为基础模型,开发支持泰语和英语的开源大型语言模型OpenJAI-v1.0。核心目标是提升模型在实际任务中的性能,重点强化指令遵循、长上下文理解和工具使用三大核心能力,同时避免灾难性遗忘。数据与实验设置数据集构建:围绕三大核心能力构建高质量数据集,均采用指令-响应格式,且所有样本经过严格筛选或翻译以适配双语需求。指令遵循数据集:整合公开高质量数据与合成数据,经LLM评估筛选,训练时排除IFBench基准约束以保证零样本泛化评估准确性。

Mid-Training of Large Language Models: A Survey
大型语言模型(LLMs)的开发通常遵循“大规模预训练+任务特定微调”的流程。近期研究进展凸显了“中期训练”这一中间阶段的重要性——在此阶段,模型会经历多轮“退火式”训练,优化数据质量、调整优化调度策略并扩展上下文长度。该阶段可缓解噪声tokens导致的收益递减问题、稳定收敛过程,并在训练后期拓展模型能力。其有效性可通过梯度噪声规模、信息瓶颈与课程学习三大理论解释,这些理论共同促进模型的泛化能力与抽象能力提升。尽管中期训练已被广泛应用于最先进的LLM系统,但目前尚无研究将其作为统一范式进行综述。

Gender Biasin Large Language Modelsfor Healthcare: Assignment Consistency and Clinical Implications
将大型语言模型(LLMs)整合到医疗领域,有望提升临床决策水平,但这些模型易受偏见影响,这一问题仍需重点关注。长期以来,性别因素会影响医生的行为和患者的治疗结果,因此人们担忧,当LLMs扮演类似人类的角色(如临床医生或医学教育工作者)时,可能会复制甚至放大与性别相关的偏见。本研究采用《新英格兰医学杂志》挑战赛(NEJM)的病例,为多个开源和专有LLMs分配了不同性别(女性、男性或未指定)。

An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding
现有多模态模型存在局限性:纯自回归(AR)模型生成速度慢、图像质量差;AR-扩散混合模型破坏模型统一性;部分离散扩散模型性能有限且缺乏下游任务支持。研究目标是构建一个开源、高效、统一的多模态模型,同时支持文本到图像生成、图像到图像编辑、图像理解等多种任务,推进通用多模态智能研究。本文提出Lumina-DiMOO,一款用于无缝多模态生成与理解的开源基础模型。与以往的统一模型不同,Lumina-DiMOO采用全离散扩散建模来处理不同模态的输入与输出。

GraphGhost: Tracing Structures Behind Large Language Models
大型语言模型(LLMs)展现出卓越的推理能力,但其背后支撑这些能力的结构机制仍未得到充分探索。在本研究中,我们提出GraphGhost——一个统一框架,该框架将神经元激活及其信号传播表示为图结构,以此解释LLMs如何从序列输入中捕捉结构语义,并通过结构一致的机制生成输出。这种基于图的视角使我们能够运用PageRank等图算法来刻画LLMs的特性,揭示不同数据集上模型共有的及特有的推理行为。

MathRobust-LV: Evaluation of Large Language Models’ Robustness to Linguistic Variations
大语言模型在数学基准测试中表现优异,但其数学推理能力对语言表述变化的鲁棒性尚未得到充分探索。尽管近期研究越来越多地将国际数学奥林匹克(IMO)等高水平竞赛作为评估推理能力的黄金标准,但我们认为,在真实教育场景中对高中难度数学题进行全面基准测试更为重要。本文提出MathRobust-LV——一个测试集与评估方法,该方法模拟教师在出题时调整题目表述但保持难度不变的方式:在保留数值结构与答案的前提下,仅改变题目表层信息(如名称、场景、变量符号)。

Probing the Difficulty Perception Mechanism of Large Language Models
大语言模型(LLMs)在复杂推理任务中的应用日益广泛,但人们对其内部评估问题难度的能力知之甚少,而这种能力对于自适应推理和高效资源分配至关重要。本研究旨在探究LLMs是否会在其内部表征中内隐编码问题难度。通过对LLMs最后一个token的表征进行线性探针分析,我们证明数学问题的难度级别可通过线性模型进行建模。我们进一步定位出Transformer最后一层中的特定注意力头:这些注意力头对简单问题和困难问题呈现出相反的激活模式,从而实现对难度的感知。消融实验证实了该定位的准确性。

Earl: Efficient Agentic Reinforcement Learning Systems for Large Language Models
智能体强化学习(AgenticRL)是大模型(LLM)后训练的关键技术,能通过多轮交互和工具使用提升模型推理、决策能力,但训练中存在两大瓶颈。上下文长度爆炸:多轮交互使上下文长度快速增长,导致内存占用激增(如Llama-3.1-70B模型在8192上下文长度下需354GB显存),易触发内存溢出(OOM),现有“硬限制+长度惩罚”方案会制约模型性能。

EvalMORAAL: Interpretable Chain-of-Thought and LLM-as-Judge Evaluation for Moral Alignment in
我们提出了EvalMORAAL框架,这是一个透明的思维链(Chain-of-Thought,CoT)评估框架。该框架采用两种评分方法(对数概率评分法和直接评分法),并结合“模型作为评估者”的互评机制,对20个大型语言模型(LLMs)的道德对齐性进行评估。我们基于世界价值观调查(WorldValuesSurvey,WVS,涵盖55个国家、19个主题)和皮尤全球态度调查(PEWGlobalAttitudesSurvey,涵盖39个国家、8个主题)对模型展开评估。

LLM-FS-Agent: A Deliberative Role-based Large Language Model Architecture for Transparent Feature
在机器学习流程中,高维数据这一普遍存在的难题常导致模型可解释性降低、效率受损。尽管大语言模型(LLMs)已在通过特征选择(FS)实现降维(DR)方面展现出潜力,但现有基于LLM的方法往往缺乏结构化推理能力,且无法为其决策提供透明的理由。本文提出LLM-FS-Agent,这是一种新型多智能体架构,专为可解释且稳健的特征选择设计。该系统通过协调多个LLM智能体开展结构化“辩论”发挥作用,每个智能体均在明确的角色范围内运作,能够共同评估特征相关性,并为特征选择结果提供详细依据。

Textual interpretation of transient image classifications from large language models
研究背景:现代天文巡天产生海量瞬变源数据,需区分真实天体信号(如超新星)与虚假成像伪影,但传统卷积神经网络(CNNs)虽分类精度高(超98%),其潜在表示不透明,可解释性差。核心实验:使用谷歌LLM模型Gemini,在Pan-STARRS、MeerLICHT、ATLAS三个光学瞬变巡天数据集上测试,仅提供每个望远镜15个带注释的“目标图-参考图-差值图”样本及简洁指令,平均分类准确率达93%。关键功能。

PROMPT REINFORCING FOR LONG-TERM PLANNING OF LARGE LANGUAGE MODELS
研究背景:LLMs在单轮任务中表现优异,但在多轮交互(如文本生成SQL、任务导向对话)中,常因早期假设错误、无法追踪用户目标导致性能下降;现有优化方法(如梯度微调、自反馈)存在计算成本高、依赖频繁API调用或仅适用于单轮任务的局限。核心方法:强化提示优化(RPO)框架结构:初始提示可由专家编写或LLM生成,通过“交互-反馈-重写”循环迭代优化。模型与环境(用户/模拟用户)交互生成轨迹,反馈器(人类/LLM)提供基于时序差分(TD)误差的回合级反馈,重写器(LLM)结合历史经验重写提示。反馈机制。

DACP: Domain-Adaptive Continual Pre-Training of Large Language Models for Phone Conversation
研究背景大型LLM在通用文本摘要任务中表现优异,但在与预训练数据分布不同的专业领域(如电话对话摘要)性能显著下降。小型LLM(参数小于10B)因推理成本低更适合工业部署,但领域适配需大量人工标注数据,存在成本高、隐私风险等问题。核心方法:DACP框架数据构成:包含两部分,一是25Btokens的高质量匿名业务对话数据(从50M条ASR生成transcript中筛选,基于token类型熵选25M条),二是25Btokens的经验回放数据(来自FineWeb-Edu,缓解灾难性遗忘)。训练流程。

欢迎留下您的脚印