Loading...
本文提出了,一个用于双足机器人双臂灵巧操作的自动化任务创建与演示数据生成框架,旨在解决现有机器人数据集多针对单臂平台、双臂灵巧操作数据稀缺的问题。空间标注与场景生成:对资产(物体)和灵巧手进行关键点位与轴的标注,基于LLM生成包含环境配置和任务成功条件的代码;LLM任务规划:将长程任务分解为原子操作序列,生成空间约束链(如点位重合、轴平行),并通过轨迹优化器求解运动轨迹;推理增强:引入蒙特卡洛树搜索(MCTS)的STCR机制,提升LLM在长程任务和标注不足场景下的推理能力;基准构建与实验验证。
Stylometry recognizes human and LLM-generated texts in short samples
本文探讨了利用文体计量学(stylometry)区分大语言模型(LLMs)与人类生成文本的方法,旨在解决模型归属、知识产权及AI伦理使用等问题。研究构建了一个基于维基百科的数据集,通过多种文本摘要方法(T5、BART、Gensim、Sumy)和LLMs(GPT-3.5、GPT-4、LLaMa2/3、Orca、Falcon)生成10句长的文本,并使用决策树和LightGBM等树模型,基于人工设计的(StyloMetrix)和n-gram的文体特征(涵盖词汇、语法、句法、标点等模式)进行分类。
VEDA: Efficient LLM Generation Through Voting-based KV Cache Eviction and Dataflow-flexible
本文针对大型语言模型(LLMs)在边缘设备部署时面临的计算和内存资源挑战,提出了一种名为VEDA的定制加速器,通过算法、数据流和硬件的三重优化提升LLM推理效率。算法层面:提出基于投票的KV缓存淘汰算法,通过每个token的注意力分数作为“选票”,自适应识别不重要的KV向量,平衡硬件效率和算法准确性,解决现有方法的偏差问题。数据流与硬件层面。
Many LLMs Are More Utilitarian Than One
本文研究了大型语言模型(LLMs)在多智能体系统(LLM-MAS)中的集体道德判断机制,重点探讨群体deliberation是否会像人类群体一样出现“功利主义增强”(utilitarianboost)现象——即更倾向于认可为最大化多数人利益而违反道德规范的行为。研究设计了两组实验:单个LLM独立判断(Solo条件)和多个LLM通过多轮讨论达成共识(Group条件,成对或三人组),测试了6个主流模型(包括GPT-4.1、Llama3.3等)在经典道德困境中的表现。
‘FOR ARGUMENT’S SAKE, SHOW ME HOW TO HARM MYSELF!’: JAILBREAKING LLMS IN SUICIDE AND SELF-HARM CONTE
本文聚焦大型语言模型(LLMs)在自杀和自残语境下的安全漏洞,通过设计多步骤对抗性提示(越狱提示),测试了6个主流LLM(包括ChatGPT-4o、PerplexityAI、GeminiFlash2.0等)的安全护栏有效性。研究发现,多数模型在仅2-3轮对话后,会因用户以“学术研究”等新语境重新framing问题,而忽略初始的自残/自杀意图,生成详细的自残方法、自杀工具、剂量计算等有害内容。
Beyond First-Order: Training LLMs with Stochastic Conjugate Subgradients and AdamW
长期以来,基于随机梯度下降(SGD)的方法一直是训练大型语言模型(LLMs)的核心。然而,其有效性正日益受到质疑,特别是在大规模应用中,实证证据表明其存在潜在的性能局限性。对此,本文提出了一种专门为LLMs训练设计的随机共轭次梯度方法,结合自适应采样策略。该方法不仅每迭代步收敛更快,而且与传统SGD技术相比,可扩展性更优。它利用样本复杂度分析来自适应选择样本量,采用随机共轭次梯度方法确定搜索方向,并借助类AdamW算法自适应调整步长。
Rethinking 1-bit Optimization Leveraging Pre-trained Large Language Models
1位大语言模型(1-bitLLM)量化在降低存储与计算成本方面具有显著优势。然而,现有方法通常需从头训练1-bitLLM,无法充分利用预训练模型的价值,导致训练成本高昂且精度损失显著。本文发现,全精度与1-bit表示之间的巨大差距使得直接适配难以实现。为此,我们提出一种前向与反向传播一致的渐进训练方法,将浮点权重平滑转换为二进制权重。此外,我们引入二进制感知初始化与双缩放补偿技术,以降低渐进训练的难度并提升模型性能。在不同规模LLM上的实验结果表明,我们的方法性能优于现有方案。
Large Language Models Do Not Simulate Human Psychology
大型语言模型(LLMs,如ChatGPT)在科研领域的应用日益广泛,从简单的写作辅助到复杂的数据标注任务均有涉及。近期有研究提出,LLMs甚至可能模拟人类心理,从而替代心理学研究中的人类被试。对此,我们持谨慎态度并提出警示。首先,我们从概念层面论证,驳斥“LLMs可模拟人类心理”这一假设。其次,我们提供实证证据支撑观点:即使是针对心理反应专门微调的最新CENTAUR模型,当刺激材料的表述仅发生细微调整(但意义发生显著变化)时,LLMs与人类的反应仍会出现明显差异。
BASIC: Boosting Visual Alignment with Intrinsic Refined Embeddings in Multimodal Large Language Mode
主流多模态大型语言模型(MLLMs)通过视觉投影仪连接预训练视觉编码器与大型语言模型(LLMs),从而实现视觉理解。视觉与文本模态间的固有差异,使得视觉投影仪生成的嵌入对视觉理解至关重要。然而,现有对齐方法将视觉嵌入仅视为上下文线索,仅对文本输出施加自回归监督,忽视了引入等效直接视觉监督的必要性,这限制了视觉嵌入的精细化对齐潜力。本文在分析LLM浅层视觉嵌入精炼过程的基础上,提出BASIC方法——利用LLM内部的精炼视觉嵌入作为监督信号,直接引导投影仪生成初始视觉嵌入。
The Cost of Thinking: Increased Jailbreak Risk in Large Language Models
背景:思维模式(ThinkingMode,又称推理模式或思维链CoT)是大型语言模型(LLMs)中提升复杂任务推理能力的关键模式,被Qwen3、DeepSeek-R1、Claude等主流模型广泛采用,但此前其对模型安全性的影响未被深入探索。核心发现:开启思维模式的LLMs更易遭受越狱攻击(JailbreakAttack)。
MDK12-Bench: A Comprehensive Evaluation of Multimodal Large Language Models on Multidisciplinary
多模态大型语言模型(MLLMs)通过整合语言与视觉线索解决问题,是推动人工通用智能(AGI)发展的关键。然而,当前衡量MLLMs智能水平的基准存在规模有限、覆盖范围狭窄、知识结构松散等问题,仅能提供静态且无差异化的评估。为填补这一空白,我们提出MDK12-Bench——一个基于真实K-12考试数据构建的大规模多学科基准,涵盖6个学科、141K个实例,并将6225个知识点组织成6层分类体系。该基准包含5种题型,标注了难度等级与考试年份,可从4个维度全面评估MLLMs的表现:1)难度等级;
PROPS: Progressively Private Self-alignment of Large Language Models
LLM对齐的隐私痛点:大语言模型(LLM)的对齐(如RLHF、DPO)依赖人类反馈的偏好标签,但这些标签会泄露标注者的价值观、身份或专业判断(如医疗场景中医生的诊疗偏好、政策分析中决策者的敏感见解),存在严重隐私风险。现有方案的缺陷:主流隐私保护方法(如DP-SGD、RandomizedResponse(RR))存在不足。DP-SGD会对整个训练元组(prompt、response、标签)进行梯度扰动,过度保护导致模型效用下降;
Zero-Direction Probing: A Linear-Algebraic Framework for Deep Analysis of Large-Language-Model Drift
该文章提出了零方向探测(Zero-DirectionProbing,ZDP)这一理论框架,旨在通过Transformer激活的零空间(nulldirections)来刻画大型语言模型(LLMs)的漂移现象,且无需任务标签或输出评估。核心矩阵与零空间:设基础模型某层激活矩阵为Hℓ∈Rn×dHℓ∈Rn×d,其右零空间基为V0ℓV_{0,\ell}V0ℓ、左零空间基为U0ℓU_{0,\ell}U0ℓ;扰动模型激活矩阵为HℓHℓΔHℓH。
Story Ribbons: Reimagining Storyline Visualizations with Large Language Models
文学分析中,追踪角色、场景、主题间的互动关系至关重要,但从非结构化文本中提取这些结构化信息存在巨大挑战。传统故事情节可视化技术依赖人工处理文本(如标注场景、角色),耗时且效率低,尤其对于缺乏明确元数据(如场景划分、角色标签)的小说而言难度更高。同时,大型语言模型(LLMs)虽具备强大的文本处理能力,但存在输出不可预测、易“幻觉”等问题,如何合理利用其优势优化可视化工具成为关键。文学分析需要追踪角色、场景与主题之间的互动关系。
Confidence Estimation for Text-to-SQL in Large Language Models
Text-to-SQL任务的置信度估计旨在无需获取标准答案的情况下,评估模型生成SQL查询的可靠性。本文在大语言模型(LLMs)场景下研究该问题——此类场景中,模型权重与梯度的访问权限通常受限。我们探索了黑盒与白盒两种置信度估计策略,并在跨域Text-to-SQL基准数据集上评估其有效性。评估结果表明:在黑盒模型中,基于一致性的方法表现最优;在白盒场景下,基于SQL语法感知的方法在解读LLM的logits(对数几率)时具有优势。
Large Language Models for Oral History Understanding with Text Classification and Sentiment Analysis
口述历史是记录生活经历的重要资料,尤其对受系统性不公与历史遗忘影响的群体而言意义重大。对口述历史档案进行高效且有效的分析,有助于提升对口述历史的获取与理解。然而,由于这些档案存在非结构化格式、情感复杂性以及人工标注成本高昂等问题,其大规模分析仍面临局限。本文旨在开发一个可扩展的框架,实现对口述历史档案语义与情感标注的自动化,重点研究对象为日裔美国人监禁口述历史(JAIOH)。
Evolving Language Models without Labels: Majority Drives Selection, Novelty Promotes Variation
本文聚焦大语言模型(LLMs)在无标签场景下的自主进化问题,针对现有无标签方法(如置信度最小化、自一致性、多数投票目标)易导致“熵坍缩”(生成内容更短、多样性降低、鲁棒性差)的缺陷,提出了EVOL-RL(Evolution-OrientedandLabel-freeReinforcementLearning,面向进化的无标签强化学习)框架大型语言模型(LLMs)越来越多地通过带可验证奖励的强化学习(RLVR)进行训练,但现实世界部署要求模型在无标签或无外部评判的情况下实现自改进。
Scaling Agents via Continual Pre-training
本文由阿里巴巴通义实验室团队撰写,聚焦大语言模型(LLMs)向智能体系统(agenticsystems)的演进,针对现有基于通用基础模型的后训练方法(如SFT、RL)在智能体任务中表现不佳的问题,提出了智能体持续预训练(AgenticContinualPre-training,AgenticCPT)范式,并基于此开发了深度研究智能体模型问题诊断:现有智能体模型(如WebSailor、GLM-4.5)依赖通用基础模型进行后训练,需同时学习多样智能体行为与对齐专家演示,存在优化冲突;
WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research
本文聚焦开放式深度研究(OEDR)这一复杂任务——要求AI智能体整合海量网络级信息生成有洞察力的报告,针对现有方法存在的“静态研究流程割裂规划与证据获取”“一次性生成易出现‘中间遗忘’和幻觉”两大核心缺陷,提出了WebWeaver双智能体框架本文针对开放式深度研究(OEDR)这一复杂挑战展开研究——在此任务中,AI智能体需将海量网络级信息整合为具有洞察力的报告。当前方法存在双重局限:一是静态研究流程割裂了规划与证据获取的联系;二是一次性生成模式易受“中间遗忘”和幻觉等长上下文问题困扰。
Inference-Aware Prompt Optimization for Aligning Black-Box Large Language Models
提示优化方法在对齐黑箱大型语言模型(LLMs)方面已展现出显著成效。与此同时,BEST-OF-N采样、MAJORITYVOTING等推理缩放策略也通过权衡计算资源,有效提升了模型的对齐效果与性能。然而,现有提示优化方法均不考虑推理策略——即优化提示时完全忽略部署阶段所采用的推理策略。这一问题构成了重大的方法论缺口:我们的实证与理论分析表明,提示优化与推理策略这两大范式之间存在强关联性。此外,我们发现用户对多目标权衡及推理预算的偏好,会显著影响提示选择与推理配置的决策。