Loading...
研究背景媒体框架通过选择性强调或淡化某些细节来塑造公众认知,而LLMs在自动化新闻生成中的应用日益广泛,其可能引入或放大框架偏见的问题引发担忧。现有研究多关注人类框架,对LLMs如何内化和重现框架模式的探讨较少。研究方法使用XSUM数据集(BBC新闻摘要),对比27种LLMs(包括开箱即用和微调模型)与人类生成的新闻标题的框架倾向。采用GPT-4系列模型作为“评审团”检测框架,通过关键词分类法分析不同主题(如政治、健康、经济等)的框架差异。核心发现人类与LLMs对比。
Multimodal Integrated Knowledge Transfer to Large Language Models through Preference Optimization
摘要高质量多模态生物医学数据的稀缺性限制了预训练大语言模型(LLMs)在专业生物医学任务中的有效微调能力。为应对这一挑战,我们提出了MINT(多模态集成知识迁移)框架,通过偏好优化将单模态大解码器模型与高质量多模态生物医学数据中的领域特定决策模式对齐。尽管MINT支持不同的优化技术,但我们主要以优势比偏好优化(ORPO)框架为backbone实现。该策略使对齐后的LLMs能够使用纯文本或纯图像输入执行预测任务,同时保留从多模态数据中学习到的知识。
DisTime: Distribution-based Time Representation for Video Large Language Models
研究背景视频大语言模型(Video-LLMs)在时间敏感任务(如时刻检索、密集视频字幕、接地视频问答)中面临离散时间表示和时间感知数据集有限的挑战。现有方法存在三大问题:文本-数字混合表示(如GroundingGPT)导致分类混淆;专用时间标记(如Momentor)受长尾分布和时间不连续性影响;重型时间模块(如InternVideo2.5)增加计算成本且依赖视觉信息重输入。DisTime框架核心设计:引入可学习时间标记。
Mind the Quote: Enabling Quotation-Aware Dialogue in LLMs via Plug-and-Play Modules
本文聚焦于提升大语言模型(LLMs)在对话中处理引用文本的能力,提出了一种名为QuAda的即插即用模块,旨在解决现有模型缺乏显式定位和利用引用片段的问题。问题建模:将引用对话形式化为跨段条件生成(span-conditionedgeneration),将对话分解为历史记录HHH、引用片段集合RRR和意图话语UUU,定义了Base、Multi-Span、Exclude、Info-Combine、Coref五种典型引用场景。数据构建。
Period-LLM: Extending the Periodic Capability of Multimodal Large Language Model
周期性或准周期性现象揭示了各种自然过程的内在特征,如天气模式、运动行为、交通流量和生物信号。鉴于这些现象跨越多种模态,多模态大语言模型(MLLMs)的能力为有效捕捉和理解其复杂本质提供了广阔前景。然而,当前MLLMs在周期性任务中面临挑战,主要源于以下限制:1)缺乏时间建模能力;2)短周期和长周期之间的冲突。本文介绍了Period-LLM,这是一种多模态大语言模型,旨在提升跨各种模态的周期性任务性能,并构建了一个具有不同难度的基准,用于评估大型模型的跨模态周期性能力。
MMAFFBen: A Multilingual and Multimodal Affective Analysis Benchmark for Evaluating LLMs and VLMs
大型语言模型(LLMs)和视觉语言模型(VLMs,统称LMs)已革新了自然语言处理(NLP)和计算机视觉(CV)领域,在多个领域展现出显著潜力。然而,其在情感分析(即情绪分析和情感检测)中的能力仍未被充分探索。这一空白主要归因于缺乏全面的评估基准,以及情感分析任务本身的复杂性。本文引入MMAFFBen,首个用于多语言多模态情感分析的大规模开源基准。MMAFFBen涵盖35种语言的文本、图像和视频模态,包含四项关键情感分析任务:情感极性、情感强度、情绪分类和情绪强度。
HARDTESTS: Synthesizing High-Quality Test Cases for LLM Coding
摘要验证器在大型语言模型(LLM)推理中至关重要,强化学习等后期训练技术均需依赖验证器。然而,对于复杂编程问题,可靠验证器难以获取,因为伪装良好的错误解决方案通常只能通过精心设计的边缘测试用例检测,而这类测试用例难以合成。为此,我们提出HARDTESTGEN,一种基于LLM的高质量测试合成流水线。通过该流水线,我们构建了包含47k问题和合成高质量测试用例的竞赛编程数据集HARDTESTS。
LLM-powered Query Expansion for Enhancing Boundary Prediction in Language-driven Action Localization
语言驱动的视频动作定位任务不仅需要语言查询与视频片段的语义对齐,还需要对动作边界进行预测。然而,语言查询主要描述动作的主要内容,通常缺乏动作起始和结束边界的具体细节,这增加了人工边界标注的主观性,导致训练数据中存在边界不确定性。本文提出了两项创新:一方面,通过大语言模型(LLM)生成动作起始和结束边界的文本描述,对原始查询进行扩展。该方法为动作定位提供了更详细的边界线索,从而降低边界不确定性的影响。
Large Language Models Are More Persuasive Than Incentivized Human Persuaders
本文通过大规模实验对比了前沿大语言模型(LLM,ClaudeSonnet3.5)与受激励人类说服者的说服能力,发现LLM在真实(引导正确答案)和欺骗性(引导错误答案)场景中均显著优于人类,且其说服力直接影响答题者的准确率和收益。研究强调了AI说服能力的潜在风险,呼吁加强对齐和治理框架。摘要我们在一个交互式、实时对话测验环境中,直接比较了前沿大语言模型(LLM;ClaudeSonnet3.5)与受激励人类说服者的说服能力。
Emerging Properties in Unified Multimodal Pretraining
本文介绍了字节跳动开源的多模态基础模型BAGEL,其核心目标是通过大规模交错多模态数据预训练,实现统一的多模态理解与生成能力。BAGEL采用仅解码器架构和混合Transformer专家(MoT)设计,在文本、图像、视频和网页数据上进行训练,展现出复杂多模态推理的新兴能力,如自由形式图像操作、未来帧预测、3D操作和世界导航等。实验表明,BAGEL在标准基准测试中显著优于开源模型,并通过数据构建协议和模型架构创新,缩小了与专有系统(如GPT-4o、Gemini2.0)的差距。
WEB-SHEPHERD: Advancing PRMs for Reinforcing Web Agents
本文聚焦于网络导航领域的过程奖励模型(PRM)研究,提出了首个专为评估网络代理轨迹设计的模型,并构建了配套的训练数据集和评估基准。问题背景:现有网络代理依赖多模态大语言模型(MLLM)作为奖励模型,存在速度慢、成本高、性能不足等问题,尤其在长程序列决策中表现不稳定。核心方法:作为过程奖励模型,通过结构化清单(Checklist)将用户指令分解为可解释的子目标,实现对代理轨迹的步骤级评估。:包含4万个步骤级偏好对和注释清单,覆盖多领域、多难度任务,支持PRM训练。
Scaling Law for Quantization-Aware Training
本文围绕大语言模型(LLMs)的量化感知训练(QAT)展开研究,重点探讨4-bit精度(W4A4)下的缩放规律。通过268次QAT实验,分析了模型规模(N)、训练数据量(D)和量化粒度(G)对量化误差的影响,并提出统一的缩放定律。量化误差的影响因素:误差随模型规模增大而减小,随训练数据量和量化粒度粗化而增大。误差分解:权重和激活误差均遵循整体趋势,但敏感度不同。权重误差对训练数据更敏感,而激活误差(尤其是FC2层输入)是W4A4的主要瓶颈。混合精度优化。
Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models
指令遵循对于使大型语言模型(LLMs)与用户意图保持一致至关重要。尽管最近面向推理的模型在复杂数学问题上表现出令人印象深刻的性能,但它们遵循自然语言指令的能力仍未得到充分探索。在这项工作中,我们引入了MathIF,这是一个专门用于评估数学推理任务中指令遵循能力的基准。我们的实证分析揭示了推理能力扩展与保持可控性之间的持续矛盾,因为推理更有效的模型往往难以遵守用户指令。我们发现,在蒸馏的长思维链上进行微调或使用面向推理的强化学习训练的模型,其指令遵循能力通常会下降,尤其是在生成长度增加时。
APOLLO: Automated LLM and Lean Collaboration for Advanced Formal Reasoning
本文提出了APOLLO系统,这是一种将大型语言模型(LLM)与Lean形式验证系统相结合的自动化定理证明框架,旨在解决传统方法中LLM生成证明效率低、错误率高的问题。APOLLO通过模块化流程实现了对LLM生成证明的自动化修复,具体包括语法修正(SyntaxRefiner)、错误块隔离(Sorrifier)、自动求解(AutoSolver)和递归修复(Recursiverepair)等步骤。
A Reputation System for Large Language Model-based Multi-agent Systems to Avoid the Tragedy
本文聚焦于基于大语言模型的多智能体系统(GenerativeMulti-AgentSystems,MASs)中“公地悲剧”问题,提出动态双层声誉框架RepuNet,通过智能体层面的声誉动态和系统层面的网络演化,结合直接交互与间接gossip机制,有效促进合作并避免资源过度开发。实验验证了RepuNet在资源共享和投资博弈场景中的有效性,揭示了合作集群形成、剥削者孤立及正向gossip偏好等新兴现象。摘要公地悲剧(个人自利导致集体灾难性后果)是人类社会普遍存在的挑战。
Theatrical Language Processing: Exploring AI-Augmented Improvisational Acting and Scriptwriting
本文提出了戏剧语言处理(TheatricalLanguageProcessing,TLP)概念,并开发了AI创意支持工具,旨在通过人机交互提升演员的即兴表演创造力。AI生成的非常规场景能激发演员创造力,迫使其应对陌生情境,提升问题解决能力;AI的不可预测性增强了表演的spontaneity,但过度详细的脚本会限制演员对潜台词的探索空间;工具优势:快速生成定制化剧本,突破传统脚本的重复性和局限性,为即兴训练提供新范式。人工智能的日益融合开辟了新途径,包括其在增强创造力方面的新兴作用。
Evolutionary thoughts: integration of large language models and evolutionary algorithms
本文提出将大型语言模型(LLMs)与进化算法(EAs)结合,以解决复杂问题中的优化和函数合成任务。研究设计了四个难度递增的任务(计数、最大-最小值、逆序、排序),要求算法通过输入-输出对推断映射函数。LLM引导的进化搜索:利用LLM生成初始种群个体和优化变异操作,减少搜索空间的随机性,提升候选解的质量。高效评估框架:开发基于C++和CUDA的快速评估系统,支持多核CPU和GPU加速,解决大规模种群评估的计算瓶颈。实验验证。
Adaptive Stress Testing Black-Box LLM Planners
大型语言模型(LLMs)最近在跨决策任务(包括规划、控制和预测)的泛化能力上取得了成功,但其产生不安全和非预期输出的“幻觉”倾向带来了风险。我们认为,检测此类故障是必要的,尤其是在安全关键场景中。现有的黑箱方法通常通过识别多个样本间的不一致性来检测幻觉,这些方法通常引入提示扰动,如随机化细节顺序或生成对抗性输入,其核心思想是自信的模型应产生稳定的输出。我们首先通过手动案例研究表明,其他形式的扰动(如添加噪声、移除传感器细节)会导致LLMs在驾驶环境中产生幻觉。
KG-HTC: Integrating Knowledge Graphs into LLMs for Effective Zero-shot Hierarchical Text
本文提出了一种名为KG-HTC的零样本层次文本分类方法,旨在解决层次文本分类(HTC)中数据标注成本高、标签空间大、长尾分布等问题。该方法通过将知识图谱(KG)与大型语言模型(LLM)结合,利用检索增强生成(RAG)框架从知识图谱中动态检索与输入文本语义相关的子图,并将其转换为结构化提示,引导LLM进行层次分类。实验在三个公开数据集(WoS、Dbpedia、Amazon)上表明,KG-HTC在严格零样本设置下显著优于基线方法,尤其在深层标签分类中表现更佳。
LITRANSPROQA: An LLM-based LITerary TRANSlation Evaluation Metric with PROfessional Question
本文聚焦于文学翻译评估领域,针对现有评估指标过度关注机械准确性、忽视艺术性表达及文化真实性的问题,提出了一种基于大语言模型(LLM)的新型评估框架。该框架通过整合专业文学译者和研究者的见解,设计了一套针对文学翻译核心要素(如文学手法、文化理解、语气等)的问答体系,无需参考译文即可评估翻译质量。