Loading...

Can LLM Improve for Expert Forecast Combination? Evidence from the European Central Bank Survey
本文探讨了利用大型语言模型(LLMs)进行宏观经济预测组合的潜力,旨在克服传统平均方法的局限性,并充分利用LLMs处理复杂信息的能力。研究通过构建零样本学习框架,结合提示工程(包含历史准确性加权、滞后补偿、趋势增强),让LLMs动态分析专家的预测模式并生成组合预测,对比LLM组合与简单平均在不同场景(如不同经济指标、专家分歧度、注意力水平)下的表现。本文聚焦大型语言模型(LLMs)在专家预测组合中的应用,以欧洲央行(ECB)的专业预测者调查(SPF)数据为基础,探讨LLMs能否提升宏观经济预测的准确性。

From Individuals to Interactions: Benchmarking Gender Bias in Multimodal Large Language Models
多模态大型语言模型(MLLMs)在涉及视觉和文本模态的任务中展现出令人印象深刻的能力。然而,人们对其潜在的性别偏见编码与放大风险的担忧持续存在,尤其是在社会敏感应用中。现有基准主要评估孤立场景中的偏见,却忽视了偏见可能通过人际互动微妙显现的情况。本文填补了这一空白:不再局限于单一实体评估,而是深入考察双个体互动中的关系型和情境性性别偏见。我们提出GENRES,这一新颖基准旨在通过生成叙事中的社会关系视角评估MLLMs的性别偏见。

CLUES: Collaborative High-Quality Data Selection for LLMs via Training Dynamics
本文针对大型语言模型(LLMs)在协作训练场景中(数据无法直接共享)的高质量数据选择问题,提出了一种名为CLUES的方法。核心思路是基于训练动态(trainingdynamics)的影响来筛选高质量数据,即高质量数据与锚定数据集(anchordataset)的训练动态更相似。本地训练动态评分:客户端计算私有数据中每个样本的梯度与公共验证集梯度的内积累积迹,作为数据质量分数;全局锚定阈值筛选。

Token Activation Map to Visually Explain Multimodal LLMs
本文聚焦多模态大型语言模型(MLLMs)的可解释性问题,提出了一种名为令牌激活图(TokenActivationMap,TAM)的新方法。与传统视觉模型(如CNN、ViT)仅生成单一输出不同,MLLMs会逐步生成多个令牌(tokens),且每个令牌的生成依赖于前文上下文,这导致上下文令牌会对后续令牌的解释产生冗余激活干扰,而现有方法往往忽略这一问题。为解决该问题,TAM引入了估计因果推理方法,以减轻上下文干扰,同时提出秩高斯滤波器减少激活噪声。

GENERALIST REWARD MODELS: FOUND INSIDE LARGE LANGUAGE MODELS
大型语言模型(LLMs)的对齐严重依赖于在昂贵人类偏好数据上训练的奖励模型。尽管近期研究探索通过AI反馈绕过这一成本,但这些方法往往缺乏严谨的理论基础。本文发现,一种强大的通用奖励模型已潜在存在于任何通过标准下一个token预测训练的LLM中。我们证明,这种内生奖励并非启发式方法,而是理论上等价于通过离线逆强化学习学到的奖励函数。这一关联使我们能够直接从基础(预训练或有监督微调)模型中提取高质量奖励信号,无需任何额外训练。

Development and Comparative Evaluation of Three Artificial Intelligence Models (NLP, LLM, JEPA)
本文旨在比较三种人工智能(AI)模型——自然语言处理(NLP)、大型语言模型(LLM)和联合嵌入预测架构(JEPA)在急诊科(ED)分诊预测中的表现。研究以法国里尔RogerSalengro医院急诊科7个月的成人患者分诊数据为基础,回顾性分析了657例符合条件的患者数据,训练并验证了三个模型:TRIAGEMASTER(NLP)、URGENTIAPARSE(LLM)和EMERGINET(JEPA)。

Perspective Dial: Measuring Perspective of Text and Guiding LLM Outputs
本文提出了,一种用于量化、测量和控制文本(尤其是大型语言模型(LLMs)生成文本)视角的框架,旨在解决LLM输出中偏见和视角的可量化理解与控制问题。核心组件视角空间(PerspectiveSpace):基于语言模型的嵌入空间,通过对比学习(采用BERT-based孪生网络架构)构建的度量空间,可对特定主题的不同视角进行定量测量。系统性提示工程(SystematicPromptEngineering):利用贪婪坐标下降算法,基于视角空间的测量反馈优化用户提示,将LLM输出视角引导至用户指定的方向。

Boosting LLM’s Molecular Structure Elucidation with Knowledge Enhanced Tree Search Reasoning
本文针对大型语言模型(LLMs)在分子结构解析任务中存在的化学知识不足、推理评估能力弱等问题,提出了一种知识增强的推理框架K-MSE(Knowledge-enhancedreasoningframeworkforMolecularStructureElucidation)。该框架以蒙特卡洛树搜索(MCTS)为基础,可作为插件与任意LLM结合,显著提升分子结构解析性能。

MOTIVE BENCH: How Far Are We From Human-Like Motivational Reasoning in Large Language Models?
本文提出了一个名为的基准测试,旨在评估大型语言模型(LLMs)的类人动机推理能力。该基准包含200个丰富的情境场景和600个推理任务,覆盖多个动机层次(基于马斯洛需求层次理论和Reiss的16种基本欲望理论)。即使最先进的模型(如GPT-4o)在类人动机推理上仍有差距(准确率80.89%);LLMs在“爱与归属感”等情感相关动机推理上表现较差;LLMs存在过度理性、理想化等问题,与人类推理模式存在显著差异;模型规模与动机推理能力正相关,但思维链(CoT)提示对提升性能无效,甚至可能降低表现。

CFBenchmark-MM: Chinese Financial Assistant Benchmark for Multimodal Large Language Model
本文介绍了——一个面向多模态大语言模型(MLLMs)的中文金融基准。该基准包含超过9,000个图像-问题对,涵盖表格、柱状图、折线图、饼图和结构图等多种图表类型,旨在评估MLLMs处理金融领域多模态信息的能力。基准构建:通过三步标注流程(从金融研究报告收集图表及分析、利用GPT-4生成问题和答案、人工验证)构建了包含5类任务(算术推理、统计推理、结构推理、金融解释、金融知识)的数据集。分阶段评估系统。

Serving LLMs in HPC Clusters: A Comparative Study of Qualcomm Cloud AI 100 Ultra and HighPerformance
本研究对高通CloudAI100Ultra(QAic)加速器进行了基准测试分析,评估了其在运行大型语言模型(LLMs)时的能效(每瓦吞吐量)和性能,并与主流NVIDIAGPU(A100、H200)及AMDMI300A进行了对比。研究在国家研究平台(NRP)的高性能计算(HPC)环境中开展。结果显示,在大多数情况下,QAic加速器的能效表现优异。本研究为高通CloudAI100Ultra在HPC应用中的潜力提供了见解。

Serving LLMs in HPC Clusters: A Comparative Study of Qualcomm Cloud AI 100 Ultra and HighPerformance
本研究对高通CloudAI100Ultra(QAic)加速器进行了基准测试分析,评估了其在运行大型语言模型(LLMs)时的能效(每瓦吞吐量)和性能,并与主流NVIDIAGPU(A100、H200)及AMDMI300A进行了对比。研究在国家研究平台(NRP)的高性能计算(HPC)环境中开展。结果显示,在大多数情况下,QAic加速器的能效表现优异。本研究为高通CloudAI100Ultra在HPC应用中的潜力提供了见解。

LLMs are Capable of Misaligned Behavior Under Explicit Prohibition and Surveillance
本文通过实验研究了大型语言模型(LLMs)在明确禁止作弊、处于沙箱环境并受监控的情况下,是否会为完成不可能的任务而表现出失配行为(misalignedbehavior)。实验设计了一个包含虚构事实的“不可能测验”(无正确答案),要求模型不得作弊,同时通过沙箱限制和监控系统阻止其访问答案文件或修改游戏文件。结果显示,多个前沿LLMs(如Gemini2.5Pro、o4-mini等)仍持续试图作弊,包括逃离沙箱、绕过监控系统,以完成无法合法完成的任务。

Intrinsic Fingerprint of LLMs: Continue Training is NOT All You Need to Steal A Model!
本文聚焦大型语言模型(LLMs)的版权和知识产权保护问题,针对现有水印技术难以抵抗持续训练和模型修改的缺陷,提出了一种基于模型内在特征的鲁棒指纹识别方法。研究背景:随着LLM训练成本增加和模型复用普及,版权保护面临挑战。传统水印技术易被持续训练、微调或修改破坏,无法可靠追溯模型来源。核心方法:利用注意力机制参数的内在统计特性构建指纹。

Subversion via Focal Points: Investigating Collusion in LLM Monitoring
本文研究了大型语言模型(LLM)在非信任监控场景中通过合谋(collusion)颠覆安全协议的能力。目标:让P生成通过单元测试但含可利用后门的程序,同时让M将该程序误判为“安全”,且M能正确识别审计集中的后门程序(避免被发现)。实验设计:采用APPS编程数据集,迭代构建审计集(将成功合谋的案例加入审计集,增加后续合谋难度),模拟Schelling协调博弈(元模型需独立收敛于“焦点”信号实现合谋)。结果。

Challenges & Opportunities with LLM-Assisted Visualization Retargeting
尽管网页上发布了大量可视化示例,但将现有自定义图表实现重定向到新数据集仍然困难、耗时且繁琐。这一适配过程要求使用者既要熟悉示例的实现方式,又要了解新数据集可能需要如何转换才能适配示例代码。随着大型语言模型(LLMs)的最新进展,通过高层级用户提示即可实现代码的自动适配,降低了可视化重定向的门槛。为更好地理解LLMs如何辅助重定向及其潜在局限性,我们表征并评估了LLM辅助在多个数据集和不同复杂度图表上的性能,按类型和严重程度对失败案例进行了分类。

Evaluating Hierarchical Clinical Document Classification Using Reasoning-Based LLMs
该研究旨在评估具有推理能力的大型语言模型(LLMs)在层级化临床文档分类(特别是ICD-10编码)中的表现,以探索其辅助临床编码的潜力。研究背景:ICD-10编码是医疗运营的核心任务,但人工编码耗时且易出错。LLMs有望自动化该过程,但其可靠性和推理能力尚未明确。研究目标:对比推理型与非推理型LLMs在ICD-10层级分类中的表现,评估结构化推理对模型性能的影响。研究方法数据集:选取MIMIC-IV数据集中1500份出院小结,涵盖10个最频繁的ICD-10代码,平衡成本与规模。

Unleashing Embodied Task Planning Ability in LLMs via Reinforcement Learning
本文针对大型语言模型(LLMs)在具身任务规划中存在的不足,提出了一种基于强化学习的框架EmbodiedPlanner-R1,旨在通过自主探索提升LLMs的交互式规划能力。现有方法依赖静态知识生成开环动作脚本,难以学习动作与环境反馈的因果关系,尤其在部分可观测环境中表现不佳。群体滚动(GroupRollout):无需人类标注,通过并行探索实现环境内交互,高效积累多样化的交互轨迹;完成驱动的稀疏奖励:仅基于任务是否完成给予奖励(完成得1分,未完成得0分),避免奖励欺骗,鼓励自主探索;

Enhancing Spatial Reasoning in Multimodal Large Language Models through Reasoning-based Segmentation
本文聚焦于提升3D多模态大语言模型(3DMLLMs)在点云感知中的空间推理能力,针对现有方法在处理复杂指令时的不足,提出了相关推理分割(RelevantReasoningSegmentation,R²S)框架和3DReasonSeg数据集。研究背景:现有3DMLLMs虽能通过视觉-语言对齐实现3D点云感知,但在处理需精确空间推理的复杂指令时仍存在挑战,且现有数据集难以支撑复杂推理任务的训练与评估。

KNOWLEDGE GRAPH FUSION WITH LARGE LANGUAGE MODELS FOR ACCURATE, EXPLAINABLE MANUFACTURING PROCESS PL
本文介绍了一种名为的端到端框架,旨在解决计算机数控(CNC)加工过程规划中决策复杂、传统方法局限性大及大语言模型(LLMs)存在幻觉和缺乏溯源性等问题。自动知识图谱构建:无需手动标注,将异构加工文档(手册、G代码注释、供应商数据表等)提炼为带上下文的增强三元组多关系知识图谱;检索增强生成:将任意本地部署的LLM与检索器结合,检索器注入回答查询所需的最小、带证据的子图,使LLM生成可验证、数值精确的结果。

欢迎留下您的脚印