Loading...
视觉语言模型(VLMs)在单轮基准测试中已展现出令人瞩目的能力,但现实世界应用往往需要更复杂的多轮对话。现有多轮数据集(如MMDU、ConvBench)仅部分捕捉了用户遇到的对话场景的广度和深度。在本研究中,我们提出了MULTIVERSE——一款新颖的多轮对话基准,包含647组对话(每组平均4个回合),数据源自12个主流VLM评估基准。该基准涵盖484项任务和484个交互目标,主题范围广泛,从事实性知识、感知任务到数学、编码等高级推理任务均有涉及。
Leveraging Test Driven Development with Large Language Models for Reliable and Verifiable Spreads...
该研究提出了一个将测试驱动开发(TDD)与大型语言模型(LLMs)相结合的结构化研究框架,旨在解决LLM生成代码(含电子表格公式)时存在的幻觉、逻辑不一致、语法错误等可靠性问题,尤其适用于金融建模、科学计算等对准确性要求极高的场景。大型语言模型(LLMs)(如ChatGPT)正日益广泛地被用于生成传统软件代码和电子表格逻辑。尽管这些模型具备令人印象深刻的生成能力,但它们频繁表现出幻觉、细微逻辑不一致和语法错误等关键问题——在金融建模、科学计算等对准确性和可靠性要求极高的高风险领域,这些风险尤为突出。
Exploring the Synergy of Quantitative Factors and Newsflow Representations from Large Language Mo...
在量化投资中,收益预测支持股票选择、投资组合优化和风险管理等多项任务。量化因子(如估值、质量和增长)捕捉了股票的各种特征。受大型语言模型(LLMs)近期进展的推动,新闻和transcripts等非结构化数据受到了越来越多的关注。本文探讨了利用多模态因子和新闻流进行收益预测和股票选择的有效方法。首先,我们引入融合学习框架,从量化因子和LLM生成的新闻流表征中学习统一表征。在该框架内,我们对比了三种不同架构复杂度的方法:表征组合、表征求和和注意力表征。
KITE: A Benchmark for Evaluating Korean Instruction-Following Abilities in Large Language Models
该研究针对当前大语言模型(LLMs)指令遵循能力评估以英语为中心、忽视其他语言linguistic和文化特性的问题,聚焦韩语的独特性(复杂句法、黏着结构、敬语体系、双数词系统等),提出了首个专门用于评估韩语指令遵循能力的基准测试集。大语言模型(LLMs)的指令遵循能力对于从对话代理到复杂推理系统等众多应用至关重要。然而,当前的评估主要集中于英语模型,忽视了其他语言的语言和文化特性。具体而言,韩语具有独特的句法、丰富的形态特征、敬语体系和双数词系统,却缺乏专门用于评估开放式指令遵循能力的基准。
Layer as Puzzle Pieces: Compressing Large Language Models through Layer Concatenation
大型语言模型在自然语言处理任务中表现出色,但庞大的规模导致其计算和存储需求极高。近年来的研究试图通过逐层结构化剪枝来减小模型尺寸,然而这些方法往往忽略了保留被剪枝部分的能力。在本研究中,我们重新审视结构化剪枝范式,发现了几个关键局限性:1)直接移除层导致显著的性能下降;2)线性权重层聚合效果不佳;3)缺乏有效的后训练恢复机制。为解决这些问题,我们提出了CoMe框架,包括一个结合基于连接的合并技术(Concatenation-basedMerging)的渐进式层剪枝流程,以及一个分层蒸馏后训练过程。
Enhance Large Language Models as Recommendation Systems with Collaborative Filtering
该研究聚焦于将大型语言模型(LLMs)应用于推荐系统(LLM-as-RS),针对现有非调优(non-tuning)策略LLM推荐系统缺乏任务特定业务/本地企业知识、未明确整合协同过滤技术的缺陷,提出了一种基于评论机制的推荐系统框架——Critic-LLM-RS。核心思路是训练一个独立的机器学习模型(RecommendationCritic,R-critic),该模型通过学习大量用户与物品的交互数据掌握协同过滤能力,能对LLM生成的初始推荐结果提供反馈(critiques),引导LLM优化并输出最终推荐。
Extending Audio Context for Long-Form Understanding in Large Audio-Language Models
大型音频语言模型(LALMs)通常受限于较短的音频上下文窗口,即便其文本主干支持长上下文,这也限制了对长音频的理解能力。已有研究在单模态LLM上提出了上下文扩展方法(如YaRN),但这些方法在LALMs中的应用尚未得到探索。首先,基于旋转位置编码(RoPE)的上下文扩展技术,我们提出PartialYaRN——一种无需训练、仅针对音频的扩展方法,该方法仅修改音频令牌的位置编码,保持文本位置不变以保留基础LLM的文本能力。
EDVD-LLaMA: Explainable Deepfake Video Detection via Multimodal Large Language Model Reasoning
深度伪造视频技术的快速发展不仅为艺术创作提供了便利,也使得虚假信息的传播更加容易,且识别难度日益增加。传统深度伪造视频检测(DVD)方法存在原理透明度不足、对不断演变的伪造技术泛化能力欠缺等问题。这凸显了对既能识别伪造内容,又能提供可验证推理解释的检测器的迫切需求。本文提出了可解释深度伪造视频检测(EDVD)任务,并设计了EDVD-LLaMA多模态大语言模型(MLLM)推理框架,该框架在提供准确检测结果的同时,还能输出可追溯的推理过程与可信解释。
Reliability of Large Language Model Generated Clinical Reasoning in Assisted Reproductive Technol...
该研究聚焦辅助生殖技术(ART)领域,旨在评估大型语言模型(LLMs)生成的临床思维链(CoT)的可靠性,并探索优化提示策略以提升生成质量。研究采用盲法对比设计,通过三种提示策略(零样本、随机少样本、选择性少样本)生成CoT,由资深ART临床医生和GPT-4o(AI评估器)进行双维度评估。选择性少样本策略在所有人类评估指标(逻辑连贯性与清晰度、关键信息利用与覆盖、推理合理性与临床准确性)上显著优于其他两种策略(p
OpenLVLM-MIA: A Controlled Benchmark Revealing the Limits of Membership Inference Attacks on Larg...
该研究聚焦大型视觉语言模型(LVLMs)的成员推理攻击(MIA)评估问题,核心发现现有MIA研究的高攻击成功率多源于数据集构建中的分布偏差,而非真实成员身份检测。为此,研究者提出了基准,包含6000张图像,通过严格平衡成员/非成员样本分布、提供明确的真实成员标签、支持多训练阶段独立评估,解决了现有基准的分布偏差和真实标签不确定问题。实验表明,在该无偏基准下,当前最先进的MIA方法性能接近随机水平(AUROC≈0.5),实际应用中几乎无效(TPR@0.05FPR最高仅7.8%)。
On the Use of Large Language Models for Qualitative Synthesis
该研究聚焦大型语言模型(LLMs)在定性综合(QS)中的应用挑战与实践探索,核心围绕“使用LLMs进行可靠且有用的定性综合面临哪些挑战”这一研究问题展开。背景与意义:定性综合是系统评价(SR)的关键阶段,需整合多研究的非数值结果以提炼模式、洞见,但该阶段存在报告不规范、方法应用不一致等问题。LLMs虽为SR过程提供潜在支持,但应用于流程不明确的QS阶段可能放大现有缺陷,削弱研究可信度。研究方法。
Fusion-Augmented Large Language Models: Boosting Diagnostic Trustworthiness via Model Consensus
本研究提出一种新颖的多模型融合框架,利用ChatGPT和Claude两款最先进的大语言模型(LLMs),提升CheXpert数据集上胸部X光片解读的可靠性。从包含224,316张胸部X光片的完整CheXpert语料库中,我们随机选取234个经放射科医生标注的案例,采用仅图像提示词评估单模态性能。在该设置下,ChatGPT和Claude的诊断准确率分别达到62.8%和76.9%。基于相似度的共识方法(使用95%的输出相似度阈值)将准确率提升至77.6%。
Sequential Comics for Jailbreaking Multimodal Large Language Models via Structured Visual Storyte...
多模态大型语言模型(MLLMs)展现出卓越的能力,但仍易受利用跨模态漏洞的越狱攻击影响。本文提出一种新型方法,利用序列漫画风格的视觉叙事来规避最先进MLLMs中的安全对齐机制。该方法通过辅助LLM将恶意查询分解为视觉上无害的叙事元素,借助扩散模型生成相应的图像序列,并利用模型对叙事连贯性的依赖来诱导有害输出。基于已建立的安全基准数据集,对有害文本查询的大量实验表明,该方法平均攻击成功率达83.5%,较现有最优方法提升46个百分点。与现有视觉越狱方法相比,该序列叙事策略在各类有害内容上均表现出更优的有效性。
You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal La...
该研究聚焦于多模态大型语言模型(MLLMs)在细粒度视觉分类(FGVC)任务中的局限性,提出了一种名为nlg2choice的两阶段方法,以提升模型的细粒度视觉识别能力。尽管多模态大型语言模型(MLLMs)的兴起重新激发了人们对零样本视觉分类的兴趣,但评估自回归模型的自由形式响应仍是一项长期挑战。大多数现有研究要么聚焦于纯语言任务,要么未考虑超过5选的多选题(MCQs)——而这两项能力对于解决细粒度视觉分类(FGVC)任务至关重要:FGVC的选项数量可达数百至数千个,且选项间高度相关。
Cognitive-Aligned Spatio-Temporal Large Language Models For Next Point-of-Interest Prediction
下一代兴趣点(POI)推荐任务旨在基于用户偏好和历史签到记录预测其即时下一个目的地,在基于位置的服务中具有重要价值。近年来,大语言模型(LLMs)在推荐系统中展现出巨大潜力,它们以生成式方式处理下一代POI预测任务。然而,这些主要在海量非结构化文本语料上预训练的LLM,缺乏下一代POI预测任务所需的对结构化地理实体和时序移动模式的原生理解。此外,在工业级POI预测应用中,融入世界知识和人类认知对齐(如季节、天气、节假日及用户画像(习惯、职业、偏好等)),既能提升用户体验,又能改善推荐性能。
Natural Language Tools: A Natural Language Approach to Tool Calling In Large Language Agents
我们提出了自然语言工具(NLT)框架,该框架用自然语言输出替代了大型语言模型(LLMs)中的程序化JSON工具调用。通过将工具选择与响应生成解耦,NLT消除了导致工具调用性能下降的任务干扰和格式约束。在涵盖客户服务和心理健康领域的10个模型、6400次试验中进行评估后发现,NLT将工具调用准确率提升了18.4个百分点,同时将输出方差降低了70%。开源模型获得了最大幅度的性能提升,甚至超过了旗舰闭源模型,这对强化学习和有监督微调阶段的模型训练具有重要意义。
Few-Label Multimodal Modeling of SNP Variants and ECG Phenotypes Using Large Language Models for ...
本文针对心血管疾病(CVD)风险分层中高质量标注数据稀缺、多模态数据(SNP变异与ECG表型)难以有效整合的问题,提出了一种基于大语言模型(LLMs)的少标签多模态建模框架。研究背景:心血管疾病是全球首要死因,传统风险评估依赖单模态数据(如SNP的GWAS研究、ECG表型分析),但多模态数据整合面临标注稀缺、高维数据处理等挑战,传统有监督模型效果受限。数据与方法。
PoTS: Proof-of-Training-Steps for Backdoor Detection in Large Language Models
随着大型语言模型(LLMs)在关键领域的应用日益广泛,确保训练过程的安全性和可信度已成为核心关切。在各类威胁中,后门攻击——恶意攻击者向训练数据中注入隐藏触发条件——极具隐蔽性且难以检测。现有诸如“学习证明”(Proof-of-Learning)等训练后验证方案,因需完整重训练、对隐蔽操纵鲁棒性不足,且无法在训练过程中实现早期检测(这一特性可显著降低计算成本),难以适用于LLMs。
Finding Answers in Thought Matters: Revisiting Evaluation on Large Language Models with Reasoning
本文聚焦大型语言模型(LLMs)推理任务的评估问题,核心围绕答案提取方法对模型性能评估的关键影响展开研究,并提出解决方案。核心问题:传统LLM评估中,推理模型需输出思维链(CoT),但现有基于规则的答案提取方法(如字符串匹配、正则表达式)无法覆盖所有答案格式(如括号标注、自由文本、LaTeX格式等),导致模型性能评估结果受提取规则高度影响,出现性能波动、模型排名失真、可重复性差等问题。解决方案:提出AnswerRegeneration(答案再生)框架。
Do Large Language Models Show Biases in Causal Learning? Insights from Contingency Judgment
该研究聚焦大型语言模型(LLMs)在因果学习中的认知偏差,核心围绕“因果错觉”展开——即个体在缺乏充分证据时仍感知变量间存在因果关系的现象。研究通过经典认知科学范式“关联性判断任务”,在医疗场景下构建1000个“零关联场景”(变量间无足够证据证明因果关系),对GPT-4o-Mini、Claude-3.5-Sonnet和Gemini-1.5-Pro三款模型进行测试,要求模型对潜在原因的有效性进行0-100分评估(0分为无效,100分为完全有效)。
