Loading...

EDVD-LLaMA: Explainable Deepfake Video Detection via Multimodal Large Language Model Reasoning
深度伪造视频技术的快速发展不仅为艺术创作提供了便利,也使得虚假信息的传播更加容易,且识别难度日益增加。传统深度伪造视频检测(DVD)方法存在原理透明度不足、对不断演变的伪造技术泛化能力欠缺等问题。这凸显了对既能识别伪造内容,又能提供可验证推理解释的检测器的迫切需求。本文提出了可解释深度伪造视频检测(EDVD)任务,并设计了EDVD-LLaMA多模态大语言模型(MLLM)推理框架,该框架在提供准确检测结果的同时,还能输出可追溯的推理过程与可信解释。

Reliability of Large Language Model Generated Clinical Reasoning in Assisted Reproductive Technol...
该研究聚焦辅助生殖技术(ART)领域,旨在评估大型语言模型(LLMs)生成的临床思维链(CoT)的可靠性,并探索优化提示策略以提升生成质量。研究采用盲法对比设计,通过三种提示策略(零样本、随机少样本、选择性少样本)生成CoT,由资深ART临床医生和GPT-4o(AI评估器)进行双维度评估。选择性少样本策略在所有人类评估指标(逻辑连贯性与清晰度、关键信息利用与覆盖、推理合理性与临床准确性)上显著优于其他两种策略(p

OpenLVLM-MIA: A Controlled Benchmark Revealing the Limits of Membership Inference Attacks on Larg...
该研究聚焦大型视觉语言模型(LVLMs)的成员推理攻击(MIA)评估问题,核心发现现有MIA研究的高攻击成功率多源于数据集构建中的分布偏差,而非真实成员身份检测。为此,研究者提出了基准,包含6000张图像,通过严格平衡成员/非成员样本分布、提供明确的真实成员标签、支持多训练阶段独立评估,解决了现有基准的分布偏差和真实标签不确定问题。实验表明,在该无偏基准下,当前最先进的MIA方法性能接近随机水平(AUROC≈0.5),实际应用中几乎无效(TPR@0.05FPR最高仅7.8%)。

On the Use of Large Language Models for Qualitative Synthesis
该研究聚焦大型语言模型(LLMs)在定性综合(QS)中的应用挑战与实践探索,核心围绕“使用LLMs进行可靠且有用的定性综合面临哪些挑战”这一研究问题展开。背景与意义:定性综合是系统评价(SR)的关键阶段,需整合多研究的非数值结果以提炼模式、洞见,但该阶段存在报告不规范、方法应用不一致等问题。LLMs虽为SR过程提供潜在支持,但应用于流程不明确的QS阶段可能放大现有缺陷,削弱研究可信度。研究方法。

Fusion-Augmented Large Language Models: Boosting Diagnostic Trustworthiness via Model Consensus
本研究提出一种新颖的多模型融合框架,利用ChatGPT和Claude两款最先进的大语言模型(LLMs),提升CheXpert数据集上胸部X光片解读的可靠性。从包含224,316张胸部X光片的完整CheXpert语料库中,我们随机选取234个经放射科医生标注的案例,采用仅图像提示词评估单模态性能。在该设置下,ChatGPT和Claude的诊断准确率分别达到62.8%和76.9%。基于相似度的共识方法(使用95%的输出相似度阈值)将准确率提升至77.6%。

Sequential Comics for Jailbreaking Multimodal Large Language Models via Structured Visual Storyte...
多模态大型语言模型(MLLMs)展现出卓越的能力,但仍易受利用跨模态漏洞的越狱攻击影响。本文提出一种新型方法,利用序列漫画风格的视觉叙事来规避最先进MLLMs中的安全对齐机制。该方法通过辅助LLM将恶意查询分解为视觉上无害的叙事元素,借助扩散模型生成相应的图像序列,并利用模型对叙事连贯性的依赖来诱导有害输出。基于已建立的安全基准数据集,对有害文本查询的大量实验表明,该方法平均攻击成功率达83.5%,较现有最优方法提升46个百分点。与现有视觉越狱方法相比,该序列叙事策略在各类有害内容上均表现出更优的有效性。

You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal La...
该研究聚焦于多模态大型语言模型(MLLMs)在细粒度视觉分类(FGVC)任务中的局限性,提出了一种名为nlg2choice的两阶段方法,以提升模型的细粒度视觉识别能力。尽管多模态大型语言模型(MLLMs)的兴起重新激发了人们对零样本视觉分类的兴趣,但评估自回归模型的自由形式响应仍是一项长期挑战。大多数现有研究要么聚焦于纯语言任务,要么未考虑超过5选的多选题(MCQs)——而这两项能力对于解决细粒度视觉分类(FGVC)任务至关重要:FGVC的选项数量可达数百至数千个,且选项间高度相关。

Cognitive-Aligned Spatio-Temporal Large Language Models For Next Point-of-Interest Prediction
下一代兴趣点(POI)推荐任务旨在基于用户偏好和历史签到记录预测其即时下一个目的地,在基于位置的服务中具有重要价值。近年来,大语言模型(LLMs)在推荐系统中展现出巨大潜力,它们以生成式方式处理下一代POI预测任务。然而,这些主要在海量非结构化文本语料上预训练的LLM,缺乏下一代POI预测任务所需的对结构化地理实体和时序移动模式的原生理解。此外,在工业级POI预测应用中,融入世界知识和人类认知对齐(如季节、天气、节假日及用户画像(习惯、职业、偏好等)),既能提升用户体验,又能改善推荐性能。

Natural Language Tools: A Natural Language Approach to Tool Calling In Large Language Agents
我们提出了自然语言工具(NLT)框架,该框架用自然语言输出替代了大型语言模型(LLMs)中的程序化JSON工具调用。通过将工具选择与响应生成解耦,NLT消除了导致工具调用性能下降的任务干扰和格式约束。在涵盖客户服务和心理健康领域的10个模型、6400次试验中进行评估后发现,NLT将工具调用准确率提升了18.4个百分点,同时将输出方差降低了70%。开源模型获得了最大幅度的性能提升,甚至超过了旗舰闭源模型,这对强化学习和有监督微调阶段的模型训练具有重要意义。

Few-Label Multimodal Modeling of SNP Variants and ECG Phenotypes Using Large Language Models for ...
本文针对心血管疾病(CVD)风险分层中高质量标注数据稀缺、多模态数据(SNP变异与ECG表型)难以有效整合的问题,提出了一种基于大语言模型(LLMs)的少标签多模态建模框架。研究背景:心血管疾病是全球首要死因,传统风险评估依赖单模态数据(如SNP的GWAS研究、ECG表型分析),但多模态数据整合面临标注稀缺、高维数据处理等挑战,传统有监督模型效果受限。数据与方法。

PoTS: Proof-of-Training-Steps for Backdoor Detection in Large Language Models
随着大型语言模型(LLMs)在关键领域的应用日益广泛,确保训练过程的安全性和可信度已成为核心关切。在各类威胁中,后门攻击——恶意攻击者向训练数据中注入隐藏触发条件——极具隐蔽性且难以检测。现有诸如“学习证明”(Proof-of-Learning)等训练后验证方案,因需完整重训练、对隐蔽操纵鲁棒性不足,且无法在训练过程中实现早期检测(这一特性可显著降低计算成本),难以适用于LLMs。

Finding Answers in Thought Matters: Revisiting Evaluation on Large Language Models with Reasoning
本文聚焦大型语言模型(LLMs)推理任务的评估问题,核心围绕答案提取方法对模型性能评估的关键影响展开研究,并提出解决方案。核心问题:传统LLM评估中,推理模型需输出思维链(CoT),但现有基于规则的答案提取方法(如字符串匹配、正则表达式)无法覆盖所有答案格式(如括号标注、自由文本、LaTeX格式等),导致模型性能评估结果受提取规则高度影响,出现性能波动、模型排名失真、可重复性差等问题。解决方案:提出AnswerRegeneration(答案再生)框架。

Do Large Language Models Show Biases in Causal Learning? Insights from Contingency Judgment
该研究聚焦大型语言模型(LLMs)在因果学习中的认知偏差,核心围绕“因果错觉”展开——即个体在缺乏充分证据时仍感知变量间存在因果关系的现象。研究通过经典认知科学范式“关联性判断任务”,在医疗场景下构建1000个“零关联场景”(变量间无足够证据证明因果关系),对GPT-4o-Mini、Claude-3.5-Sonnet和Gemini-1.5-Pro三款模型进行测试,要求模型对潜在原因的有效性进行0-100分评估(0分为无效,100分为完全有效)。

DRO-InstructZero: Distributionally Robust Prompt Optimization for Large Language Models
大型语言模型对提示词措辞高度敏感。然而,包括InstructZero在内的主流自动提示词搜索方法,在分布偏移和对抗性评估下往往会性能退化——因为它们仅在单一评估分布下优化期望性能。因此,在一种场景中有效的提示词常常无法迁移到其他场景。为解决这一问题,DRO-InstructZero将零样本提示词优化构建为鲁棒贝叶斯优化问题。具体而言,f-散度球在评估分布周围定义了一个模糊集,鲁棒采集规则在最大化最坏情况期望效用的同时,保留了贝叶斯搜索的查询效率。

A Feasibility Study on Usability and Trust among Population Groups of a Medical Avatar Supported ...
摘要医疗专业人员为患者及其家属提供支持的时间有限,但后者的信息需求却很高。为此,拉德堡德大学与卡尼修斯威廉敏娜医院联合开发了一款可语音交互的虚拟人类化身。与众多化身不同,该化身采用经检索增强生成(RAG)技术优化的大语言模型(LLM),能够在交互过程中调用医院提供的医疗信息,而非仅依赖通用LLM信息。研究制作了两段视频:一段呈现患者与化身关于全髋关节置换术的交互,另一段呈现患者家属与化身关于术后谵妄的交互。

Language over Content: Tracing Cultural Understanding in Multilingual Large Language Models
该研究聚焦多语言大语言模型(LLMs)的文化理解内部机制,核心旨在拆解语言与文化在模型表征中的相互作用。通过设计两组实验场景(固定问题语言、改变目标国家;固定目标国家、改变问题语言),并选取语言相似但文化不同的国家对(韩朝、美英、西班牙-墨西哥)及语言独特的中国,测量模型回答语义等价文化问题时的内部激活路径重叠度。同语言跨国家的内部路径重叠度显著高于跨语言同国家,表明模型的文化知识表征存在强烈的语言特异性;韩朝这一语言相似国家对表现出低重叠度和高变异性,打破了“语言相似即内部表征一致”的假设;

Beyond Hallucinations: The Illusion of Understanding in Large Language Models
随着大型语言模型(LLMs)深度融入日常生活——从日常交流到高风险决策,它们继承了人类语言固有的模糊性、偏见及无法直接触及真相的特质。尽管这些模型能生成连贯、流畅且富有情感感染力的回应,但这一过程依赖于对统计词频模式的预测,而非接地推理。这就导致了“幻觉”风险——即语言表达流畅但事实不准确的输出。基于杰弗里·辛顿(GeoffreyHinton)“AI模仿人类直觉而非推理”的观察,本文认为LLMs本质是人类“系统1认知”的规模化延伸:快速、联想、具说服力,但缺乏反思与自我校正能力。

MemoTime: Memory-Augmented Temporal Knowledge Graph Enhanced Large Language Model Reasoning
大语言模型(LLMs)已展现出令人瞩目的推理能力,但在时间理解方面仍存在不足,尤其是当问题涉及多个实体、复合算子和动态事件序列时。时序知识图谱(TKGs)以结构化形式捕获海量时序事实,为时间推理提供了可靠来源。然而,现有基于TKG的LLM推理方法仍面临四大挑战:多跳推理中的时序忠实性维护、多实体时序同步、针对多样化时间算子的检索适配,以及利用先前推理经验提升稳定性与效率。为解决这些问题,我们提出MemoTime,一种记忆增强的时序知识图谱框架,通过结构化锚定、递归推理和持续经验学习增强LLM推理能力。

2025_NIPS_Online Ad Procurement in Non-stationary Autobidding Worlds
如今,在线广告主通过与自动竞价平台交互来采购数字广告曝光:广告主通过设置预算、目标投资回报率、最高点击成本等控制杠杆,传达高层级采购目标。之后,广告平台代表广告主进行曝光采购,并向广告主报告最终的采购转化结果(如点击量)。在实际操作中,广告主可能仅能获取平台采购细节的极少信息,且采购结果受季节性模式、偶发系统故障和市场趋势等非平稳因素影响,导致广告主难以有效优化杠杆决策。

Stable but Miscalibrated: A Kantian View on Overconfidence from Filters to Large Language Models
稳定但校准偏差:从滤波器到大型语言模型的康德式过度自信视角作者:AkiraOkutomi(爱沙尼亚塔林ToppyMicroServicesOÜ)本文将康德《纯粹理性批判》重新诠释为一种反馈稳定性理论,将理性视为一种调节器,确保推理始终处于可能经验的边界之内。我们通过一个复合不稳定性指标(H-Risk)将这一直觉形式化,该指标整合了谱裕度、条件数、时间敏感性和创新放大率四大维度。在线性高斯模拟中,即使在形式稳定性的前提下,更高的H-Risk仍能预测过度自信误差,揭示了名义稳定性与认知稳定性之间的差距。

欢迎留下您的脚印