Loading...
本文针对时空数据传统可视化复杂、需专业知识且难以触达广泛受众的问题,提出了基于电影叙事(cinematicstorytelling)的时空数据解读框架MapMuse。该框架融合大型语言模型(LLM)、检索增强生成(RAG)和智能体技术,将时空数据转化为具有叙事性的故事,核心目标是提升不同受众对时空数据的理解度、参与感和实际应用价值。基于出租车终点热图,生成面向专业受众和首次到访游客的两类叙事,通过突出15个以上兴趣点(POI),揭示城市流动模式并提供实用信息;
Res-Bench: Benchmarking the Robustness of Multimodal Large Language Models to Dynamic Resolution ...
本文聚焦多模态大语言模型(MLLMs)的分辨率鲁棒性问题,即模型在不同输入分辨率下的性能稳定性。现有评估范式多关注语义层面表现,忽略了分辨率变化对模型性能的影响。为此,作者提出了Res-Bench基准测试集,包含14400个样本、12个分辨率等级和6个核心能力维度,搭配准确率、斯皮尔曼相关系数、绝对连续误差(ACE)、相对连续误差(RCE)四种评估指标。
ChiKhaPo: A Large-Scale Multilingual Benchmark for Evaluating Lexical Comprehension and Generatio...
ChiKhaPo是一个大规模多语言基准测试集,聚焦大型语言模型(LLMs)的词汇理解与生成能力,填补了现有基准在低资源语言覆盖和基础词汇能力评估上的空白。该基准包含8个子任务(4类核心任务,每类含理解和生成两个方向),利用词典、单语数据和双语平行语料构建,对2700余种语言提供支持,远超现有同类基准。通过对6个主流多语言LLMs的测试发现,模型在低资源语言上表现不佳,且理解能力(X→模型)普遍优于生成能力(模型→X);印欧语系语言表现最佳,语言资源丰富度是影响性能的关键因素。
Utilising Large Language Models for Generating Effective Counter Arguments to Anti-Vaccine Tweets
该研究聚焦于利用大语言模型(LLMs)和小语言模型(SLMs)自动生成针对反疫苗推文的有效反驳论据,以应对社交媒体上反疫苗虚假信息传播对公共健康的威胁。数据集构建:基于CAVES多标签反疫苗推文数据集,利用GPT-4o-mini生成包含两种版本(含标签描述/不含标签描述)的CNTR-VAX反驳论据数据集,涵盖宗教、政治、成分安全、有效性等12类反疫苗核心关切。生成策略设计基础提示策略:仅输入反疫苗推文生成通用反驳;
Instant Personalized Large Language Model Adaptation via Hypernetwork
个性化大语言模型(LLMs)旨在利用用户画像或历史数据量身定制内容以匹配个体偏好。然而,现有的参数高效微调(PEFT)方法(如“单用户单PEFT”(OPPU)范式)需要为每个用户训练专属适配器,计算成本高昂,且无法实现实时更新。本文提出Profile-to-PEFT(P2P),这是一种可扩展框架,通过端到端训练的超网络,将用户的编码画像直接映射为完整的适配器参数(如LoRA),从而在部署时无需进行逐用户训练。实验结果表明,该方法在显著减少部署阶段计算资源消耗的同时,性能优于基于提示词的个性化方法和OPPU。
Publication Trend Analysis and Synthesis via Large Language Model: A Case Study of Engineering in...
科学文献正日益受到复杂语言、静态学科结构和潜在稀疏关键词系统的割裂,难以捕捉现代科学的动态本质。本研究通过引入一种适应性强的大型语言模型(LLM)驱动框架来应对这些挑战,该框架可量化主题趋势并绘制科学知识的演化图景。研究以《美国国家科学院院刊》(PNAS)20年间发表的1500余篇工程类文章为样本(这些文章以研究范围的广度和深度为显著特征),展示了该方法的有效性。两阶段分类流程首先基于摘要为每篇文章确定主主题类别,随后通过全文分析进行次主题分类,揭示文献集中潜在的跨主题关联。
Evaluating Prompting Strategies and Large Language Models in Systematic Literature Review Screeni...
本研究量化了提示策略与大型语言模型(LLMs)在系统文献综述(SLRs)筛选阶段自动化中的交互作用。我们基于准确性、精度、召回率和F1分数,在相关性分类和六个二级任务上,评估了六种LLM(GPT-4o、GPT-4o-mini、DeepSeek-Chat-V3、Gemini-2.5-Flash、Claude-3.5-Haiku、Llama-4-Maverick)在五种提示类型(零样本、少样本、思维链(CoT)、CoT-少样本、自我反思)下的表现。
Hierarchical Federated Unlearning for Large Language Models
该研究针对大型语言模型(LLMs)在实际应用中面临的隐私保护、不良知识移除需求,提出了一种名为的分层联邦遗忘框架。核心目标是解决现有机器遗忘技术的两大关键挑战:一是遗忘需求具有连续性、异质性且分散化;二是数据存在非对称访问限制(客户端持有遗忘数据、服务器持有保留数据,双方无法共享敏感数据),导致域间与域内干扰,进而引发“遗忘不彻底”与“过度遗忘有用知识”的失衡困境。解耦遗忘与保留目标。
NP-Engine: Empowering Optimization Reasoning in Large Language Models with Verifiable Synthetic N...
大型语言模型(LLMs)已展现出强大的推理能力,OpenAI的O系列和DeepSeekR1等模型通过带可验证奖励的强化学习(RLVR),在数学、编码、逻辑和谜题等任务中表现优异。然而,它们解决更复杂优化问题(尤其是NP难任务)的能力仍未得到充分探索。为填补这一空白,我们提出NP-ENGINE——首个用于在NP难问题上训练和评估LLMs的综合框架。NP-ENGINE涵盖5个领域的10项任务,每项任务均具备:(i)可控实例生成器,(ii)规则化验证器,以及(iii)启发式求解器(提供近似最优解作为基准真值)
DeepAnalyze: Agentic Large Language Models for Autonomous Data Science
自主数据科学旨在从原始数据源生成分析师级深度研究报告,是一项长期存在的挑战。随着强大大语言模型(LLM)的出现,这一目标如今已具备实现可能。近年来基于工作流的数据智能体在特定数据任务上取得了一定成果,但由于依赖预定义工作流,其在实现完全自主数据科学方面存在根本性局限。本文提出DeepAnalyze-8B,这是首个专为自主数据科学设计的智能体大语言模型,能够自动完成从数据源到分析师级深度研究报告的端到端流程。
Does Visual Grounding Enhance the Understanding of Embodied Knowledge in Large Language Models?
基准构建:设计了两个核心任务——SensoryVec和PerceptualQA,覆盖视觉、听觉、触觉、味觉、嗅觉等外部感官及内感受,共包含超过1700个问题。其中,SensoryVec通过向量相似度评估模型对感官形容词的表征能力,PerceptualQA通过问答任务评估模型的感知推理能力(视觉模态进一步细分为颜色属性、自然颜色、几何变换等5个子任务)。实验发现所有模型在具身知识理解上表现不佳,最优模型在两项任务中的准确率仅约70%,远低于人类基准(86%);
Real-Time World Crafting: Generating Structured Game Behaviors from Natural Language with Large L...
我们提出了一种将大型语言模型(LLMs)安全集成到交互式游戏引擎的新型架构,允许玩家通过自然语言“编程”新的游戏行为。该框架通过LLM将指令翻译成受约束的领域特定语言(DSL)来降低风险,该DSL在运行时配置自定义的实体组件系统(ECS)。我们在一个2D法术构建游戏原型中对该系统进行了评估,实验性地测试了Gemini、GPT和Claude系列模型及多种提示策略。
A Brain Cell Type Resource Created by Large Language Models and a Multi-Agent AI System for Colla...
单细胞分子转录组学和表观基因组学数据已革新了脑细胞类型的鉴定,但由于参考标记不完善以及文献中的关联不够精准,对大多数推定类型(包括新型或稀有类型)进行功能注释仍然面临挑战。尽管基于生物医学文献训练的大型语言模型(LLMs)展现出潜力,但它们的应用常受限于事实错误和不精确的生物学推理。本研究开发了一种新型多智能体AI系统——BRAINCELL-AID(基于分布式AI的脑细胞类型注释与整合系统,网址:https://biodataai.uth.edu/BRAINCELL-AID),用于脑细胞类型注释。
Contextual Augmentation for Entity Linking using Large Language Models
该研究聚焦于知识图谱中的实体链接(EntityLinking,EL)任务,核心是解决传统实体链接方法在长尾实体(稀有或多义实体)处理、域外语料适配等方面的不足。任务背景:实体链接包含命名实体识别(NER)和实体消歧(ED)两个核心步骤,传统方法多采用两阶段分离模型,计算成本高且对歧义实体、域外语料处理效果不佳。核心方法以T5模型为基础,联合微调NER和ED任务,构建统一框架,避免分离模型的性能损耗与资源浪费;
MultiVerse: A Multi-Turn Conversation Benchmark for Evaluating Large Vision and Language Models
视觉语言模型(VLMs)在单轮基准测试中已展现出令人瞩目的能力,但现实世界应用往往需要更复杂的多轮对话。现有多轮数据集(如MMDU、ConvBench)仅部分捕捉了用户遇到的对话场景的广度和深度。在本研究中,我们提出了MULTIVERSE——一款新颖的多轮对话基准,包含647组对话(每组平均4个回合),数据源自12个主流VLM评估基准。该基准涵盖484项任务和484个交互目标,主题范围广泛,从事实性知识、感知任务到数学、编码等高级推理任务均有涉及。
Leveraging Test Driven Development with Large Language Models for Reliable and Verifiable Spreads...
该研究提出了一个将测试驱动开发(TDD)与大型语言模型(LLMs)相结合的结构化研究框架,旨在解决LLM生成代码(含电子表格公式)时存在的幻觉、逻辑不一致、语法错误等可靠性问题,尤其适用于金融建模、科学计算等对准确性要求极高的场景。大型语言模型(LLMs)(如ChatGPT)正日益广泛地被用于生成传统软件代码和电子表格逻辑。尽管这些模型具备令人印象深刻的生成能力,但它们频繁表现出幻觉、细微逻辑不一致和语法错误等关键问题——在金融建模、科学计算等对准确性和可靠性要求极高的高风险领域,这些风险尤为突出。
Exploring the Synergy of Quantitative Factors and Newsflow Representations from Large Language Mo...
在量化投资中,收益预测支持股票选择、投资组合优化和风险管理等多项任务。量化因子(如估值、质量和增长)捕捉了股票的各种特征。受大型语言模型(LLMs)近期进展的推动,新闻和transcripts等非结构化数据受到了越来越多的关注。本文探讨了利用多模态因子和新闻流进行收益预测和股票选择的有效方法。首先,我们引入融合学习框架,从量化因子和LLM生成的新闻流表征中学习统一表征。在该框架内,我们对比了三种不同架构复杂度的方法:表征组合、表征求和和注意力表征。
KITE: A Benchmark for Evaluating Korean Instruction-Following Abilities in Large Language Models
该研究针对当前大语言模型(LLMs)指令遵循能力评估以英语为中心、忽视其他语言linguistic和文化特性的问题,聚焦韩语的独特性(复杂句法、黏着结构、敬语体系、双数词系统等),提出了首个专门用于评估韩语指令遵循能力的基准测试集。大语言模型(LLMs)的指令遵循能力对于从对话代理到复杂推理系统等众多应用至关重要。然而,当前的评估主要集中于英语模型,忽视了其他语言的语言和文化特性。具体而言,韩语具有独特的句法、丰富的形态特征、敬语体系和双数词系统,却缺乏专门用于评估开放式指令遵循能力的基准。
Layer as Puzzle Pieces: Compressing Large Language Models through Layer Concatenation
大型语言模型在自然语言处理任务中表现出色,但庞大的规模导致其计算和存储需求极高。近年来的研究试图通过逐层结构化剪枝来减小模型尺寸,然而这些方法往往忽略了保留被剪枝部分的能力。在本研究中,我们重新审视结构化剪枝范式,发现了几个关键局限性:1)直接移除层导致显著的性能下降;2)线性权重层聚合效果不佳;3)缺乏有效的后训练恢复机制。为解决这些问题,我们提出了CoMe框架,包括一个结合基于连接的合并技术(Concatenation-basedMerging)的渐进式层剪枝流程,以及一个分层蒸馏后训练过程。
Enhance Large Language Models as Recommendation Systems with Collaborative Filtering
该研究聚焦于将大型语言模型(LLMs)应用于推荐系统(LLM-as-RS),针对现有非调优(non-tuning)策略LLM推荐系统缺乏任务特定业务/本地企业知识、未明确整合协同过滤技术的缺陷,提出了一种基于评论机制的推荐系统框架——Critic-LLM-RS。核心思路是训练一个独立的机器学习模型(RecommendationCritic,R-critic),该模型通过学习大量用户与物品的交互数据掌握协同过滤能力,能对LLM生成的初始推荐结果提供反馈(critiques),引导LLM优化并输出最终推荐。
