Loading...
该研究聚焦大型语言模型(LLMs)在软件测试中的实际应用,通过对15名不同角色、行业和资历的软件测试专业人员进行半结构化访谈,结合扎根理论的主题分析方法,探究了LLMs在软件测试工作流中的使用现状、优势、挑战,并提出了基于实践者经验的初步使用指南。核心研究背景:LLMs在软件测试中应用日益广泛(如测试用例生成、自动化脚本编写、文档撰写等),但当前使用多依赖非正式实验和社区经验,缺乏结构化指导,且存在幻觉、推理不一致、数据隐私等问题,亟需基于实际应用的规范框架。关键研究发现主要应用场景。
SimBench: Benchmarking the Ability of Large Language Models to Simulate Human Behaviors
大型语言模型(LLM)对人类行为的模拟,若能真实反映人类实际行为,有望彻底改变社会科学与行为科学。当前的评估方法分散且依赖定制化任务和指标,导致结果难以比较。为解决这一问题,我们推出SIMBENCH——首个用于LLM模拟的大规模标准化基准。该基准整合了20个多样化数据集,涵盖从道德决策到经济选择的各类任务,参与者群体覆盖全球范围,为探究LLM模拟在何时、如何及为何成功或失败提供了必要基础。研究表明,即使是当前最优的LLM,其模拟能力也有限(得分:40.80/100),但性能随模型规模呈对数线性增长。
BenCao: An Instruction-Tuned Large Language Model for Traditional Chinese Medicine
本文针对现有中医领域大语言模型(LLM)缺乏多模态融合、可解释性及临床实用性的问题,提出了基于ChatGPT的中医多模态助手BenCao。该模型通过自然语言指令微调而非参数重训练,整合了超1000部中西医古典与现代文献构建的知识库、多模态诊断数据及执业中医师的反馈优化,核心围绕中医四大应用场景(中医理论学习、轻微健康不适调理、体质评估与舌诊、日常养生与季节保健)设计交互框架,同时融入思维链(CoT)模拟机制提升推理可解释性,并集成外部API实现舌象分类与多模态数据库检索。
FrugalPrompt: Reducing Contextual Overhead in Large Language Models via Token Attribution
该研究针对大型语言模型(LLMs)因输入上下文冗长导致的高成本、高碳排放和推理延迟问题,提出了一种名为的提示压缩框架。核心思路是筛选输入中语义权重最高的tokens,剔除冗余低效用tokens,在降低输入维度的同时保留核心信息。研究通过两种先进的token归因方法(GlobEnc和DecompX)为每个token分配显著性分数,按分数排序后保留前k%的tokens(维持原始语序),形成稀疏化提示。
ELMM: Efficient Lightweight Multimodal Large Language Models for Multimodal Knowledge Graph Compl...
本文聚焦多模态知识图谱补全(MKGC)任务,针对现有方法存在的图像令牌冗余导致语义噪声与模态冲突、多模态大语言模型(MLLMs)计算成本过高等问题,提出了高效轻量多模态大语言模型(ELMM)。核心思路包括三部分:1)设计基于多头注意力机制的多视图视觉令牌压缩器(MVTC),从文本和视觉双视角自适应压缩图像令牌,保留关键信息并避免模态冲突;2)提出注意力剪枝策略,移除MLLMs中冗余的注意力层,同时通过线性投影补偿剪枝带来的性能损失;3)替换传统头部层为多模态知识推理补全层,优化候选实体概率分布预测。
Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Varia...
本文聚焦大型音频语言模型(LALMs)在说话者情绪变化下的安全脆弱性问题,填补了该领域对副语言特征中“情绪”影响研究的空白。模态差异:LALMs在语音输入下的不安全响应(非拒绝率NRR、不安全率UR)普遍高于文本输入,证实语音模态是LALMs安全对齐的薄弱环节。情绪依赖性:不同情绪会引发显著的安全不一致性,各模型存在特定“情绪盲点”(如部分模型对愤怒情绪更敏感),且无统一触发不安全响应的情绪类型。强度非单调效应:情绪强度对安全风险的影响并非线性,中等强度的情绪表达往往比低强度和高强度更易引发不安全响应。
SAKE: Towards Editing Auditory Attribute Knowledge of Large Audio-Language Models
本文聚焦大型音频语言模型(LALMs)的听觉属性知识编辑,填补了该领域研究空白。提出首个听觉属性知识编辑基准SAKE,涵盖说话者性别、情绪、口语语言、动物声音四类属性,从可靠性、通用性、局部性、可迁移性四个维度评估编辑效果。在DeSTA2.5-Audio和Qwen2-Audio两款模型上,测试了微调、KE、MEND等七种主流编辑方法。实验发现现有方法虽在可靠性上表现较好,但在通用性(尤其是听觉输入适配)、局部性(保护非目标属性知识)、可迁移性(关联知识更新)及连续编辑场景下的遗忘问题上存在显著挑战。
Comprehending Spatio-temporal Data via Cinematic Storytelling using Large Language Models
本文针对时空数据传统可视化复杂、需专业知识且难以触达广泛受众的问题,提出了基于电影叙事(cinematicstorytelling)的时空数据解读框架MapMuse。该框架融合大型语言模型(LLM)、检索增强生成(RAG)和智能体技术,将时空数据转化为具有叙事性的故事,核心目标是提升不同受众对时空数据的理解度、参与感和实际应用价值。基于出租车终点热图,生成面向专业受众和首次到访游客的两类叙事,通过突出15个以上兴趣点(POI),揭示城市流动模式并提供实用信息;
Res-Bench: Benchmarking the Robustness of Multimodal Large Language Models to Dynamic Resolution ...
本文聚焦多模态大语言模型(MLLMs)的分辨率鲁棒性问题,即模型在不同输入分辨率下的性能稳定性。现有评估范式多关注语义层面表现,忽略了分辨率变化对模型性能的影响。为此,作者提出了Res-Bench基准测试集,包含14400个样本、12个分辨率等级和6个核心能力维度,搭配准确率、斯皮尔曼相关系数、绝对连续误差(ACE)、相对连续误差(RCE)四种评估指标。
ChiKhaPo: A Large-Scale Multilingual Benchmark for Evaluating Lexical Comprehension and Generatio...
ChiKhaPo是一个大规模多语言基准测试集,聚焦大型语言模型(LLMs)的词汇理解与生成能力,填补了现有基准在低资源语言覆盖和基础词汇能力评估上的空白。该基准包含8个子任务(4类核心任务,每类含理解和生成两个方向),利用词典、单语数据和双语平行语料构建,对2700余种语言提供支持,远超现有同类基准。通过对6个主流多语言LLMs的测试发现,模型在低资源语言上表现不佳,且理解能力(X→模型)普遍优于生成能力(模型→X);印欧语系语言表现最佳,语言资源丰富度是影响性能的关键因素。
Utilising Large Language Models for Generating Effective Counter Arguments to Anti-Vaccine Tweets
该研究聚焦于利用大语言模型(LLMs)和小语言模型(SLMs)自动生成针对反疫苗推文的有效反驳论据,以应对社交媒体上反疫苗虚假信息传播对公共健康的威胁。数据集构建:基于CAVES多标签反疫苗推文数据集,利用GPT-4o-mini生成包含两种版本(含标签描述/不含标签描述)的CNTR-VAX反驳论据数据集,涵盖宗教、政治、成分安全、有效性等12类反疫苗核心关切。生成策略设计基础提示策略:仅输入反疫苗推文生成通用反驳;
Instant Personalized Large Language Model Adaptation via Hypernetwork
个性化大语言模型(LLMs)旨在利用用户画像或历史数据量身定制内容以匹配个体偏好。然而,现有的参数高效微调(PEFT)方法(如“单用户单PEFT”(OPPU)范式)需要为每个用户训练专属适配器,计算成本高昂,且无法实现实时更新。本文提出Profile-to-PEFT(P2P),这是一种可扩展框架,通过端到端训练的超网络,将用户的编码画像直接映射为完整的适配器参数(如LoRA),从而在部署时无需进行逐用户训练。实验结果表明,该方法在显著减少部署阶段计算资源消耗的同时,性能优于基于提示词的个性化方法和OPPU。
Publication Trend Analysis and Synthesis via Large Language Model: A Case Study of Engineering in...
科学文献正日益受到复杂语言、静态学科结构和潜在稀疏关键词系统的割裂,难以捕捉现代科学的动态本质。本研究通过引入一种适应性强的大型语言模型(LLM)驱动框架来应对这些挑战,该框架可量化主题趋势并绘制科学知识的演化图景。研究以《美国国家科学院院刊》(PNAS)20年间发表的1500余篇工程类文章为样本(这些文章以研究范围的广度和深度为显著特征),展示了该方法的有效性。两阶段分类流程首先基于摘要为每篇文章确定主主题类别,随后通过全文分析进行次主题分类,揭示文献集中潜在的跨主题关联。
Evaluating Prompting Strategies and Large Language Models in Systematic Literature Review Screeni...
本研究量化了提示策略与大型语言模型(LLMs)在系统文献综述(SLRs)筛选阶段自动化中的交互作用。我们基于准确性、精度、召回率和F1分数,在相关性分类和六个二级任务上,评估了六种LLM(GPT-4o、GPT-4o-mini、DeepSeek-Chat-V3、Gemini-2.5-Flash、Claude-3.5-Haiku、Llama-4-Maverick)在五种提示类型(零样本、少样本、思维链(CoT)、CoT-少样本、自我反思)下的表现。
Hierarchical Federated Unlearning for Large Language Models
该研究针对大型语言模型(LLMs)在实际应用中面临的隐私保护、不良知识移除需求,提出了一种名为的分层联邦遗忘框架。核心目标是解决现有机器遗忘技术的两大关键挑战:一是遗忘需求具有连续性、异质性且分散化;二是数据存在非对称访问限制(客户端持有遗忘数据、服务器持有保留数据,双方无法共享敏感数据),导致域间与域内干扰,进而引发“遗忘不彻底”与“过度遗忘有用知识”的失衡困境。解耦遗忘与保留目标。
NP-Engine: Empowering Optimization Reasoning in Large Language Models with Verifiable Synthetic N...
大型语言模型(LLMs)已展现出强大的推理能力,OpenAI的O系列和DeepSeekR1等模型通过带可验证奖励的强化学习(RLVR),在数学、编码、逻辑和谜题等任务中表现优异。然而,它们解决更复杂优化问题(尤其是NP难任务)的能力仍未得到充分探索。为填补这一空白,我们提出NP-ENGINE——首个用于在NP难问题上训练和评估LLMs的综合框架。NP-ENGINE涵盖5个领域的10项任务,每项任务均具备:(i)可控实例生成器,(ii)规则化验证器,以及(iii)启发式求解器(提供近似最优解作为基准真值)
DeepAnalyze: Agentic Large Language Models for Autonomous Data Science
自主数据科学旨在从原始数据源生成分析师级深度研究报告,是一项长期存在的挑战。随着强大大语言模型(LLM)的出现,这一目标如今已具备实现可能。近年来基于工作流的数据智能体在特定数据任务上取得了一定成果,但由于依赖预定义工作流,其在实现完全自主数据科学方面存在根本性局限。本文提出DeepAnalyze-8B,这是首个专为自主数据科学设计的智能体大语言模型,能够自动完成从数据源到分析师级深度研究报告的端到端流程。
Does Visual Grounding Enhance the Understanding of Embodied Knowledge in Large Language Models?
基准构建:设计了两个核心任务——SensoryVec和PerceptualQA,覆盖视觉、听觉、触觉、味觉、嗅觉等外部感官及内感受,共包含超过1700个问题。其中,SensoryVec通过向量相似度评估模型对感官形容词的表征能力,PerceptualQA通过问答任务评估模型的感知推理能力(视觉模态进一步细分为颜色属性、自然颜色、几何变换等5个子任务)。实验发现所有模型在具身知识理解上表现不佳,最优模型在两项任务中的准确率仅约70%,远低于人类基准(86%);
Real-Time World Crafting: Generating Structured Game Behaviors from Natural Language with Large L...
我们提出了一种将大型语言模型(LLMs)安全集成到交互式游戏引擎的新型架构,允许玩家通过自然语言“编程”新的游戏行为。该框架通过LLM将指令翻译成受约束的领域特定语言(DSL)来降低风险,该DSL在运行时配置自定义的实体组件系统(ECS)。我们在一个2D法术构建游戏原型中对该系统进行了评估,实验性地测试了Gemini、GPT和Claude系列模型及多种提示策略。
A Brain Cell Type Resource Created by Large Language Models and a Multi-Agent AI System for Colla...
单细胞分子转录组学和表观基因组学数据已革新了脑细胞类型的鉴定,但由于参考标记不完善以及文献中的关联不够精准,对大多数推定类型(包括新型或稀有类型)进行功能注释仍然面临挑战。尽管基于生物医学文献训练的大型语言模型(LLMs)展现出潜力,但它们的应用常受限于事实错误和不精确的生物学推理。本研究开发了一种新型多智能体AI系统——BRAINCELL-AID(基于分布式AI的脑细胞类型注释与整合系统,网址:https://biodataai.uth.edu/BRAINCELL-AID),用于脑细胞类型注释。
