Loading...
在科学呈指数级增长的时代,识别新颖的研究想法在学术界至关重要但颇具挑战性。尽管潜力巨大,但缺乏合适的基准数据集阻碍了新颖性检测的研究。更重要的是,由于文本相似性与想法概念之间存在差距,简单采用现有的自然语言处理技术(如检索后交叉验证)并非通用解决方案。本文提出利用大型语言模型(LLMs)进行科学新颖性检测(ND),并引入营销和自然语言处理领域的两个新数据集。为构建适用于ND的数据集,我们提出基于论文关系提取闭包集,并基于LLMs总结其主要思想。
Fewer Hallucinations, More Verification: A Three-Stage LLM-Based Framework for ASR Error Correction
自动语音识别(ASR)纠错旨在纠正识别错误,同时保留正确文本。尽管传统方法表现出一定效果,但大语言模型(LLMs)提供了一种无需训练和标注数据的范式。然而,直接使用LLMs会遇到幻觉问题,可能导致正确文本被修改。为解决这一问题,我们提出了可靠的LLM纠错框架(RLLMCF),该框架包括三个阶段:(1)错误预检测,(2)链式思维子任务迭代纠正,(3)推理过程验证。我们的方法无需额外信息或模型微调,并通过多轮处理确保LLM纠正的正确性。
SkyLB: A Locality-Aware Cross-Region Load Balancer for LLM Inference
一、主要内容本文针对多区域大规模语言模型(LLM)推理服务中资源利用率低、成本高的问题,提出了跨区域负载均衡器SkyLB。传统区域本地部署方式需为每个区域按峰值需求配置资源,导致资源浪费;而简单的集中式负载均衡又会引入高延迟。两层跨区域路由架构:每个区域部署本地负载均衡器,协同处理跨区域流量,避免集中式瓶颈。前缀感知路由机制:通过一致性哈希(SkyLB-CH)和区域前缀树快照(SkyLB)维护键值缓存(KV-Cache)局部性,提升缓存命中率。基于待处理请求的选择性推送。
Faithful and Robust LLM-Driven Theorem Proving for NLI Explanations
本文针对自然语言推理(NLI)中自然语言解释的验证与优化问题,提出了一种结合大型语言模型(LLM)和定理证明器(TP)的神经符号框架Faithful-Refiner。核心挑战包括自动形式化过程中的语义丢失、语法错误、LLM构建严谨证明的能力不足。为此,作者提出以下解决方案:实验在e-SNLI、QASC和WorldTree数据集上表明,该框架显著提升了自动形式化的忠实性(+18.46%∼\sim∼+39.77%)和(+29.5%∼\sim∼+51.5%)解释优化率,并通过消融实验验证了各组件的必要性。自然语言
LoRA-Gen: Specializing Large Language Model via Online LoRA Generation
近年来的研究进展凸显了规模化语言模型在提升广泛自然语言处理(NLP)任务性能方面的优势。然而,当这些方法应用于领域特定任务时,尤其是对于小型边缘侧模型,在有效性和效率方面仍面临限制。我们提出了LoRA-Gen框架,该框架利用大型云端模型基于任务描述为边缘侧模型生成LoRA参数。通过采用重参数化技术,我们将LoRA参数合并到边缘侧模型中,以实现灵活的专门化。我们的方法促进了模型之间的知识转移,同时通过减少输入上下文长度,显著提高了专门化模型的推理效率。
code_transformed: The Influence of Large Language Models on Code
研究背景与目标大语言模型(LLMs)如Copilot、Cursor等已广泛应用于编程,但缺乏对其实际影响代码风格的系统性研究。研究聚焦LLMs对代码命名约定、复杂性、可维护性及相似性的影响,分析GitHub上1.9万+仓库的代码数据(2020-2025年)。核心发现命名模式:LLMs偏好更长、更具描述性的变量名(如snake_case),Python中snake_case变量名占比从2023年Q1的47%升至2025年Q1的51%,且GitHub中该趋势与LLM生成代码风格一致。
FAA Framework: A Large Language Model-Based Approach for Credit Card Fraud Investigations
本文提出了一个基于大语言模型(LLM)的信用卡欺诈调查框架FAA(FraudAnalystAssistant),旨在解决人工调查中警报疲劳、流程复杂和证据记录繁琐等问题。FAA框架利用多模态LLM的推理、代码执行和视觉分析能力,自动化完成欺诈调查的七个核心步骤,包括规划、证据收集、数据分析和报告生成。通过对Sparkov和CCTD数据集的500例欺诈调查进行评估,结果显示FAA框架平均仅需7个调查步骤,且收集的证据中71-72%对欺诈嫌疑有高或极高影响,所有证据均具相关性且无逻辑矛盾。
A Hybrid Multi-Agent Prompting Approach for Simplifying Complex Sentences
句子简化是计算语言学中的重要任务,目标是在保留原意的前提下将复杂句子转化为简单结构,在教育、无障碍内容、游戏设计等领域有重要应用。传统方法(规则系统、统计方法、神经网络)难以在简化同时保持语义等价,LLM单独使用时因简化策略多样易失效,微调也可能因训练集有限导致过拟合。复杂句子在动作导向场景(如机器人、游戏逻辑)中存在条件逻辑嵌套、时间依赖等挑战,需分解为可执行步骤。混合多智能体架构:将句子分解、评估、修订任务分配给专用智能体,通过协作提升简化质量,解决单智能体在复杂逻辑处理中的局限性。
Improving Large Language Model Safety with Contrastive Representation Learning
一、主要内容研究背景与问题大语言模型(LLMs)在带来巨大社会影响的同时,易受对抗性攻击(如越狱攻击)生成有害内容。现有防御方法(如电路断路器、RepBend)在跨攻击类型的泛化能力上存在不足,尤其在嵌入空间攻击中效果有限。核心方法提出基于对比表示学习(CRL)的防御框架,将模型防御构建为对比学习问题,通过三元组损失(TripletLoss)分离良性与有害表示。引入对抗硬负挖掘(AdversarialHardNegativeMining)
LearnAlign: Reasoning Data Selection for Reinforcement Learning in Large Language Models
一、主要内容研究背景与问题强化学习(RL)是提升大语言模型(LLM)推理能力的关键技术,但数据效率低下是主要瓶颈。现有数据选择方法多针对监督微调(SFT),在RL场景下效果有限,且存在计算效率低的问题(如需要对完整数据集进行多轮训练)。提出方法:LearnAlign基于改进的梯度对齐,通过估计数据点对模型训练的影响,智能选择具有高可学习性和代表性的推理数据。
Are Multimodal Large Language Models Pragmatically Competent Listeners in Simple Reference
本文聚焦于多模态大语言模型(MLLMs)在指称消解任务中的语用能力研究,通过简单但抽象的视觉刺激(如颜色块和颜色网格)开展实验。摘要我们研究了多模态大语言模型(MLLMs)在指称消解任务中的语言能力,该任务以颜色块和颜色网格等简单但抽象的视觉刺激为特征。尽管这项任务对人类对话者而言直观简单,似乎对当今的语言模型不具挑战性,但我们认为它是探测MLLMs语用能力的重要指标。结果与分析表明,基本语用能力(如颜色描述的语境依赖解释)仍是当前最先进MLLMs的主要挑战。引言。
An Empirical study on LLM-based Log Retrieval for Software Engineering Metadata Management
本文针对自动驾驶系统(ADS)开发中日志数据检索的挑战,提出了一种基于大型语言模型(LLM)的多模态日志检索方法。研究结合信号日志数据与测试驾驶视频,通过自然语言查询替代传统SQL查询,降低专业知识门槛,并引入场景距离图和相对差距指标(如LGap、RLGap)量化评估检索结果的可靠性。Prompt4(结构化指令)生成的描述最简洁准确,平衡了细节与检索效率;视频数据比单帧图像更能捕捉动态信息(如速度、加速度),提升描述可靠性;LLaVA模型在识别高相关记录和过滤无关结果上表现最佳;查询难度。
Long-Short Alignment for Effective Long-Context Modeling in LLMs
研究背景与问题大语言模型(LLMs)在长上下文建模中受限于Transformer的固定上下文窗口,尤其是“长度泛化”问题——模型在训练短序列后难以泛化至更长测试序列。现有方法多关注位置编码(PE)设计或模型机制分析,却忽视了模型输出空间的关键作用。核心发现与方法长-短对齐(Long-ShortAlignment):通过合成任务(如二进制序列均值预测与长度预测)发现,输出分布的一致性(即不同长度序列的输出分布对齐程度)是影响长度泛化的关键因素。例如,均值预测任务中输出范围固定,泛化性强;
LLMs on support of privacy and security of mobile apps: state of the art and research directions
本文聚焦于大语言模型(LLMs)在移动应用隐私与安全领域的应用,全面梳理了当前研究现状并指明未来研究方向。随着移动设备的广泛普及,移动应用面临的安全与隐私威胁愈发复杂,传统的静态分析、动态分析和混合分析方法在应对这些威胁时存在诸多局限,如准确性与可扩展性难以兼顾、需要root设备等。LLMs凭借其强大的代码理解、生成和推理能力,为移动应用安全分析提供了新思路。文中介绍了LLMs在漏洞检测、bug检测与复现、恶意软件检测等方面的应用。
Conversational AI as a Catalyst for Informal Learning: An Empirical Large-Scale Study on LLM Use
背景:大型语言模型(LLMs)如ChatGPT的出现深刻影响了学习方式,尤其是非正式学习领域,但该领域的大规模研究较为缺乏。目的:通过大规模调查探讨LLM在日常非正式学习中的使用情况,包括用户demographics、使用动机与障碍、学习模式及态度。大型语言模型不仅激发了公众的想象力,还引发了对学习方式的深刻反思。在ChatGPT突破性发布的第三年,随着不同用户群体探索这些新工具,日常非正式学习已发生变革。谁在拥抱LLM进行自主学习,谁仍持犹豫态度?他们采用或回避的原因是什么?
Prioritizing Alignment Paradigms over Task-Specific Model Customization in Time-Series LLMs
研究背景与挑战LLMs在时间序列中的应用潜力:LLMs在时间序列推理任务(如预测、异常检测、因果推理等)中展现出零样本学习能力,但存在符号自然语言与时间序列数据的模态差距,导致传统任务定制模型效率低、灵活性差。现有方法的局限性:现有方法过度关注特定任务模型定制,忽略了时间序列的基本元素(Time-SeriesPrimitives),如领域(Domain)、特征(Characteristic)和表示(Representation),导致模型成本高、适应性弱。核心观点与方法对齐范式优先。
Malicious LLM-Based Conversational AI Makes Users Reveal Personal Information
基于大型语言模型(LLM)的对话式人工智能(CAI),也称为生成式人工智能聊天机器人(如ChatGPT),正越来越多地应用于各个领域,但它们存在隐私风险,因为用户在与CAI对话时可能会泄露个人信息。最近的研究表明,基于LLM的CAI可能被用于恶意目的。然而,一种新型且特别令人担忧的恶意LLM应用仍未被探索:一种专门设计用于从用户那里提取个人信息的基于LLM的CAI。在本文中,我们报告了我们创建的基于大型语言模型的恶意对话式人工智能,这些AI基于使用不同策略来鼓励用户披露个人信息的系统提示。
Predic‘ng Early-Onset Colorectal Cancer with Large Language Models
研究背景与目的:早发性结直肠癌(EoCRC,年龄
Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM
CAPTCHA(全自动区分计算机和人类的图灵测试)一直是在实际应用中部署网页代理的关键瓶颈,常常阻碍它们完成端到端的自动化任务。尽管现代多模态大语言模型(MLLM)代理在静态感知任务中表现出色,但其处理如CAPTCHA这类交互式、多步推理挑战的能力尚未得到充分测试。为填补这一空白,我们引入了OpenCaptchaWorld,这是首个基于网络的基准测试平台,专门设计用于通过多样化和动态的CAPTCHA谜题评估MLLM代理的视觉推理和交互能力。
Learning Safety Constraints for Large Language Models
大型语言模型(LLMs)已成为强大的工具,但其通过有害输出和对抗攻击漏洞带来显著安全风险。我们提出SaP(SafetyPolytope的简称),一种LLM安全的几何方法,直接在模型的表示空间中学习和执行多个安全约束。我们开发了一个框架,通过多面体的“面”识别安全和不安全区域,实现通过几何转向对不安全输出的检测和纠正。与现有修改模型权重的方法不同,SaP在表示空间中进行事后(post-hoc)操作,保留模型能力的同时执行安全约束。