Loading...

Graph Representation-based Model Poisoning on Federated LLMs in CyberEdge Networks
FedLLMs的背景与挑战:FedLLMs通过联邦学习框架实现分布式训练,在保护数据隐私的同时整合边缘设备(如智能医疗设备、自动驾驶车辆、物联网设备)的知识,但易受模型投毒攻击——攻击者通过生成恶意本地更新操纵全局模型,导致性能下降或特定任务失效。现有防御机制的局限性:当前防御手段(如基于距离的异常检测、范数约束、拜占庭resilient聚合器等)依赖“恶意更新与良性更新存在显著统计差异”的假设,在面对针对数十亿参数LLM的自适应攻击者时失效,尤其在非独立同分布(non-IID)文本数据场景下表现不佳。

LLMs for Legal Subsumption in German Employment Contracts
本文聚焦于利用大型语言模型(LLMs)评估德国雇佣合同条款的合法性,旨在解决法律工作中文本密集、资源消耗大的问题。研究通过与法律专家合作扩展现有数据集,测试了不同LLMs在三种法律上下文(无法律上下文、完整法律文本及判例、提炼的审查指南)下将条款分类为“有效(valid)”“不公平(unfair)”或“无效(void)”的能力。实验结果显示:完整法律文本对模型性能有一定提升,而提炼的审查指南显著提高了对“无效”条款的召回率,加权F1分数达80%;但即使如此,LLMs在完整法律文本上的表现仍远低于人类律师。

Continual Gradient Low-Rank Projection Fine-Tuning for LLMs
本文针对大语言模型(LLMs)的持续微调中效率与表达能力的权衡问题,提出了一种名为GORP(GradientLOwRankProjection,梯度低秩投影)的新训练策略。现有低秩适应方法(如LoRA)虽能提高效率,但受限于低秩结构,限制了模型学习新任务和迁移知识的能力,且依赖显式参数约束易导致任务间参数空间冲突。协同结合全秩和低秩参数,在统一的低秩梯度子空间中联合更新,既扩展了优化空间,又保留了低秩适应的效率;

Tuning without Peeking: Provable Privacy and Generalization Bounds for LLM Post-Training
梯度优化是深度学习的核心方法,通过反向传播实现高效且可扩展的训练。然而,其对大量标注数据的依赖引发了隐私和安全问题(如易受数据污染攻击),以及过拟合风险。相比之下,黑盒优化方法将模型视为“黑箱函数”,仅通过函数评估指导优化,在数据访问受限、对抗风险高或过拟合风险大的场景中具有潜力。但黑盒方法也面临显著挑战,包括在大型语言模型(LLMs)等高维参数空间中可扩展性差,以及因依赖大量模型评估导致的计算成本高。本文提出BBoxER,一种用于LLM后训练的进化黑盒方法,通过对训练数据的隐式压缩引入信息瓶颈。

LoRA Fine-Tuning Without GPUs: A CPU-Efficient Meta-Generation Framework for LLMs
本文提出了一种无需GPU即可为大型语言模型(LLMs)生成低秩适配器(LoRAs)的CPU高效元生成框架,旨在解决传统LoRA微调依赖GPU资源的问题。核心思路是:利用预训练的LoRA适配器库,通过轻量级组合现有LoRA权重(而非进行新的梯度更新),为新任务生成适配的LoRA,整个过程可在普通笔记本CPU上完成。具体而言,该框架将数据集表示为概率分布,通过计算新数据集与预训练数据集的分布相似度(如Wasserstein距离、KL散度等),生成融合权重,进而组合预训练LoRA得到新适配器。

Test-Time Scaling with Reflective Generative Model
我们介绍了首个反射生成模型MetaStone-S1,该模型通过新的反射生成形式达到了OpenAIo3mini的性能水平。这种新形式专注于高质量推理轨迹的选择,包含两项创新:1)策略模型与过程奖励模型的统一接口:我们共享骨干网络,并使用任务特定的头部分别进行推理轨迹预测和评分,仅为轨迹评分引入53M额外参数;2)消除对过程级标注的依赖:我们提出了一种自监督过程奖励模型,可直接从结果奖励中学习高质量推理轨迹的选择。

Scaling RL to Long Videos
本文介绍了一个全栈框架LongVILA-R1,旨在通过强化学习(RL)将视觉语言模型(VLMs)的推理能力扩展到长视频领域。大型数据集LongVideo-Reason:包含52K个长视频问答(QA)对,带有高质量推理标注,覆盖体育、游戏、博客等多个领域。两阶段训练pipeline:通过思维链有监督微调(CoT-SFT)扩展VLMs,再结合强化学习(RL)提升推理能力。长视频RL训练基础设施Multi-modalReinforcementSequenceParallelism(MR-SP)

T-LoRA: Single Image Diffusion Model Customization Without Overfitting
本文针对扩散模型在单张图像定制场景中易出现过拟合(如位置、背景固化)的问题,提出了一种基于时间步依赖的低秩适应框架T-LoRA(Timestep-DependentLow-RankAdaptation)。研究发现,扩散过程中的高时间步(噪声更大的阶段)比低时间步更易过拟合,因此需要时间步敏感的微调策略。动态微调策略(VanillaT-LoRA):根据扩散时间步调整秩约束更新,高时间步减少训练信号以减轻过拟合,低时间步增加训练信号以保留细节;正交初始化权重参数化(Ortho-LoRA)

SingLoRA: Low Rank Adaptation Using a Single Matrix
本文提出了一种新的低秩适应方法SingLoRA,旨在解决传统低秩适应(LoRA)方法中存在的训练不稳定性和参数效率问题。传统LoRA通过两个矩阵(A和B)的乘积对预训练权重进行低秩更新,但矩阵A和B的尺度差异会导致梯度消失或爆炸,影响训练稳定性和性能。SingLoRA通过单个低秩矩阵A的转置乘积(AAᵀ)重构低秩更新,实现了对称的权重更新(W₀+AAᵀ)。这种设计从根本上消除了矩阵间的尺度冲突,保证了训练稳定性,同时将可学习参数数量减少约一半。

PII Jailbreaking in LLMs via Activation Steering Reveals Personal Information Leakage
本文研究通过引导技术对大型语言模型(LLMs)进行隐私越狱,重点探究操纵激活是否能绕过LLM的对齐机制,并改变其对隐私相关查询(如某公众人物的性取向)的响应行为。我们首先利用经隐私评估标签训练的轻量级线性探针,识别出能预测模型对隐私属性(如性取向)拒绝行为的注意力头。随后,在这些训练好的探针引导下,我们对一小部分注意力头的激活进行引导,以促使模型生成非拒绝响应。实验表明,这些被引导的响应往往会披露目标属性的细节,以及数据主体的其他个人信息——如生活事件、人际关系和个人经历,而这些信息通常是模型会拒绝提供的。

OMS: On-the-fly, Multi-Objective, Self-Reflective Ad Keyword Generation via LLM Agent
本文针对赞助搜索广告(SponsoredSearchAdvertising,SSA)中的关键词生成问题,提出了一个名为OMS的框架。该框架具有即时性(On-the-fly)多目标性(Multi-Objective)和自反思性(Self-Reflective)三大核心特性,旨在解决现有基于大型语言模型(LLM)的关键词生成方法存在的三大局限:依赖大规模查询-关键词对数据、缺乏在线多目标性能监控与优化能力、关键词选择质量控制薄弱。智能聚类-排序模块。

Efficient Code LLM Training via Distribution-Consistent and Diversity-Aware Data Selection
本文聚焦于代码大语言模型(CodeLLM)的高效训练,针对现有方法过度依赖数据量、忽视数据质量导致训练效率低下的问题,提出了一种基于参数模型的代码数据选择方法。该方法通过优化参数模型,确保所选数据子集与原始数据集的分布一致性,同时最大化子集内部的多样性,从而筛选出高质量数据。

JoyTTS: LLM-based Spoken Chatbot With Voice Cloning
JoyTTS是一款端到端的语音聊天机器人,结合了大型语言模型(LLM)与文本转语音(TTS)技术,具备语音克隆能力。模型基础:基于开源的MiniCPM-o(LLM)和CosyVoice2(TTS)构建,替换了MiniCPM-o原有的GPT-Sovits-basedTTS模块以增强语音克隆性能,训练数据涵盖2000小时对话数据(400K多轮文本对话样本,来自RedGPT和GeneratedChat0.4M数据集)。模块组成。

APR MCTS: Improving LLM-based Automated Program Repair with Iterative Tree Search
自动程序修复(APR)旨在无需人工干预即可修复软件漏洞,在软件开发和维护中发挥着关键作用。近年来,随着大语言模型(LLMs)的发展,大量基于LLM的APR技术被提出,并取得了显著性能。然而,现有基于LLM的APR技术通常采用试错策略,存在两大缺陷:(1)由于局部探索,补丁有效性存在固有局限;(2)由于冗余探索,搜索效率低下。本文提出了APRMCTS,该方法通过迭代树搜索改进基于LLM的APR。

Low-Perplexity LLM-Generated Sequences and Where To Find Them
随着大型语言模型(LLMs)的应用日益广泛,理解特定训练数据如何塑造其输出,对于透明度、可追责性、隐私保护和公平性至关重要。为探究LLMs如何利用和复制训练数据,我们提出了一种以分析低困惑度序列(模型生成的高概率文本片段)为核心的系统方法。我们的流程能可靠地提取不同主题的长序列,同时避免退化问题,随后追溯这些序列在训练数据中的来源。令人惊讶的是,我们发现相当一部分低困惑度片段无法与语料库匹配。

STELLA: Self-Evolving LLM Agent for Biomedical Research
生物医学数据、工具和文献的快速增长造就了一个碎片化的研究格局,其发展速度已超越人类专业知识的极限。尽管AI代理提供了一种解决方案,但它们通常依赖静态、人工整理的工具集,限制了其适应和扩展能力。在此,我们提出STELLA,一款旨在克服这些局限的自进化AI代理。STELLA采用多代理架构,通过两种核心机制自主提升自身能力:一个用于推理策略的进化模板库,以及一个随工具创建代理自动发现和整合新生物信息学工具而不断扩展的动态工具海洋。这使得STELLA能够从经验中学习。

AI Literacy and LLM Engagement in Higher Education: A Cross-National Quantitative Study
研究发现:LLMs能提升信息获取效率、改善写作质量并提高学术表现,但存在过度依赖、伦理风险及批判性思维弱化等担忧。影响因素:基于人工智能素养框架、期望价值理论和Biggs的3P模型(预设、过程、结果),发现学生的动机信念和技术能力显著影响其对LLMs的使用;LLM使用频率与感知到的素养收益(相关系数(r=.59),(p

DIY-MKG: An LLM-Based Polyglot Language Learning System
本文介绍了一款基于大语言模型(LLMs)的多语言学习系统——DIY-MKG(Do-It-YourselfMultilingualKnowledgeGraph),旨在解决现有语言学习工具的三大局限:缺乏多语言词汇间的语言学关联支持、个性化定制不足、以及可能导致的“认知卸载”(学习者过度依赖AI而缺乏独立思考)。词汇扩展:用户以已知词汇为初始节点构建多语言知识图谱,通过LLM生成相关词汇并选择性添加,强化词汇间的语言学关联(如同义词、同源词等);丰富注释。

Challenges & Opportunities with LLM-Assisted Visualization Retargeting
尽管网络上发布的可视化示例无处不在,但将现有的自定义图表实现重定向到新数据集仍然困难、耗时且繁琐。这一适配过程要求设计者既要熟悉示例的实现方式,又要了解新数据集可能需要如何转换才能适配示例代码。随着大型语言模型(LLMs)的最新进展,通过高层级的用户提示可以实现代码的自动适配,降低了可视化重定向的门槛。为了更好地理解LLMs如何辅助重定向及其潜在局限性,我们在多个数据集和不同复杂度的图表上描述并评估了LLM辅助的性能,并按类型和严重程度对失败案例进行分类。

Tuning without Peeking: Provable Privacy and Generalization Bounds for LLM Post-Training
梯度优化是深度学习的核心方法,通过反向传播实现高效且可扩展的训练。然而,其对大量标注数据的依赖引发了隐私和安全问题(如易受数据污染攻击),以及过拟合风险。相比之下,黑盒优化方法将模型视为“黑箱函数”,仅通过函数评估指导优化,在数据访问受限、对抗风险高或过拟合风险大的场景中具有潜力。但黑盒方法也面临显著挑战,包括在大型语言模型(LLMs)等高维参数空间中可扩展性差,以及因依赖大量模型评估导致的计算成本高。本文提出BBoxER,一种用于LLM后训练的进化黑盒方法,通过对训练数据的隐式压缩引入信息瓶颈。

欢迎留下您的脚印