Loading...
在自动化决策中,决策者的输出应能抵御输入的微小扰动,这一特性可称为输入输出鲁棒性。输入输出鲁棒性在文献中以多种形式存在,例如AI模型对对抗性或语义扰动的鲁棒性,以及对人类做出决策的AI模型的个体公平性。本文提出对已部署的黑盒AI模型进行输入输出鲁棒性的运行时监控,目标是设计一种监控器,该监控器能够观察模型的长序列执行过程,并在检测到历史中两个相似输入导致不同输出时发出警报。通过这种方式,监控将作为现有离线“鲁棒化”方法的补充,以提高AI决策者的可信度。
2025KDD-Evaluating Decision Rules Across Many Weak Experiments
背景与问题:成熟科技公司(如Netflix)每年运行数千次A/B测试,依赖决策规则将实验结果转化为产品落地决策(如是否上线某功能)。但传统决策规则评估存在两大痛点:一是“赢家诅咒”导致朴素估计量严重偏误(选中的“优胜组”效果因噪声被高估);二是数字实验中信号噪声比低,难以准确估算决策规则对长期核心指标的实际收益。核心框架。
2025KDD-Improving Group Robustness on Spurious Correlation via Evidential Alignment
深度神经网络常常学习并依赖虚假相关性,即非因果特征与目标之间的表面关联。例如,图像分类器可能基于沙漠背景识别骆驼。尽管这种模型在训练期间能达到较高的整体准确率,但在不存在此类相关性的更多样化场景中,其泛化性能会下降。该问题对分布外鲁棒性和可信度构成了重大挑战。现有方法通常通过使用外部群体标注或辅助确定性模型来学习无偏表示,以缓解这一问题。然而,此类信息的获取成本高昂,且确定性模型可能无法捕捉模型所学偏差的全部范围。
2025KDD-When Heterophily Meets Heterogeneity: Challenges and a New Large-Scale Graph Benchmark
图挖掘在社会科学、金融和网络安全等领域已变得至关重要。许多大规模真实世界网络既表现出异质性(图中存在多种节点和边类型),又具有异嗜性(相连节点可能具有不同的标签和属性)。然而,现有基准测试主要集中于同质异嗜性图或异质同嗜性图,在理解模型在同时具备异质性和异嗜性的图上的性能表现方面存在显著缺口。为填补这一缺口,我们提出H²GB——一个大规模节点分类图基准测试,它整合了真实世界图的异嗜性和异质性双重复杂性。
2025KDD-runner up-HtFLlib: A Comprehensive Heterogeneous Federated Learning Library and Benchmark
本文针对传统联邦学习(FL)仅支持同构模型、无法满足异构模型协作需求的局限,提出了首个异构联邦学习库与基准测试平台HtFLlib。该框架旨在解决当前异构联邦学习(HtFL)研究中数据集不统一、模型异构场景多样、方法实现差异大导致的评估困难,以及在医疗、传感器信号等领域适用性未充分探索的问题。数据资源:涵盖图像、文本、传感器信号3种模态,包含标签偏斜、特征偏移、真实世界3类异构场景的12个数据集(如Cifar10/100、AGNews、HAR等);模型资源。
2025KDD-runner up-Put Teacher in Student’s Shoes: Cross-Distillation for Ultra-compact Model Compres
该研究针对移动边缘设备等资源受限场景下NLP模型部署的核心痛点(隐私合规、实时响应、多任务支持),提出了EI-BERT(Edgeultra-lIteBERT)框架,通过“硬令牌剪枝+交叉蒸馏+参数量化”的全流程压缩方案,实现了超紧凑的BERT-based模型。极致压缩性能:最终模型仅1.91MB,相比BERT-base压缩99.5%,是目前已知最小的NLU任务专用模型,且在CLUE基准和支付宝内部数据集上保持稳健性能;核心技术pipeline。
2024KDD-LiGNN: Graph Neural Networks at LinkedIn
本文提出了LiGNN——一个已部署的大规模图神经网络(GNN)框架,并分享了LinkedIn在大规模GNN开发与部署过程中的实践经验。我们提出了一系列提升GNN表示学习质量的算法优化,包括带长期损失函数的时序图架构、基于图致密化、ID嵌入和多跳邻居采样的高效冷启动解决方案。同时,我们详细阐述了如何通过自适应邻居采样、训练数据批次分组切片、专用共享内存队列及本地梯度优化等技术,构建并加速LinkedIn图数据的大规模训练(提速7倍)。本文总结了从A/B测试实验中获得的部署经验与启示。
2024KDD-CAT: Interpretable Concept-based Taylor Additive Models
作为一种新兴的可解释技术,广义加法模型(GAMs)采用神经网络为每个特征单独学习非线性函数,然后通过线性模型组合这些函数以进行最终预测。尽管GAMs能够在特征层面解释深度神经网络(DNNs),但它们需要大量模型参数且容易过拟合,导致训练和扩展困难。此外,在具有大量特征的真实世界数据集中,基于特征的解释对人类而言可解释性会下降。为解决这些问题,近期研究已转向基于概念的可解释方法。这些方法试图在进行预测之前将概念学习整合为中间步骤,通过人类可理解的概念来解释预测结果。
2025KDD-runner up-A Guide to Misinformation Detection Data and Evaluation
该研究聚焦虚假信息检测领域的数据与评估问题,核心是解决数据缺陷导致的解决方案难落地的痛点。研究整理了75个虚假信息相关数据集(CDL-MD),规模为同类研究之最,其中36个聚焦单句/双句声明、9个聚焦段落文本,涵盖1.2亿+观测值,统一了“真实/虚假/混合/未知”的标签体系。通过CDL-DQA工具评估数据质量,发现多数数据集存在虚假关键词关联、虚假时间关联、内容模糊不可验证等问题,超半数声明类数据无证据检索时无法评估真实性。
2025KDD-Honorable Mentions-Web Scale Graph Mining for Cyber Threat Intelligence
抵御当今日益复杂和大规模的网络攻击,需要准确、实时的威胁情报。传统方法难以实现规模化扩展、整合多样化遥测数据,且无法适应持续演变的安全环境。本文提出威胁情报跟踪自适应网络框架(TITAN),这是一种工业级图挖掘框架,能够以前所未有的速度和规模生成网络威胁情报。TITAN引入了一系列专门针对现代安全领域复杂性的创新,包括:(1)动态威胁情报图,映射数百万实体、事件和组织间的复杂关系;(2)实时更新机制,自动衰减和修剪过时情报;(3)整合安全领域知识,引导初始化声誉分数;
Is External Information Useful for Stance Detection with LLMs?
在立场检测任务中,文本会被归类为对目标的支持、反对或中立。先前的研究表明,使用外部信息(如维基百科摘录)可提升立场检测性能。然而,尽管大型语言模型(LLMs)在许多推理任务中被广泛采用,但此类信息是否能对其有益仍是一个未解决的问题。在本研究中,我们系统评估了维基百科和网页搜索的外部信息如何影响8个LLMs在3个数据集(含12个目标)上的立场检测性能。令人惊讶的是,我们发现这类信息在大多数情况下会降低性能,宏F1分数最多下降27.9%。
2024KDD-runner up-Nested Fusion: A Method for Learning High Resolution Latent Structure
火星毅力号探测器代表了火星测量规模的代际变革,但这种分辨率的提升为探索性数据分析技术带来了新的挑战。探测器上的多种不同仪器各自测量科学家关注的特定属性,因此联合分析潜在现象如何影响多种仪器的测量结果,对于全面理解研究对象至关重要。然而,每种仪器都有其独特的分辨率,这使得重叠数据层之间的映射问题变得非trivial。在本研究中,我们提出了NestedFusion方法,该方法能够融合任意层级的不同分辨率数据集,并以尽可能高的分辨率生成潜变量分布,编码不同测量数据与不同尺度之间的复杂相互关系。
Transferable Modeling Strategies for Low-ResourceLLM Tasks: A Prompt and Alignment-BasedApproach
本文聚焦于低资源语言或领域场景下大语言模型(LLMs)的迁移与适应能力不足的问题,提出了一种基于提示和对齐的可迁移建模策略。该策略构建了一个统一框架,整合知识迁移模块与参数高效微调方法,通过引入知识对齐损失和软提示调优,引导模型在最少标注数据下有效吸收目标语言或任务的结构特征,同时结合轻量级适应模块降低计算成本,并采用冻结策略和提示注入保留模型原有知识以实现快速适应。
Quantize-Sample-and-Verify: LLM Acceleration via Adaptive Edge-Cloud Speculative Decoding
在边缘-云推测解码(SD)中,配备小语言模型(SLM)的边缘设备生成草稿token,再由云端的大语言模型(LLM)进行验证。此类系统的一个关键瓶颈是边缘与云端之间有限的通信带宽,这在实际边缘-云部署场景中对效率提出了更高要求。本文提出一种新颖的“量化-采样(Q-S)”策略,可证明地保持生成token的分布与LLM直接生成的分布一致。基于此模型,我们提出一种自适应机制,通过动态调整草稿长度和量化精度,以响应语义不确定性和信道条件,从而优化token吞吐量。仿真结果表明,所提出的Q-S方法显著提升了解码性能。
2025NIPS-why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical Regularization
扩散模型在各类生成任务中取得了显著成功。一个核心挑战是理解其避免记忆训练数据并实现泛化的机制。本研究探究了训练动态在泛化到记忆化转变过程中的作用。通过大量实验和理论分析,我们识别出两个不同的时间尺度:早期时间τgen\tau_{gen}τgen(模型开始生成高质量样本的时间)和后期时间τmem\tau_{mem}τmem(超过该时间后记忆化出现)。关键发现是,τmem\tau_{mem}τmem随训练集大小nnn线性增长,而τgen。
2025NIPS-1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching
本文聚焦强化学习(RL)的扩展性问题,核心研究如何通过提升网络深度解锁自监督强化学习(self-supervisedRL)的性能突破。传统RL模型多采用2-5层的浅层架构,而NLP、计算机视觉等领域的深度网络已证明规模扩展的有效性。作者通过整合三大关键组件(自监督RL算法、GPU加速框架、深度网络架构优化),实现了网络深度向1024层的扩展,并在无演示、无奖励的目标条件设置下开展实验。
2025NIPS-Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
该研究围绕大型语言模型(LLM)中的门控机制展开系统性探索,核心是在softmax注意力机制中引入门控变体,通过大规模实验验证其效果并揭示内在原理。研究背景:门控机制在神经网络(如LSTM、Transformer相关模型)中广泛应用,但现有研究未充分拆解门控本身的作用(常与其他架构因素混淆),且LLM存在“注意力sink”“大规模激活”等问题,影响训练稳定性和长文本处理能力。核心实验设计模型规模:15B混合专家(MoE)模型和1.7B稠密模型,基于3.5万亿tokens数据集训练;
2025NIPS-Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)
提出大语言模型(LMs)存在“人工蜂群思维(ArtificialHivemind)”效应:单一模型输出存在内部重复,不同模型间输出高度同质化,且在开放式任务中表现显著。构建INFINITY-CHAT数据集:包含2.6万条真实世界开放式用户查询,覆盖6大类17个子类查询类型,配套3.125万条人类标注(每条含25个独立标注)。实证分析:70余款开源/闭源模型在开放式任务中,跨模型输出相似度达71%-82%;现有LM、奖励模型及LM评判器难以匹配人类对多元优质响应的偏好。
LLM Weekly(2025.12.15-12.21)
OpenAI推出由其最强文本生成图像模型驱动的ChatGPT图像功能,该功能已向所有ChatGPT用户及API调用用户开放。这款模型指令遵循精度更高,在图像编辑过程中能精准保留光影、构图与人物肖像特征,优化了密集文本渲染效果和小尺寸人脸画质,图像生成速度提升高达4倍。新增的图像侧边栏功能,提供预设风格模板、热门提示词以及可重复使用的肖像上传功能。。谷歌推出Gemini3Flash模型,将其部署为Gemini应用及AI搜索模式的默认模型。
2024NIPS-Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
我们提出了视觉自回归建模(VAR)这一新型生成范式,它将图像上的自回归学习重新定义为从粗到细的“逐尺度预测”或“逐分辨率预测”,区别于标准的光栅扫描式“逐token预测”。这种简单直观的方法使自回归(AR)Transformer能够快速学习视觉分布并具备良好的泛化能力:VAR首次实现了GPT式AR模型在图像生成任务中超越扩散Transformer。
