Loading...
在严格的隐私约束下准确预测点击率(CTR)面临重大挑战,尤其是在用户-物品交互稀疏且跨领域碎片化的场景中。传统跨域CTR(CCTR)方法常假设特征空间同构并依赖集中式数据共享,忽视了复杂的领域差异和隐私保护协议的权衡。本文提出了联邦跨域点击率预测与大语言模型增强(FedCCTR-LM),这是一种通过同步数据增强、特征解耦和自适应隐私保护来解决上述限制的联邦框架。隐私保护增强网络(PrivAugNet):利用大语言模型丰富用户和物品表示并扩展交互序列,缓解数据稀疏和特征不完整问题。
Large Language Model Compression via the Nested Activation-Aware Decomposition
激活分布的变异性:不同数据集和模型的激活分布差异导致传统SVD方法性能下降。未见激活的适应性:现有方法在处理新数据集或任务时容易出现"过拟合"。截断感知数据白化:通过调整权重矩阵与激活分布的关系,确保奇异值截断时的最小损失。双向分解结构:在保持原始权重矩阵信息的同时,吸收激活异常值。实验结果表明,NSVD在8个数据集和6个模型(涵盖LLaMA、OPT、Mistral三大家族)上均优于现有SVD方法(如ASVD、SVD-LLM),尤其在30%-50%压缩率或多语言/多任务场景下优势显著。
Survey on Evaluation of LLM-based Agents
基于LLM的智能体代表了AI范式的转变,使自主系统能够在动态环境中进行规划、推理、使用工具并保持记忆。基础能力(规划、工具使用、自我反思、记忆);领域特定基准(网页、软件工程、科学、对话代理);通用智能体评估;评估框架。研究揭示了动态评估趋势(如更真实的挑战场景和实时基准),并指出未来需解决的关键问题:成本效率、安全性、鲁棒性及细粒度评估方法的开发。本综述为智能体评估的快速演进提供了全景图,指明了研究方向。
RWKV-7 “Goose“ with Expressive Dynamic State Evolution
我们提出了一种新的序列建模架构RWKV-7“Goose”,及其预训练语言模型。该模型在30亿参数规模下的多语言任务中达到了新的SOTA性能,并在英语任务中接近当前SOTA,而训练所需的token数量显著少于其他顶级3B模型。RWKV-7保持了常数内存使用和每token常数推理时间。RWKV-7引入了具有向量值门控和上下文学习率的广义增量规则,以及松弛的值替换规则。我们证明了RWKV-7能够进行状态跟踪并识别所有正则语言,同时保留训练的并行性。
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models
大型语言模型(LLMs)在复杂任务中展现出卓越能力。近期,OpenAIo1和DeepSeek-R1等大型推理模型(LRMs)通过监督微调(SFT)和强化学习(RL)技术优化思维链(CoT)推理,进一步提升了数学、编程等System-2推理领域的性能。然而,较长的CoT推理序列虽能提高准确性,但冗余的输出会导致显著的计算开销,即“过度思考现象”。高效推理旨在优化推理长度同时保留能力,可降低计算成本并提升实时应用响应速度。尽管潜力巨大,高效推理仍处于研究初期。
Measuring AI Ability to Complete Long Tasks
本文提出了一种量化AI系统能力的新指标——50%任务完成时间跨度(50%-task-completiontimehorizon),即人类完成AI模型以50%成功率完成的任务所需的平均时间。当前前沿模型的50%时间跨度约为50分钟。自2019年以来,AI的时间跨度每七个月翻倍,2024年增速可能加快。性能提升主要得益于逻辑推理、工具使用能力和错误适应能力的增强。若趋势持续,未来五年内AI可能完成人类需一个月的软件任务。尽管AI基准测试进展迅速,其现实意义仍不明确。50%任务完成时间跨度。
Communication-Efficient Language Model Training Scales Reliably and Robustly
本文研究了通信高效的分布式训练方法DiLoCo在大规模语言模型(LLM)训练中的扩展规律。通过固定计算预算,作者分析了DiLoCo在模型规模、超参数(学习率、批量大小等)和令牌预算下的行为,并提出了扩展定律。实验表明,DiLoCo在模型规模增大时表现出可预测性和鲁棒性,其最优批量大小更大,通信成本更低,且在某些情况下比传统数据并行方法(Data-Parallel)性能更优。通信高效的语言模型训练可靠且鲁棒地扩展:DiLoCo的扩展定律。
Explicit vs. Implicit: Investigating Social Bias in Large Language Models through Self-Reflection
大语言模型(LLMs)在生成内容中表现出各种偏差和刻板印象。尽管已有大量研究探讨LLMs中的偏差问题,但以往工作主要集中在显式偏差上,对更微妙的隐式偏差则大多未进行深入探究。本文提出一个基于社会心理学理论的系统框架,用于研究和比较LLMs中的显式和隐式偏差。我们提出一种新颖的基于“自我反思”的评估框架,该框架分两个阶段运作:首先通过模拟心理评估方法测量隐式偏差,然后通过促使LLMs分析自己生成的内容来评估显式偏差。
Evaluating Large Language Models Against Human Annotators in Latent Content Analysis
在快速数字通信时代,每天都会产生大量文本数据,这就需要高效的潜在内容分析方法来提取有意义的信息。大语言模型(LLMs)为实现这一过程的自动化提供了可能,但目前缺乏在多个维度上将其性能与人类标注者进行全面比较的评估。本研究评估了包括OpenAI的GPT-4、Gemini、Llama和Mixtral等7种前沿大语言模型在分析情感、政治倾向、情感强度和讽刺检测方面相对于人类标注者的可靠性、一致性和质量。
Progressive Document-level Text Simplification via Large Language Models
文本简化研究主要集中在词汇和句子层面的变化。长文档级简化(DS)仍相对缺乏探索。像ChatGPT这样的大语言模型(LLMs)在许多自然语言处理任务中表现出色。然而,它们在DS任务上的表现并不理想,常常将DS仅仅视为文档总结。对于DS任务,生成的长序列不仅要始终与原始文档保持一致,还需完成包括语篇、句子和词汇层面的适度简化操作。人类编辑采用分层复杂度简化策略来简化文档。本研究致力于通过利用LLMs的多阶段协作来模拟这一策略。
AGGA: A Dataset of Academic Guidelines for Generative AI and Large Language Models
本研究介绍了AGGA数据集,该数据集包含80条在学术环境中使用生成式人工智能(GAIs)和大语言模型(LLMs)的学术指南,这些指南均精心收集自各大学官方网站。该数据集包含188,674个单词,是自然语言处理任务中宝贵的资源,可应用于需求工程中的模型合成、抽象识别和文档结构评估等任务。此外,AGGA数据集可进一步标注,作为各种任务的基准,包括歧义检测、需求分类和等效需求识别。我们采用了严谨的方法进行全面审查,挑选的大学代表了全球各类机构,包括六大洲的顶尖大学。
LLM Weekly(2025.03.17-03.23)
原文地址:https://medium.com/nlplanet/claude-can-now-search-the-web-weekly-ai-newsletter-march-24th-2025-8bd25852f676
ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use
有效评估多跳工具使用能力对于分析大语言模型(LLMs)的理解、推理和函数调用能力至关重要。然而,由于缺乏可靠的评估数据集,这方面的进展受到了阻碍。为了解决这一问题,我们提出了ToolHop,这是一个包含995个用户查询和3912个相关工具的数据集,专门用于严格评估多跳工具使用能力。ToolHop通过一种新颖的查询驱动数据构建方法,包括工具创建、文档细化和代码生成,确保了多样化的查询、有意义的相互依赖关系、本地可执行的工具、详细的反馈以及可验证的答案。
Hidden Entity Detection from GitHub Leveraging Large Language Models
命名实体识别是从非结构化数据源构建知识库时的一项重要任务。实体检测方法大多依赖大量训练数据,而大语言模型(LLMs)则通过利用其在预训练过程中获得的能力,为零样本学习(ZSL)或少样本学习(FSL)方法开辟了道路。特别是在无法获取大规模训练数据的非常专业的场景中,零样本/少样本学习带来了新的机遇。本文顺应这一最新趋势,研究在这类场景中利用大语言模型自动检测GitHub仓库文本内容中的数据集和软件的潜力。
LLM4SR: A Survey on Large Language Models for Scientific Research
近年来,大语言模型(LLMs)的迅速发展改变了科学研究的格局,在研究周期的各个阶段都提供了前所未有的支持。本文首次系统地探讨了LLMs如何彻底改变科学研究过程。我们分析了LLMs在研究的四个关键阶段(假设发现、实验规划与实施、科学写作和同行评审)中所发挥的独特作用。我们的综述全面展示了特定任务的方法和评估基准。通过识别当前的挑战并提出未来的研究方向,本综述不仅突出了LLMs的变革潜力,还旨在启发和指导研究人员及从业者利用LLMs推动科学探索。
Investigating Numerical Translation with Large Language Models
数字翻译不准确可能会导致严重的安全问题,从财务损失到医疗失误等。虽然大语言模型(LLMs)在机器翻译方面取得了显著进展,但其翻译数字的能力尚未得到充分探索。本研究专注于评估基于大语言模型的机器翻译系统在处理数字数据时的可靠性。为了系统地测试当前开源大语言模型的数字翻译能力,我们基于真实业务数据构建了一个中英数字翻译数据集,涵盖了十种数字翻译类型。在该数据集上的实验表明,数字翻译错误是一个常见问题,大多数开源大语言模型在面对我们的测试场景时表现不佳。
LLM+AL: Bridging Large Language Models and Action Languages for Complex Reasoning About Actions
大语言模型(LLMs)在各种智能任务中取得了显著进展,但在需要系统搜索的复杂行动推理任务上仍存在困难。为解决这一局限,我们提出一种方法,将大语言模型的自然语言理解能力与行动语言的符号推理优势相结合。我们的方法称为LLM+AL,它利用大语言模型在语义解析和常识知识生成方面的优势,以及行动语言基于编码知识进行自动推理的能力。我们使用复杂行动推理基准测试,将LLM+AL与最先进的大语言模型(包括CHATGPT-4、CLAUDE3OPUS、GEMINIULTRA1.0和O1-PREVIEW)进行比较。
LangFair: A Python Package for Assessing Bias and Fairness in Large Language Model Use Cases
大语言模型(LLMs)已被观察到在许多方面存在偏差,这可能会对由性别、种族、性取向或年龄等受保护属性所确定的特定群体造成不良后果,甚至使情况恶化。为了帮助填补这一空白,我们推出了langfair,这是一个开源的Python软件包,旨在为LLM从业者提供工具,以评估与他们特定用例相关的偏差和公平性风险。该软件包提供了轻松生成评估数据集的功能,这些数据集由LLM对特定用例提示的响应组成,随后还能为从业者的用例计算适用的指标。为了指导指标选择,LangFair提供了一个可行的决策框架。
Step-by-Step Mastery: Enhancing Soft Constraint Following Ability of Large Language Models
大语言模型(LLMs)遵循包含多个约束的指令至关重要。然而,提升大语言模型遵循软约束的能力仍是一个尚未探索的领域。为了填补这一空白,我们最初设计了一个流程,用于自动构建具有高质量输出的数据集。此外,为了充分利用数据构建过程中生成的正负样本,我们选择直接偏好优化(DPO)作为训练方法。考虑到约束数量所反映的软约束难度,我们设计了一种基于约束数量的课程学习训练范式。我们通过实验评估了我们的方法在提高大语言模型软约束遵循能力方面的有效性,并分析了推动性能提升的因素。数据集和代码可在上公开获取。
BoostStep: Boosting Mathematical Capability of Large Language Models via Improved Single-step
大语言模型(LLMs)在通过多步推理解决复杂数学问题方面展现出了令人瞩目的能力,并且可以通过精心设计的上下文学习(ICL)示例进一步提升。然而,这种潜力常常受到ICL中的两个主要挑战的限制:粒度不匹配和无关信息。我们观察到,虽然大语言模型擅长分解数学问题,但它们在细粒度步骤的推理中常常出现错误。此外,在问题级别检索到的ICL示例可能会省略关键步骤,甚至用无关的细节误导模型。