Loading...

Investigating Retrieval-Augmented Generation in Quranic Studies: A Study of 13 Open-Source LLM
针对通用大语言模型在宗教领域(如古兰经研究)回答问题时存在的幻觉问题和准确性不足,本研究提出结合检索增强生成(RAG)框架,通过集成领域特定知识(古兰经章节描述数据集)提升回答的上下文相关性忠实性和准确性。

BadToken: Token-level Backdoor Attacks to Multi-modal Large Language Models
首次提出Token级后门攻击Token替换:将输出中的特定源token(如"red")替换为目标token(如"green")Token插入:在输出末尾插入恶意token序列(如钓鱼链接)优化框架提出结合有效性损失(最大化攻击成功率)和实用性损失(保持模型性能)的优化目标通过影子数据集训练实现触发模式与攻击行为的绑定防御验证测试了微调(Fine-tuning)和输入净化(Zero-shotImagePurification)等防御方法的局限性发现Token替换攻击对微调具有较强抗性。

Fin-R1: A Large Language Model for Financial Reasoning through Reinforcement Learning
模型设计Fin-R1是一个专为金融领域设计的轻量级大语言模型(70亿参数),通过监督微调(SFT)和强化学习(RL)两阶段训练框架,解决金融推理中的核心问题。数据集构建提出了高质量金融推理数据集,包含60,091条多维度金融知识样本,涵盖中文和英文双语内容,通过数据蒸馏和过滤确保准确性。训练方法监督微调(SFT):基于Qwen2.5-7B-Instruct模型,优化金融推理能力。强化学习(RL)

Hybrid-Level Instruction Injection for Video Token Compression in Multi-modal Large Language Models
近期多模态大语言模型(MLLMs)在处理海量视频帧时面临计算开销挑战,通常通过压缩策略缓解。然而,视觉内容对用户指令的贡献不均,现有方法(如平均池化)不可避免地导致有用信息丢失。为此,我们提出混合级指令注入策略(HICom),利用指令作为条件从局部和全局层面引导压缩,在减少视觉token的同时保留用户关注的最大信息量。具体而言,指令条件分别注入局部组token和全局可学习token,通过注意力机制完成条件压缩。

Federated Cross-Domain Click-Through Rate Prediction With Large Language Model Augmentation
在严格的隐私约束下准确预测点击率(CTR)面临重大挑战,尤其是在用户-物品交互稀疏且跨领域碎片化的场景中。传统跨域CTR(CCTR)方法常假设特征空间同构并依赖集中式数据共享,忽视了复杂的领域差异和隐私保护协议的权衡。本文提出了联邦跨域点击率预测与大语言模型增强(FedCCTR-LM),这是一种通过同步数据增强、特征解耦和自适应隐私保护来解决上述限制的联邦框架。隐私保护增强网络(PrivAugNet):利用大语言模型丰富用户和物品表示并扩展交互序列,缓解数据稀疏和特征不完整问题。

Large Language Model Compression via the Nested Activation-Aware Decomposition
激活分布的变异性:不同数据集和模型的激活分布差异导致传统SVD方法性能下降。未见激活的适应性:现有方法在处理新数据集或任务时容易出现"过拟合"。截断感知数据白化:通过调整权重矩阵与激活分布的关系,确保奇异值截断时的最小损失。双向分解结构:在保持原始权重矩阵信息的同时,吸收激活异常值。实验结果表明,NSVD在8个数据集和6个模型(涵盖LLaMA、OPT、Mistral三大家族)上均优于现有SVD方法(如ASVD、SVD-LLM),尤其在30%-50%压缩率或多语言/多任务场景下优势显著。

Survey on Evaluation of LLM-based Agents
基于LLM的智能体代表了AI范式的转变,使自主系统能够在动态环境中进行规划、推理、使用工具并保持记忆。基础能力(规划、工具使用、自我反思、记忆);领域特定基准(网页、软件工程、科学、对话代理);通用智能体评估;评估框架。研究揭示了动态评估趋势(如更真实的挑战场景和实时基准),并指出未来需解决的关键问题:成本效率、安全性、鲁棒性及细粒度评估方法的开发。本综述为智能体评估的快速演进提供了全景图,指明了研究方向。

RWKV-7 “Goose“ with Expressive Dynamic State Evolution
我们提出了一种新的序列建模架构RWKV-7“Goose”,及其预训练语言模型。该模型在30亿参数规模下的多语言任务中达到了新的SOTA性能,并在英语任务中接近当前SOTA,而训练所需的token数量显著少于其他顶级3B模型。RWKV-7保持了常数内存使用和每token常数推理时间。RWKV-7引入了具有向量值门控和上下文学习率的广义增量规则,以及松弛的值替换规则。我们证明了RWKV-7能够进行状态跟踪并识别所有正则语言,同时保留训练的并行性。

Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models
大型语言模型(LLMs)在复杂任务中展现出卓越能力。近期,OpenAIo1和DeepSeek-R1等大型推理模型(LRMs)通过监督微调(SFT)和强化学习(RL)技术优化思维链(CoT)推理,进一步提升了数学、编程等System-2推理领域的性能。然而,较长的CoT推理序列虽能提高准确性,但冗余的输出会导致显著的计算开销,即“过度思考现象”。高效推理旨在优化推理长度同时保留能力,可降低计算成本并提升实时应用响应速度。尽管潜力巨大,高效推理仍处于研究初期。

Measuring AI Ability to Complete Long Tasks
本文提出了一种量化AI系统能力的新指标——50%任务完成时间跨度(50%-task-completiontimehorizon),即人类完成AI模型以50%成功率完成的任务所需的平均时间。当前前沿模型的50%时间跨度约为50分钟。自2019年以来,AI的时间跨度每七个月翻倍,2024年增速可能加快。性能提升主要得益于逻辑推理、工具使用能力和错误适应能力的增强。若趋势持续,未来五年内AI可能完成人类需一个月的软件任务。尽管AI基准测试进展迅速,其现实意义仍不明确。50%任务完成时间跨度。

Communication-Efficient Language Model Training Scales Reliably and Robustly
本文研究了通信高效的分布式训练方法DiLoCo在大规模语言模型(LLM)训练中的扩展规律。通过固定计算预算,作者分析了DiLoCo在模型规模、超参数(学习率、批量大小等)和令牌预算下的行为,并提出了扩展定律。实验表明,DiLoCo在模型规模增大时表现出可预测性和鲁棒性,其最优批量大小更大,通信成本更低,且在某些情况下比传统数据并行方法(Data-Parallel)性能更优。通信高效的语言模型训练可靠且鲁棒地扩展:DiLoCo的扩展定律。

Explicit vs. Implicit: Investigating Social Bias in Large Language Models through Self-Reflection
大语言模型(LLMs)在生成内容中表现出各种偏差和刻板印象。尽管已有大量研究探讨LLMs中的偏差问题,但以往工作主要集中在显式偏差上,对更微妙的隐式偏差则大多未进行深入探究。本文提出一个基于社会心理学理论的系统框架,用于研究和比较LLMs中的显式和隐式偏差。我们提出一种新颖的基于“自我反思”的评估框架,该框架分两个阶段运作:首先通过模拟心理评估方法测量隐式偏差,然后通过促使LLMs分析自己生成的内容来评估显式偏差。

Evaluating Large Language Models Against Human Annotators in Latent Content Analysis
在快速数字通信时代,每天都会产生大量文本数据,这就需要高效的潜在内容分析方法来提取有意义的信息。大语言模型(LLMs)为实现这一过程的自动化提供了可能,但目前缺乏在多个维度上将其性能与人类标注者进行全面比较的评估。本研究评估了包括OpenAI的GPT-4、Gemini、Llama和Mixtral等7种前沿大语言模型在分析情感、政治倾向、情感强度和讽刺检测方面相对于人类标注者的可靠性、一致性和质量。

Progressive Document-level Text Simplification via Large Language Models
文本简化研究主要集中在词汇和句子层面的变化。长文档级简化(DS)仍相对缺乏探索。像ChatGPT这样的大语言模型(LLMs)在许多自然语言处理任务中表现出色。然而,它们在DS任务上的表现并不理想,常常将DS仅仅视为文档总结。对于DS任务,生成的长序列不仅要始终与原始文档保持一致,还需完成包括语篇、句子和词汇层面的适度简化操作。人类编辑采用分层复杂度简化策略来简化文档。本研究致力于通过利用LLMs的多阶段协作来模拟这一策略。

AGGA: A Dataset of Academic Guidelines for Generative AI and Large Language Models
本研究介绍了AGGA数据集,该数据集包含80条在学术环境中使用生成式人工智能(GAIs)和大语言模型(LLMs)的学术指南,这些指南均精心收集自各大学官方网站。该数据集包含188,674个单词,是自然语言处理任务中宝贵的资源,可应用于需求工程中的模型合成、抽象识别和文档结构评估等任务。此外,AGGA数据集可进一步标注,作为各种任务的基准,包括歧义检测、需求分类和等效需求识别。我们采用了严谨的方法进行全面审查,挑选的大学代表了全球各类机构,包括六大洲的顶尖大学。

LLM Weekly(2025.03.17-03.23)
原文地址:https://medium.com/nlplanet/claude-can-now-search-the-web-weekly-ai-newsletter-march-24th-2025-8bd25852f676

ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use
有效评估多跳工具使用能力对于分析大语言模型(LLMs)的理解、推理和函数调用能力至关重要。然而,由于缺乏可靠的评估数据集,这方面的进展受到了阻碍。为了解决这一问题,我们提出了ToolHop,这是一个包含995个用户查询和3912个相关工具的数据集,专门用于严格评估多跳工具使用能力。ToolHop通过一种新颖的查询驱动数据构建方法,包括工具创建、文档细化和代码生成,确保了多样化的查询、有意义的相互依赖关系、本地可执行的工具、详细的反馈以及可验证的答案。

Hidden Entity Detection from GitHub Leveraging Large Language Models
命名实体识别是从非结构化数据源构建知识库时的一项重要任务。实体检测方法大多依赖大量训练数据,而大语言模型(LLMs)则通过利用其在预训练过程中获得的能力,为零样本学习(ZSL)或少样本学习(FSL)方法开辟了道路。特别是在无法获取大规模训练数据的非常专业的场景中,零样本/少样本学习带来了新的机遇。本文顺应这一最新趋势,研究在这类场景中利用大语言模型自动检测GitHub仓库文本内容中的数据集和软件的潜力。

LLM4SR: A Survey on Large Language Models for Scientific Research
近年来,大语言模型(LLMs)的迅速发展改变了科学研究的格局,在研究周期的各个阶段都提供了前所未有的支持。本文首次系统地探讨了LLMs如何彻底改变科学研究过程。我们分析了LLMs在研究的四个关键阶段(假设发现、实验规划与实施、科学写作和同行评审)中所发挥的独特作用。我们的综述全面展示了特定任务的方法和评估基准。通过识别当前的挑战并提出未来的研究方向,本综述不仅突出了LLMs的变革潜力,还旨在启发和指导研究人员及从业者利用LLMs推动科学探索。

Investigating Numerical Translation with Large Language Models
数字翻译不准确可能会导致严重的安全问题,从财务损失到医疗失误等。虽然大语言模型(LLMs)在机器翻译方面取得了显著进展,但其翻译数字的能力尚未得到充分探索。本研究专注于评估基于大语言模型的机器翻译系统在处理数字数据时的可靠性。为了系统地测试当前开源大语言模型的数字翻译能力,我们基于真实业务数据构建了一个中英数字翻译数据集,涵盖了十种数字翻译类型。在该数据集上的实验表明,数字翻译错误是一个常见问题,大多数开源大语言模型在面对我们的测试场景时表现不佳。

欢迎留下您的脚印