Loading...

CANCERLLM: A LARGE LANGUAGE MODEL IN CANCER DOMAIN
ClinicalCamel70B、Llama3OpenBioLLM70B等医学大语言模型(LLM)在各种医学NLP任务中表现出了令人印象深刻的性能。然而,目前仍然缺乏专门针对癌症领域设计的大型语言模型(LLM)。此外,这些LLM通常有数十亿个参数,这使得它们对于医疗保健系统来说计算成本高昂。

Leveraging Open Knowledge for Advancing Task Expertise in Large Language Models
培养大型语言模型(LLM)的专业知识来解决特定领域的任务通常需要针对预期稳定输出进行特殊目的的调整和校准行为。为了避免手动准备长达数百小时的指令数据集和训练资源带来的巨额成本,利用包括丰富的低秩适应(LoRA)模型和指令数据集在内的开放知识作为一个很好的起点。然而,现有的模型和数据选择方法侧重于通用功能的性能,而忽略了特定领域部署中暴露的知识差距。在本研究中,我们建议通过引入少量人工注释样本(即K-shot)来弥合这一差距,以利用开放知识提升LLM的任务专业知识。

Mitigating Exaggerated Safety in Large Language Models
随着大型语言模型(LLM)的普及,将模型安全性与实用性相结合变得越来越重要。面临的挑战是确保LLM能够识别并拒绝危险的提示,而不牺牲他们提供帮助的能力。“夸大安全”的问题表明这有多么困难。为了减少过度的安全行为(发现有26.1%的安全提示被错误分类为危险并被拒绝),我们结合使用XSTest数据集提示以及交互式、上下文和少量提示来检查LLM的决策范围例如Llama2、Gemma、CommandR+和Phi-3。

Jailbreak Attacks and Defenses Against Large Language Models: A Survey
大型语言模型(LLM)在各种文本生成任务中表现出色,包括问答、翻译、代码补全等。然而,LLM的过度协助带来了“越狱”的挑战,这导致模型生成通过设计对抗性提示来恶意应对使用政策和社会。随着利用LLM不同漏洞的越狱攻击方法的出现,相应的安全调整措施也在不断发展。在本文中,我们提出了全面而详细的越狱攻击和防御方法的分类。例如,根据目标模型的透明性,将攻击方法分为黑盒攻击和白盒攻击。同时,我们将防御方法分为提示级防御和模型级防御。

A Closer Look into Mixture-of-Experts in Large Language Models
专家混合(MoE)因其独特的属性和卓越的性能而受到越来越多的关注,尤其是在语言任务方面。通过稀疏地激活每个token的参数子集,MoE架构可以在不牺牲计算效率的情况下增加模型大小,从而在性能和训练成本之间实现更好的权衡。然而,MoE的底层机制仍缺乏进一步的探索,其模块化程度也存在疑问。在本文中,我们初步尝试了解基于MoE的大型语言模型的内部工作原理。具体来说,我们全面研究了最近三个基于MoE的模型的参数和行为特征,并揭示了一些有趣的观察结果,包括(1)神经元的行为就像细粒度的专家一样。

Explicit Inductive Inference using Large Language Models
据报道,大型语言模型(LLM)在推理任务上存在不良证明偏差:当被要求预测前提P是否包含假设H时,LLM倾向于使用脱离上下文的假设H,而不是考虑P所包含的H的条件真实性。H作为脆弱代理的真值标签。在本文中,我们提出了一种利用这种偏差进行显式归纳推理的管道。我们的管道使用LLM将前提转换为一组经过验证的替代方案,然后汇总派生的新蕴涵查询的答案以支持原始推理预测。在定向谓词蕴涵基准上,我们证明,通过应用这个简单的管道,我们可以提高LLM在推理方面的整体性能,并大大减轻其证明偏差的影响。

Claim Verification in the Age of Large Language Models: A Survey
互联网上可用的大量且不断增加的数据,加上手动索赔和事实验证的繁重任务,激发了人们对开发自动索赔验证系统的兴趣。1已经提出了几种深度学习和基于变压器的模型多年来这个任务。随着大型语言模型(LLM)的引入及其在多个NLP任务中的卓越性能,我们看到基于LLM的声明验证方法激​​增,以及检索增强生成(RAG)等新颖方法的使用。在本次调查中,我们全面介绍了最近使用法学硕士的索赔验证框架。我们详细描述了这些框架中使用的声明验证管道的不同组件,包括常见的检索、提示和微调方法。

Scaling Up Summarization: Leveraging Large Language Models for Long Text Extractive Summarization
摘要1引言2文献综述3方法4实验5结果与分析6结论7局限性在数字文本以前所未有的速度激增的时代,高效的摘要工具变得不可或缺。虽然大型语言模型(LLM)已成功应用于各种NLP任务,但它们在提取文本摘要中的作用仍未得到充分探索。本文介绍了EYEGLAXS(用于提取摘要的简单而高效的大型语言模型),这是一个利用LLM(特别是LLAMA27B和ChatGLM2-6B)对长文本文档进行提取摘要的框架。

LogParser-LLM: Advancing Efficient Log Parsing with Large Language Models
日志是无处不在的数字足迹,在系统诊断、安全分析和性能优化中发挥着不可或缺的作用。从日志中提取可操作的见解在很大程度上取决于日志解析过程,该过程将原始日志转换为结构化格式以供下游分析。然而,当代系统的复杂性和日志的动态特性对现有的自动解析技术提出了重大挑战。大型语言模型(LLM)的出现提供了新的视野。凭借其广泛的知识和情境能力,LLM在各种应用中都具有变革性。在此基础上,我们介绍了LogParserLLM,这是一种集成了LLM功能的新型日志解析器。

Performance Law of Large Language Models
在缩放定律信念的指导下,大型语言模型(LLM)近年来取得了令人印象深刻的表现。然而,缩放定律仅给出损失的定性估计,其受到模型架构、数据分布、分词器和计算精度等多种因素的影响。因此,估计LLM在不同训练环境下的真实表现而不是损失可能在实际开发中非常有用。在本文中,我们提出了一个名为“性能定律”的经验方程来直接预测LLM的MMLU分数,这是一种广泛使用的指标,用于指示LLM在现实世界对话和应用中的一般能力。

Improving Factuality in Large Language Models via Decoding-Time Hallucinatory
尽管其能力非凡,大型语言模型(LLM)很容易生成与可验证事实相矛盾的响应,即不忠实的幻觉内容。现有的工作通常集中在优化模型参数或编辑语义表示,这会损害目标LLM的内部事实知识。此外,幻觉通常在下游任务中表现出多方面的模式,限制了模型跨任务的整体性能。在本文中,我们提出了一种比较器驱动的解码时间(CDT)框架来减轻响应幻觉。首先,我们利用多任务微调样本构建幻觉和真实的比较器。在这种情况下,我们提出了一种指令原型引导的专家混合策略,以增强相应比较器在不同任务指令中捕获不同幻觉或真实模式的能力。

Break the Sequential Dependency of LLM Inference Using LOOKAHEAD DECODING
大型语言模型(LLM)的自回归解码是内存带宽受限的,导致高延迟和现代加速器并行处理能力的严重浪费。现有的加速LLM解码的方法通常需要一个草稿模型(例如推测解码),这很难获得,也无法推广。本文介绍了LOOKAHEADDECODING,这是一种精确的并行解码算法,可以加速LLM解码,而不需要辅助模型或数据存储。它允许按步骤交易日志(FLOP)来减少总解码步骤的数量,在单个或多个现代加速器上更具并行性,并且与并发内存高效注意力(例如FlashAttention)兼容。

Pruning Large Language Models with Semi-Structural Adaptive Sparse Training
大型语言模型(LLM)在各种复杂任务中的巨大成功在很大程度上依赖于其巨大的规模,由于其大量的内存消耗,这给模型部署带来了挑战。最近,许多研究尝试使用一次性剪枝方法来压缩LLM。然而,这些方法在复杂的语言理解任务上通常会出现相当大的性能下降,这使人们对LLM中剪枝的可行性产生了质疑。为了解决这个问题,我们提出了一种通过再训练对半结构化稀疏模型进行修剪的管道,称为自适应稀疏训练器(AST)。

CRITIC-COT: BOOSTING THE REASONING ABILITIES OF LARGE LANGUAGE MODEL VIA CHAIN-OFTHOUGHTS CRITIC
自我批评已成为提高LLM推理能力的重要机制。然而,目前的方法主要涉及基本提示,未经进一步训练,往往过于简单化,导致准确性有限。而且,缺乏对LLM批评能力与其任务解决绩效之间关系的深入研究。为了解决这些问题,我们提出了Critic-CoT,这是一种新颖的框架,通过逐步的CoT推理格式和远程监督数据构建,将LLM推向类似System-2的批评家能力,而不需要人工注释。

Leveraging Large Language Models for Enhanced Process Model Comprehension
在业务流程管理(BPM)中,有效理解流程模型至关重要,但也带来了重大挑战,特别是当组织规模扩大和流程变得更加复杂时。本文介绍了一种新颖的框架,利用大型语言模型(LLM)的高级功能来增强复杂流程模型的可解释性。我们提出了将业务流程模型抽象为法学硕士可以访问的格式的不同方法,并且我们实施了专门设计用于在我们的框架内优化法学硕士绩效的高级提示策略。此外,我们还提供了一个工具AIPA,它实现了我们提出的框架并允许对话式流程查询。

Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications
大型语言模型(LLM)具有先进的金融应用,但它们通常缺乏足够的金融知识,并且难以处理涉及表格和时间序列数据等多模态输入的任务。为了解决这些限制,我们引入了Open-FinLLM,这是一系列金融LLM。我们从FinLLaMA开始,它在520亿个token金融语料库上进行了预训练,结合文本、表格和时间序列数据来嵌入全面的金融知识。然后,FinLLaMA使用573K财务指令进行指令微调,形成FinLLaMA指令,从而提高任务性能。

A SURVEY ON FAIRNESS OF LARGE LANGUAGE MODELS IN E-COMMERCE: PROGRESS, APPLICATION, AND CHALLENGE
这项调查探讨了大型语言模型(LLM)在电子商务中的公平性,研究了它们的进展、应用和面临的挑战。LLM已成为电子商务领域的关键,提供创新解决方案并增强客户体验。这项工作对LLM在电子商务中的应用和挑战进行了全面调查。本文首先介绍了在电子商务中使用LLM的关键原则,详细介绍了根据特定需求定制这些模型的预训练、微调和提示过程。然后,它探讨了LLM在电子商务中的各种应用,包括产品评论,它们综合和分析客户反馈;产品推荐,他们利用消费者数据推荐相关商品;产品信息翻译,增强全球可访问性;

A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers
大型语言模型(LLM)的快速发展展示了自然语言处理方面的卓越多语言能力,吸引了全球学术界和工业界的关注。为了减少潜在的歧视并提高不同语言用户组的整体可用性和可访问性,语言公平技术的发展非常重要。尽管LLM取得了突破,但对多语言场景的调查仍然不足,需要进行全面调查以总结最近的方法、发展、局限性和潜在解决方案。为此,我们提供了一项关于多语言场景中LLM利用率的多角度调查。我们首先重新思考以前和现在关于预训练语言模型的研究之间的过渡。

How do Large Language Models Navigate Conflicts between Honesty and Helpfulness?
在日常沟通中,人们经常接近真相——例如,四舍五入或省略细节——以最大限度地帮助听众。大型语言模型(LLM)是如何处理这种微妙的权衡的?为了解决这个问题,我们使用旨在表征人类行为的心理模型和实验来分析LLM。我们测试了一系列LLM,并探讨了人类偏好或推理时间推理的优化如何影响这些权衡。我们发现,从人类反馈中强化学习可以提高诚实和乐于助人的能力,而思维提示链使LLM倾向于帮助而非诚实。最后,GPT-4Turbo演示了类人响应模式,包括对会话框架和听众决策上下文的敏感性。

Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling
从强语言模型(LM)中训练高质量的合成数据是提高LM推理性能的常见策略。在这项工作中,我们重新审视了这种策略在固定推理预算(例如FLOP)下是否是计算最优的。为此,我们研究了使用更强但更昂贵的(SE)模型与较弱但更便宜的(WC)模型生成合成数据之间的权衡。我们评估了三个关键指标的生成数据:覆盖率、多样性和假阳性率,并表明来自WC模型的数据可能具有更高的覆盖率和多样性,但也表现出更高的假阳性率。

欢迎留下您的脚印