Loading...
机器学习的发展越来越重视开发强大的模型和更具可扩展性的监督信号。然而,基础模型的出现在提供进一步提高其能力所需的有效监督信号方面带来了重大挑战。因此,迫切需要探索新的监管信号和技术方法。在本文中,我们提出了验证器工程,这是一种专门为基础模型时代设计的新型后训练范式。验证器工程的核心涉及利用一套自动验证器来执行验证任务,并向基础模型提供有意义的反馈。我们系统地将验证器工程过程分为三个基本阶段:搜索、验证和反馈,并对每个阶段的最新研究进展进行了全面回顾。我们认为,验证器工程是实现通用人工智能的基本途径。
Automated Theorem Provers Help Improve Large Language Model Reasoning
在本文中,我们演示了逻辑编程系统和自动一阶逻辑定理证明器(ATP)如何提高逻辑推理任务的大型语言模型(LLM)的准确性,其中基线性能由直接LLM解决方案给出。我们首先使用PRONTOQA基准评估压路机问题上的LLM推理。我们展示了如何通过神经符号架构来提高准确性,其中LLM仅充当将给定问题转换为形式逻辑语言的前端,并调用自动推理引擎来解决它。然而,这种方法关键取决于LLM翻译的正确性。为了评估翻译的正确性,我们其次定义了句法和语义错误类别的框架。
Explainable Biomedical Hypothesis Generation via Retrieval Augmented Generation enabled LLM
当今可用的大量生物医学信息对寻求有效消化、处理和理解这些发现的研究人员提出了重大挑战。大型语言模型(LLM)已成为驾驭这一复杂且具有挑战性的数据环境的强大工具。然而,LLM可能会导致幻觉反应,这使得检索增强生成(RAG)对于获得准确信息至关重要。在此协议中,我们提出了RUGGED(图引导可解释疾病区分下的检索),这是一个全面的工作流程,旨在支持研究人员进行知识整合和假设生成,确定经过验证的前进路径。
XGen-7B Technical Report
大型语言模型(LLM)已经在各个领域无处不在,改变了我们与信息交互和进行研究的方式。然而,大多数高性能的LLM仍然被限制在专有墙后面,阻碍了科学进步。另一方面,大多数开源LLM在支持更长序列长度方面的能力有限,这是许多需要对输入上下文进行推理的任务的关键要求。为了解决这个问题,我们训练了XGen-7B,这是一系列7B参数模型,序列长度高达8K,最多1.5Ttoken。我们还对公共领域指令数据上的XGen-7B模型进行了微调,创建了它们的指令调优对应物(XGen-7B-Inst)。
Leveraging Large Language Models (LLMs) for Process Mining (Technical Report)
本技术报告描述了流程挖掘和大型语言模型(LLM)的交叉点,特别关注将传统和以对象为中心的流程挖掘工件抽象为文本格式。我们介绍并探索了各种提示策略:直接回答,其中大型语言模型直接处理用户查询;多提示回答,允许模型逐步建立在通过一系列提示获得的知识之上;以及数据库查询的生成,有助于根据原始事件日志验证假设。我们的评估考虑了两种大型语言模型,GPT-4和谷歌的Bard,在所有提示策略的各种上下文场景下。结果表明,这些模型对关键过程挖掘抽象有很强的理解,在解释声明性和过程性过程模型方面都表现出了显著的熟练程度。
Eyeballing Combinatorial Problems: A Case Study of Using Multimodal Large Language Models to Solve
多模态大型语言模型(MLLM)已证明其能够熟练处理各种模态,包括文本、图像和音频。这些模型利用了广泛的预先存在的知识,使它们能够以最少甚至没有特定的训练示例来解决复杂的问题,这在少样本和零样本的上下文学习场景中得到了证明。本文通过分析二维平面上的点分布图像,研究了使用MLLM的视觉功能来“观察”旅行推销员问题(TSP)的解决方案。我们的实验旨在验证MLLM可以有效地“观察”可行的TSP路线的假设。零样本、少数样本、自集成和自精炼零样本评估的结果显示了有希望的结果。
Simulating Field Experiments with Large Language Models
流行的大型语言模型(LLM)能够通过其前所未有的内容生成和推理能力进行人类响应模拟。然而,目前尚不清楚是否以及如何利用LLM来模拟现场实验。在本文中,我们提出并评估了两种提示策略:允许直接预测主要结论的观察者模式和模拟参与者反应分布的参与者模式。使用这种方法,我们检查了发表在INFORMS和MISQ上的十五篇被广泛引用的现场实验论文,发现模拟实验结果与某些情况下的实际结果之间存在令人鼓舞的一致性。我们进一步确定了LLM表现不佳的主题,包括性别差异和社会规范相关研究。
Tele-FLM Technical Report
大型语言模型(LLM)展示了语言理解和生成方面的深厚能力,促进了广泛的应用。然而,如何以最小的试错成本和计算资源有效地将LLM扩展到超过500亿个参数,详细的开源方法明显缺乏。在本报告中,我们介绍了Tele-FLM(又名FLM2),这是一个52B开源多语言大语言模型,具有稳定、高效的预训练范式和增强的事实判断能力。TeleFLM展示了卓越的多语言建模能力(通过BPB在文本语料库上进行测量)。
QWEN2.5-MATH TECHNICAL REPORT: TOWARD MATHEMATICAL EXPERT MODEL VIA SELFIMPROVEMENT
在本报告中,我们提出了一系列数学专用的大型语言模型:Qwen2.5-Math和Qwen2.5-Math-Instruct-1.5B/7B/72B。Qwen2.5系列的核心创新在于将自我提升的理念融入到从训练前、训练后到推理的整个流程中:(1)在训练前阶段,Qwen2-Math-Instruct用于生成大规模、高质量的数学数据。(2)在训练后阶段,我们通过对Qwen2-Math-Instruct进行大量采样来开发奖励模型(RM)。然后将该RM应用于监督微调(SFT)中的数据迭代演化。
Visual Reasoning and Multi-Agent Approach in Multimodal Large Language Models (MLLMs)
多模态大型语言模型(MLLM)利用涵盖文本、图像和音频的综合知识来熟练地解决复杂问题,包括零样本上下文学习场景。本研究探讨了MLLM使用描绘二维平面上点分布的图像直观地解决旅行商问题(TSP)和多重旅行商问题(mTSP)的能力。我们引入了一种在MLLM框架内采用多个专门代理的新颖方法,每个代理都致力于针对这些组合挑战优化解决方案。我们的实验研究包括对零样本设置的严格评估,并引入创新的多智能体零样本上下文场景。
GPT-4 Technical Report
我们报告了GPT-4的开发,这是一个大规模的多模态模型,可以接受图像和文本输入并产生文本输出。尽管GPT-4在许多现实世界场景中的能力不如人类,但它在各种专业和学术基准上表现出了人类水平的表现,包括通过模拟律师考试,成绩在考生的前10%左右。GPT-4是一个基于Transformer的模型,经过预训练可以预测文档中的下一个token。训练后的对齐过程提高了真实性和对期望行为的遵守程度。该项目的一个核心组成部分是开发在广泛范围内可预测的基础设施和优化方法。
QWEN TECHNICAL REPORT
大型语言模型(LLM)彻底改变了人工智能领域,使以前被认为是人类独有的自然语言处理任务成为可能。在本书中,我们将介绍QWEN,这是我们大型语言模型系列的第一部分。QWEN是一个全面的语言模型系列,包含具有不同参数计数的不同模型。它包括QWEN(基础预训练语言模型)和QWEN-CHAT(使用人类对齐技术微调的聊天模型)。基础语言模型在众多下游任务中始终表现出卓越的性能,聊天模型,特别是那些使用人类反馈强化学习(RLHF)训练的聊天模型,具有很强的竞争力。
MaxMind: A Memory Loop Network to Enhance Software Productivity Based on LLMs
大型语言模型的应用促进了自动化软件操作和工具生成(SOTG),从而提高了软件生产力,这反映了人类进化的早期阶段,当时创建和使用工具的能力加速了文明的进步。这些复杂的任务需要AI不断总结和改进。当前的研究往往忽视了将实时任务体验转换为系统内存以及区分现有知识的价值以供将来参考的重要性。本文通过将外部存储器模型发展为Memory-LoopNetworks来解决这些问题,以便及时记忆和经验参考。
Guiding Clinical Reasoning with Large Language Models via Knowledge Seeds
临床推理是指医生在评估和管理患者时所采用的认知过程。这一过程通常包括建议必要的检查、诊断患者的疾病和选择适当的治疗方法等。准确的临床推理需要广泛的医学知识和丰富的临床经验,这为医生设定了很高的标准。这在发展中国家尤其具有挑战性,因为患者数量巨大,医生资源有限,严重加剧了全球卫生不平等,需要采用自动化的临床推理方法。最近,大型语言模型(LLM)的出现,如ChatGPT和GPT-4,已经证明了它们在临床推理中的潜力。然而,这些LLM容易出现幻觉问题,LLM的推理过程可能与医生的临床决策途径不一致。
Evaluation of Bias Towards Medical Professionals in Large Language Models
社会基于性别、种族和民族对医疗专业人员持有固有的偏见。本研究旨在评估大型语言模型(LLM)在住院医师选择方面是否表现出对医疗专业人员的偏见。**方法:**创建虚构的候选人简历以控制包括性别和种族在内的身份因素,同时保持一致的资格。三个LLM(GPT-4、Claude-3haiku和Mistral-Large)使用标准化提示进行测试,以评估和排名特定住院医师计划的简历。通过直接更改性别和种族信息来测试显式偏见,而通过隐藏种族和性别更改候选人的姓名来测试隐性偏见。
TELECHAT TECHNICAL REPORT
在本技术报告中,我们介绍了TeleChat,这是一组参数为30亿、70亿和120亿的大型语言模型(LLM)。它包括预训练的语言模型以及与人类偏好相一致的微调聊天模型。TeleChat最初是在一个广泛的语料库上进行预训练的,该语料库包含来自英语和汉语的各种文本,包括数万亿个token。随后,该模型按照我们描述的详细方法进行微调,以符合人类偏好。我们评估了TeleChat在各种任务上的性能,包括语言理解、数学、推理、代码生成和基于知识的问答。
DISCOVERYBENCH: Towards Data-Driven Discovery with Large Language Models
使用大型语言模型(LLM)的代码生成、函数调用和数据分析的快速发展是否有助于仅从一组提供的数据集中自动搜索和验证假设?为了评估这个问题,我们提出了DISCOVERYBENCH,这是第一个将数据驱动发现的多步骤过程正式化的综合基准。该基准测试旨在系统地评估当前模型在发现任务中的功能,并为改进这些任务提供有用的资源。
Impact of Non-Standard Unicode Characters on Security and Comprehension in Large Language Models
大型语言模型的进步显著改善了自然语言处理。然而,越狱(提示注入导致LLM遵循与其预期用途相反的指示)、幻觉(产生不正确或误导性信息)和理解错误等挑战仍然普遍存在。在本报告中,我们对15个不同模型的性能进行了比较分析,每个模型都经过标准化测试,包括三个关键指标的38个查询:越狱、幻觉和理解错误。这些模型是根据越狱、幻觉和理解错误的总发生率进行评估的。我们的工作揭示了这些模型的内在脆弱性,并挑战了这些模型的人类水平语言理解的概念。
Unlocking the Potential: Benchmarking Large Language Models in Water Engineering and Research
大型语言模型(LLM)的最新进展引发了人们对它们在各个领域的潜在应用的兴趣。本文开始了一项关键的调查:现有的LLM能否有效地作为水工程和研究任务的“水专家模型”?这项研究首次通过建立特定领域的基准套件(即WaterER)来评估LLM在各种水工程和研究任务中的贡献。在此,我们准备了983项与水工程与研究相关的任务,分为“废水处理”、“环境修复”、“饮用水处理”、“卫生”、“厌氧消化”和“污染物评估”。
Do Large Language Models Speak All Languages Equally? A Comparative Study in Low-Resource Settings
大型语言模型(LLM)在自然语言处理(NLP)方面引起了极大的兴趣,尤其是它们在资源丰富的语言的各种下游任务中的出色表现。最近的研究强调了LLM在低资源语言中的局限性,主要集中在二元分类任务上,而对南亚语言的关注最少。这些限制主要归因于数据集稀缺性、计算成本和特定于低资源语言的研究差距等限制。为了解决这一差距,我们通过将英语翻译成孟加拉语、印地语和乌尔都语来提供情感和仇恨言论任务的数据集,从而促进低资源语言处理的研究。此外,我们使用英语和广泛使用的南亚语言的多个LLM全面研究了零样本学习。