Loading...

Textual interpretation of transient image classifications from large language models
研究背景:现代天文巡天产生海量瞬变源数据,需区分真实天体信号(如超新星)与虚假成像伪影,但传统卷积神经网络(CNNs)虽分类精度高(超98%),其潜在表示不透明,可解释性差。核心实验:使用谷歌LLM模型Gemini,在Pan-STARRS、MeerLICHT、ATLAS三个光学瞬变巡天数据集上测试,仅提供每个望远镜15个带注释的“目标图-参考图-差值图”样本及简洁指令,平均分类准确率达93%。关键功能。

PROMPT REINFORCING FOR LONG-TERM PLANNING OF LARGE LANGUAGE MODELS
研究背景:LLMs在单轮任务中表现优异,但在多轮交互(如文本生成SQL、任务导向对话)中,常因早期假设错误、无法追踪用户目标导致性能下降;现有优化方法(如梯度微调、自反馈)存在计算成本高、依赖频繁API调用或仅适用于单轮任务的局限。核心方法:强化提示优化(RPO)框架结构:初始提示可由专家编写或LLM生成,通过“交互-反馈-重写”循环迭代优化。模型与环境(用户/模拟用户)交互生成轨迹,反馈器(人类/LLM)提供基于时序差分(TD)误差的回合级反馈,重写器(LLM)结合历史经验重写提示。反馈机制。

DACP: Domain-Adaptive Continual Pre-Training of Large Language Models for Phone Conversation
研究背景大型LLM在通用文本摘要任务中表现优异,但在与预训练数据分布不同的专业领域(如电话对话摘要)性能显著下降。小型LLM(参数小于10B)因推理成本低更适合工业部署,但领域适配需大量人工标注数据,存在成本高、隐私风险等问题。核心方法:DACP框架数据构成:包含两部分,一是25Btokens的高质量匿名业务对话数据(从50M条ASR生成transcript中筛选,基于token类型熵选25M条),二是25Btokens的经验回放数据(来自FineWeb-Edu,缓解灾难性遗忘)。训练流程。

LLM Weekly(2025.11.03-11.09)
该模型采用量化感知训练(Quantization-AwareTraining),实现高速、尖端的推理效果,在智能体搜索、编程及各类任务的推理能力上均取得显著提升。研究人员构建了“深度推理数据集”(DeepReasoningDataset),测试模型在递增复杂度任务中的表现,发现模型在高复杂度场景下性能大幅下降。为提升Siri性能,苹果将在其私有云计算服务器(PrivateCloudCompute)上运行Gemini模型,支持实时个性化查询,同时确保Siri与苹果生态系统的深度融合。

LATENTBREAK: JAILBREAKING LARGE LANGUAGE MODELS THROUGH LATENT SPACE FEEDBACK
越狱攻击是旨在绕过大型语言模型内置安全机制的对抗性攻击。自动越狱通常会优化对抗性后缀,或通过迫使模型生成受限或有害响应的初始部分来调整长提示模板。在本研究中,我们发现,现有利用此类机制解锁模型响应的越狱攻击,可通过对输入提示进行简单的基于困惑度的过滤来检测。为解决这一问题,我们提出了LatentBreak——一种白盒越狱攻击方法,该方法能生成低困惑度的自然对抗性提示,从而规避此类防御。

Leveraging Large Language Models for Cybersecurity Risk Assessment — A Case from Forestry
研究背景与问题安全关键型软件系统(如林业自主机械)需严格网络安全风险评估,但企业普遍面临网络安全、AI、合规多领域专家短缺问题。现有法规(如《机械法规2023/1230》《网络弹性法案》)要求全面风险评估,而工程师缺乏专业支持,需工具辅助评估漏洞与威胁。研究方法采用设计科学研究方法,分两个周期开展:第一周期通过文献综述、3次专家访谈明确需求;第二周期基于Llama2模型构建含RAG架构的工具,结合12位专家的访谈、交互测试与问卷调查迭代优化。

Uncovering Representation Bias for Investment Decisions in Open-Source Large Language Models
大语言模型(LLMs)在金融领域的应用日益广泛,被用于支持投资流程。然而,现有研究很少探讨这些模型如何体现与企业规模、行业或财务特征相关的偏差,而这类偏差可能对决策产生重大影响。本文通过聚焦开源Qwen模型的表征偏差,填补了这一研究空白。我们对约150家美国上市公司采用平衡轮询提示法,结合约束解码与令牌对数聚合,在不同金融场景下推导企业层面的置信度评分。通过统计检验与方差分析,我们发现:企业规模与估值会持续提高模型置信度,而风险因素则倾向于降低置信度;不同行业的置信度差异显著,其中科技行业的变异性最大。

Large Language Models Achieve Gold Medal Performance at the International Olympiad
研究背景:现有LLMs在天文学的应用多局限于特定任务(如引力波检测、星系观测解读),且评估基准仅测试基础知识,无法体现真实科研所需的复杂推理能力,亟需更全面的能力评估。研究方法:选取5个顶尖LLMs(GPT-5、Gemini2.5Pro等),用2022-2025年IOAA的理论题(49道)和数据分析题(8道)作为基准,由2位IOAA专家按官方评分标准独立打分,同时排除需物理仪器的观测题。核心结果理论考试。

The Geometry of Truth: Layer-wise Semantic Dynamics for Hallucination Detection
研究背景:大语言模型(LLMs)常生成流畅但事实错误的内容(幻觉),现有检测方法存在缺陷,如多轮采样效率低、依赖外部知识库、仅关注输出层忽略中间层信息。核心假设:事实性内容在Transformer层间的语义轨迹平滑收敛,与真实语义嵌入持续对齐;幻觉内容语义轨迹振荡发散,偏离真实语义。LSD框架流程提取模型各层隐藏状态;通过基于边际的对比学习,将隐藏状态与事实编码器生成的真实嵌入投影到统一语义空间;计算语义轨迹的对齐度、速度、加速度等几何指标;结合统计检验输出幻觉风险评分。实验结果。

REVEALING INTERCONNECTIONS BETWEEN DISEASES: FROM STATISTICAL METHODS TO LARGE LANGUAGE MODELS
通过人工分析大规模临床数据识别疾病关联,不仅耗时费力、主观性强,还容易出现专家意见分歧。尽管机器学习(ML)展现出一定潜力,但仍存在三大关键挑战:(1)需从庞大的机器学习方法体系中筛选最优方案;(2)确定真实世界临床数据(如电子健康记录EHRs)与结构化疾病描述哪类数据能提供更可靠的见解;(3)由于部分疾病关联在医学领域尚未被探索,缺乏相关“金标准”。大型语言模型(LLMs)应用广泛,但往往缺乏专业医学知识。

Reproducibility Study of “XRec: Large Language Models for Explainable Recommendation“
研究背景与目标背景:传统推荐系统多为“黑箱”,可解释性不足;原研究提出XRec框架,结合协同过滤(CF)与大语言模型(LLMs)生成个性化推荐解释。目标:用Llama3替代原研究的GPT-3.5-turbo复现XRec结果,并通过修改MoE模块的输入/输出嵌入拓展研究,验证原框架4个核心主张。研究方法模型基础:XRec含三大组件——协同关系分词器(LightGCN提取用户-物品嵌入)、协同信息适配器(MoE模块转换嵌入以适配LLM)、CF与LLM融合模块(注入嵌入并生成解释)。实验设计。

FocusMed: A Large Language Model-based Framework for Enhancing Medical Question Summarization
随着在线医疗平台的快速发展,消费者健康问题(CHQs)因包含冗余信息且频繁使用非专业术语,在诊断过程中效率较低。医疗问题摘要(MQS)任务旨在将CHQs转化为简洁的医生常用问题(FAQs),但现有方法仍面临问题焦点识别不佳、模型幻觉等挑战。本文探究了大型语言模型(LLMs)在MQS任务中的应用潜力,发现直接微调易产生焦点识别偏差并生成不忠实的内容。为此,本文提出一种基于核心焦点引导的优化框架。首先,设计提示模板驱动LLMs从CHQs中提取忠实于原文的核心焦点;

ATOMWORLD: A BENCHMARK FOR EVALUATING SPATIAL REASONING IN LARGE LANGUAGE MODELS ON CRYSTALLINE MATE
研究背景现有LLMs虽在文本推理和基础晶体生成任务中表现出色,但缺乏标准化基准来系统评估其在复杂原子结构上的核心推理能力,尤其是基于晶体信息文件(CIF)的空间操作能力。材料科学领域中,3D原子结构的深度理解至关重要,而当前LLMs在结构修改、格式理解等任务中易出现累积错误,影响后续材料分析。核心方案:AtomWorld基准数据生成逻辑。

FedSRD: Sparsify-Reconstruct-Decompose for Communication-Efficient Federated Large Language Models
当前,基于公开网络数据训练大型语言模型(LLMs)的模式正逐渐失去可持续性,专业领域的高质量数据源已濒临枯竭。联邦学习(FL)作为下一代去中心化Web人工智能的实用解决方案应运而生,它通过利用全球客户端分布的私有数据,实现了隐私保护型协同微调。低秩适应(LoRA)虽是高效微调的标准方法,但在联邦场景中的应用面临一个关键挑战:在Web异构网络环境下,通信开销仍是重大瓶颈。LoRA参数内部的结构冗余不仅带来沉重的通信负担,还会在客户端更新聚合时引发冲突。

SpikingMamba: Towards Energy-Efficient Large Language Models via Knowledge Distillation from Mamba
研究背景现有LLMs(包括Mamba)依赖密集矩阵运算,能耗高,难以部署在边缘设备;SNN虽通过稀疏脉冲降低能耗,但现有SNN-basedLLMs存在“精度-能效”权衡,且全量预训练成本极高。对比量化与SNN两种能效优化方案:量化无法消除密集矩阵运算的固有成本,而SNN通过二进制脉冲的时间和通道稀疏性,能进一步缓解边缘设备的I/O瓶颈。核心方案:SpikingMamba模型基于预训练Mamba模型,通过单阶段知识蒸馏迁移能力,无需全量预训练;同时引入强化学习(DPO/KTO)进一步提升精度。

UniVoice: Unifying Autoregressive ASR and Flow-Matching based TTS with Large Language Models
大型语言模型(LLMs)在自动语音识别(ASR)和文本到语音(TTS)系统中均展现出良好性能,逐渐成为主流方法。然而,目前大多数方法均单独处理这两项任务,而非通过统一框架实现。本研究旨在将这两项任务整合到单一统一模型中。尽管离散语音token化支持联合建模,但其固有的信息损失会限制识别与生成任务的性能。本文提出UniVoice——一个基于连续表示的统一LLM框架,可在单个模型内无缝整合语音识别与语音合成任务。该方法结合了自回归建模在语音识别中的优势与流匹配在高质量语音生成中的优势。

MacroBench: A Novel Testbed for Web Automation Scripts via Large Language Models
基准测试设计测试环境:搭建7个模拟主流平台的自建网站(如Airbnb类、TikTok类、Discord类等),覆盖681个任务,涵盖不同交互复杂度与目标难度。评估流程:通过静态检查(代码linting、导入验证)、沙箱执行(无头浏览器自动化)、结果验证(DOM断言、数据库快照)三步验证生成代码,并加入安全测试套件(针对爬取、垃圾信息、隐私泄露等风险)。测试模型与结果。

Large Language Models Hallucination: A Comprehensive Survey
该文章是一篇关于大型语言模型(LLMs)幻觉问题的综述,系统梳理了幻觉的定义、类型、成因、检测与缓解方法,同时分析了现有基准数据集、评估指标及未来挑战,为提升LLMs的真实性和可信度提供了全面参考。大型语言模型(LLMs)彻底改变了自然语言处理领域,在各类任务中展现出卓越性能。然而,其出色的流畅性往往伴随着生成虚假或编造信息的代价,这种现象被称为“幻觉”。幻觉指LLM生成的内容虽流畅且语法正确,但事实不准确或缺乏外部证据支持。幻觉会损害LLMs的可靠性和可信度,在需要事实准确性的领域(如医疗、法律)中问题尤

Evaluation of Clinical Trials Reporting Quality using Large Language Models
研究背景与目标临床试验报告质量(尤其随机对照试验RCT)影响临床决策,CONSORT是当前应用最广的报告标准,但部分医学领域报告质量仍不足。目标:测试通用领域和生物医学领域的大型生成语言模型,结合不同提示方法(含思维链CoT),依据CONSORT标准评估临床试验摘要报告质量。核心工作步骤构建语料库:创建CONSORT-QA语料库,源自两项分别针对COVID-19干预和儿童青少年抑郁症预防RCT的CONSORT-abstract标准评估研究,含139篇摘要及专家标注。

Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning
本技术报告提出Ring-linear模型系列,具体包括Ring-mini-linear-2.0和Ring-flash-linear-2.0。其中,Ring-mini-linear-2.0含160亿参数和9.57亿激活参数,Ring-flash-linear-2.0含1040亿参数和61亿激活参数。两款模型均采用有效融合线性注意力与softmax注意力的混合架构,显著降低长上下文推理场景下的I/O开销与计算开销。与320亿参数稠密模型相比,该系列将推理成本降至1/10;

欢迎留下您的脚印