Loading...

The Ethics Engine: A Modular Pipeline for Accessible Psychometric Assessment of Large Language Model
随着大型语言模型(LLMs)在人类沟通与决策中的中介作用日益增强,理解其价值观表达对于跨学科研究而言变得至关重要。为此,本文提出“伦理引擎(EthicsEngine)”——一款模块化Python流水线工具,它将LLMs的心理测量评估从技术复杂的任务转变为易用的研究工具。本文试图证明,精心设计的基础设施能扩大AI研究的参与者范围,让认知科学、政治心理学、教育学及其他领域的研究者都能探究语言模型的价值观表达。爱丁堡大学神经政治学实验室的研究者已采用该工具研究威权主义,这一应用验证了其研究价值。

LLMs are All You Need? Improving Fuzz Testing for MOJO with Large Language Models
研究背景MOJO作为融合Python易用性与C/C++效率的AI编程语言,虽能提升AI模型扩展性,但缺乏成熟测试框架和LLM训练语料。现有LLM模糊测试工具依赖大量领域数据,在MOJO这类新兴语言的零样本场景中,易生成语法正确但语义错误的代码,导致测试效果差。MOJOFuzzer框架设计初始化阶段:从MOJO官方GitHub和文档收集数据,清洗后得到约300个漏洞报告和1500个语法样本,用于构建提示库(PromptBank)和种子库(SeedBank),并采用CoT和角色提示技术优化提示质量。

Large Language Models for Imbalanced Classification: Diversity makes the difference
过采样是解决不平衡分类问题最广泛使用的方法之一。其核心思想是生成额外的少数类样本,以平衡数据集。大多数现有方法(如SMOTE)需要将分类变量转换为数值向量,这通常会导致信息丢失。近年来,基于大语言模型(LLM)的方法被提出以克服这一局限性。然而,当前基于LLM的方法生成的少数类样本多样性有限,降低了下游分类任务的鲁棒性和泛化性。为填补这一空白,我们提出了一种新的基于LLM的过采样方法,旨在提升样本多样性。首先,我们引入一种采样策略,使合成样本的生成同时以少数类标签和特征为条件。

Task-Aware Resolution Optimization for Visual Large Language Models
研究背景与问题现有VLLM(如LLaVA)多采用固定输入分辨率,而实际任务对感知粒度需求不同(如自动驾驶需高分辨率、简单图像分类需低分辨率),导致性能不佳。直接通过“exhaustivetraining”(全量训练不同分辨率模型)适配任务,会产生极高训练成本,因此提出两个核心问题:如何无全量训练确定任务最优分辨率(RQ1)、如何高效适配该分辨率(RQ2)。核心方法任务最优分辨率选择:通过两个启发式指标构建经验公式。

VisPile: A Visual Analytics System for Analyzing Multiple Text Documents With Large Language Models
研究背景:情报分析师处理海量文本时,需平衡人工与自动化分析的矛盾;LLMs擅长文本总结、问答,KGs可验证事实并关联源文档,但二者在可视化文本分析工具中的有效整合尚不明晰。系统设计:VisPile以Pirolli和Card意义构建循环为理论基础,设定6大设计目标(如LLM支持开放式文档搜索、KG关联源文档等),采用Vue.js构建Web应用,输入文本语料后,先预处理文档元数据,再用BERTopic生成主题模型、按Pan等人方法构建KG(提取三元组并去重)。核心功能。

LIVEOIBENCH: CAN LARGE LANGUAGE MODELS OUTPERFORM HUMAN CONTESTANTS IN INFORMATICS OLYMPIADS?
竞争性编程题目因其复杂性和验证便捷性,已成为评估大型语言模型(LLM)编码能力的重要基准。然而,当前编码基准存在诸多局限,如缺乏极具挑战性的题目、测试用例覆盖不足、依赖在线平台API导致可访问性受限等。为解决这些问题,我们提出了LiveOIBench——一个包含403道专家筛选的奥林匹克级竞争性编程题目的综合基准,每道题平均配有60个专家设计的测试用例。这些题目均源自2023至2025年间不同地区举办的72场官方信息学奥林匹克赛事。

LLM Weekly(2025.12.1-12.7)


SIMBA UQ: Similarity-Based Aggregation for Uncertainty Quantification in Large Language Models
研究背景与目标不确定性量化(UQ)是可信AI系统的关键,用于评估LLM生成结果的置信度,但现有方法存在黑箱适配性差、过度自信等问题。核心目标:提出通用的黑箱友好型UQ框架,利用多代样本间的相似度评估置信度,适配问答(QA)、摘要生成、文本转SQL等复杂生成任务。核心框架:SIMBAUQ三阶段流程:首先通过多温度采样生成多个LLM输出样本;然后计算样本间的pairwise相似度(如Jaccard、ROUGE);最后通过相似度聚合得到每个样本的置信度。

Beyond Surface Reasoning: Unveiling the True Long Chain-of-Thought Capacity of Diffusion LLM
核心矛盾:并行-顺序矛盾(PSC)DLLMs依赖并行解码实现高吞吐量,但长链推理需有序的因果步骤,二者存在本质冲突,即PSC。简单任务中,DLLMs可直接生成结果,表现出表面并行性;复杂任务中,为规避PSC会回归类自回归行为,导致解码步骤翻倍、效率下降。DLLMs推理能力局限长链推理三大核心能力不足:自反思效果有限(仅表面优化,重复率高)、推理深度浅(错误多发生在2步内,可行推理边界窄)、探索广度受限(新推理路径占比仅约5%)。

Generative Exaggeration in LLM Social Agents: Consistency, Bias, and Toxicity
本文研究了大型语言模型(LLMs)在模拟社交媒体政治话语时的行为,重点分析了其在2024年美国大选期间X平台(原Twitter)政治互动中的表现。研究基于1186个真实用户构建了LLM代理,通过“零样本”(仅提供最小意识形态线索)和“少样本”(提供用户近期推文历史)两种初始化方式,让代理回复政治相关推文,并对比了Gemini、Mistral、DeepSeek三个模型家族在语言风格、意识形态一致性和毒性方面的输出。生成夸张(generativeexaggeration)现象。

Toward Edge General Intelligence with Multiple-Large Language Model (Multi-LLM): Architecture, Trust
本文是一篇关于边缘计算中多大型语言模型(Multi-LLM)系统的综述,核心目标是探索如何通过多LLM协作实现边缘通用智能(EdgeGeneralIntelligence,EGI)。演进背景:回顾了边缘AI的发展历程,从传统专用窄模型、单LLM部署,到多LLM系统的必要性——单LLM存在泛化能力有限、易产生幻觉和偏见等问题,而多LLM通过协作可整合优势、弥补缺陷。核心架构与技术多LLM的协作模式(合作式、竞争式、集成式);

Evaluating Robustness of Large Language Models Against Multilingual Typographical Errors
大语言模型(LLMs)正越来越多地应用于多语言现实场景中,处理用户输入时难免会遇到拼写错误(typos)。然而,大多数基准测试均假设输入无错误,导致大语言模型在多语言拼写错误下的鲁棒性研究严重不足。为填补这一空白,我们提出多语言拼写错误生成算法MULTYPO,该算法基于语言专属键盘布局和输入习惯,模拟人类真实拼写错误。我们对3个模型家族的18个开源大语言模型进行评估,覆盖自然语言推理、多选题问答、数学推理、机器翻译等5类下游任务。

StatEval: A Comprehensive Benchmark for Large Language Models in Statistics
背景与问题大语言模型(LLMs)在数学和逻辑推理上进步显著,但统计学作为数据科学基础,在模型评估中却未被充分关注。现有基准中统计问题占比不足3%,且多为孤立概率题,缺乏对统计推断等核心能力的结构化评估,无法判断模型能否胜任统计相关工作。StatEval基准构建数据构成:包含两类数据集,一是13817道基础题,源自50余本教材与课程资料,覆盖本科到博士阶段;二是2374道研究级证明题,提取自18本顶级期刊2020-2025年论文。分类体系。

DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning
大型语言模型在数学推理领域取得了显著进展——数学推理不仅是人工智能的重要测试基准,若进一步发展还可能影响科学研究。通过强化学习扩展推理能力(仅奖励正确的最终答案),LLMs在一年内已从表现不佳提升至在AIME、HMMT等量化推理竞赛中达到性能饱和。然而,这种方法存在根本性局限:追求更高的最终答案准确率无法解决一个关键问题——正确答案并不意味着推理过程正确。此外,许多数学任务(如定理证明)需要严谨的逐步推导,而非数值答案,这使得最终答案奖励机制完全不适用。

DETECTING DATA CONTAMINATION FROM REINFORCEMENT LEARNING POST-TRAINING FOR LARGE LANGUAGE MODELS
研究背景与问题数据污染会导致LLM性能评估失真,但现有检测方法仅覆盖预训练和监督微调(SFT)阶段,完全忽略了对LLM推理能力提升至关重要的RL后训练阶段。RL后训练以“奖励最大化”为目标,与预训练、SFT的“likelihood最大化”不同,传统基于likelihood的检测信号(如低困惑度)失效,导致该阶段污染检测成为盲区。核心方法:Self-Critique核心原理:RL后训练会导致模型“策略坍缩”,即收敛到狭窄的推理路径,表现为输出熵分布稀疏。

ShiZhi: A Chinese Lightweight Large Language Model for Court View Generation
研究背景与任务:刑事法庭意见生成(CVG)是法律AI的核心任务,需基于案件事实自动生成判决书中的“法庭意见”部分。该任务因案件事实复杂多样,直接生成难度较高,且此前缺乏专门针对该任务的大模型。核心工作数据集构建:创建中文法庭意见生成数据集CCVG,包含超11万条案件数据,每条数据均配对“案件事实”与“法庭意见”,并通过多步过滤(如基于关键词提取章节、罪名提取、长度筛选)保证数据质量。模型开发。

Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer
当前高性能图像生成模型领域主要由专有系统主导(如NanoBananaPro和Seedream4.0)。主流开源替代方案(包括Qwen-Image、Hunyuan-Image-3.0和FLUX.2)则具有庞大的参数规模(200亿至800亿),导致其在消费级硬件上的推理和微调不切实际。为填补这一空白,我们提出Z-Image——一款高效的60亿参数生成式基础模型,基于可扩展单流扩散Transformer(S3-DiT)架构,挑战了“不惜一切代价追求规模”的范式。

Diagnosing Shoulder Disorders Using Multimodal Large Language Models and Consumer-Grade Cameras
肩部疾病(如冻结肩,又称粘连性关节囊炎)是影响全球人群健康的常见疾病,在老年人和从事重复性肩部作业的人群中发病率较高。在医疗资源匮乏的地区,实现疾病的早期准确诊断面临巨大挑战,因此亟需低成本、易推广的辅助诊断方案。本研究引入消费级设备拍摄的视频作为诊断依据,降低用户使用成本。我们聚焦多模态大语言模型(MLLMs)在肩部疾病初步诊断中的创新应用,提出混合运动视频诊断框架(HMVDx)。该框架将“动作理解”与“疾病诊断”两项任务拆分,分别由两个MLLMs完成。

Alif: Advancing Urdu Large Language Models via Multilingual Synthetic Data Distillation
研究背景:乌尔都语作为低资源语言,在大模型开发中面临高质量数据集稀缺、多语言一致性差、文化差异导致翻译质量低、训练成本高等问题,现有多语言模型难以满足其需求。核心解决方案:基于预训练模型Llama-3.1-8B,开发多语言(乌尔都语-英语)模型Alif-1.0-8B-Instruct,核心是通过改进的自指令技术构建高质量合成数据集Urdu-Instruct。数据集构建。

Large Language Models Do NOT Really Know What They Don’t Know
现有研究认为LLMs的内部状态(如隐藏层、注意力权重)可用于检测幻觉,暗示其“知道自己不知道什么”,但LLMs常依赖数据中的虚假关联产生事实错误,引发“内部计算能否可靠区分事实与幻觉”的疑问。关联幻觉(AH)(依赖主题知识但事实错误,如“奥巴马出生于芝加哥”)和非关联幻觉(UH)(与主题知识无关,如“奥巴马出生于东京”),核心探究两类幻觉在LLMs内部处理中的差异。

欢迎留下您的脚印