Loading...
美团LongCat全新上线 AI生图功能,该功能基于LongCat系列模型「LongCat-Image」打造而成。无论是追求高效出图的普通用户,还是需要精准落地创意的专业创作者,LongCat都以“轻量化模型+流畅体验”,让AI生图真正成为人人可用的创作工具。
美团发布 LongCat-Image 图像生成模型,编辑能力登顶开源 SOTA
美团LongCat团队正式发布并开源LongCat-Image模型,通过高性能模型架构设计、系统性的训练策略和数据工程,以6B参数规模,成功在文生图和图像编辑的核心能力维度上逼近更大尺寸模型效果,为开发者社区与产业界提供了“高性能、低门槛、全开放”的全新选择。
AI Coding与单元测试的协同进化:从验证到驱动
AI生成代码质量难以把控!本文分享来自美团的技术实践,三大策略破解AI编程痛点。单测快速验证逻辑正确性,安全网保护存量代码演进,TDD模式精准传递需求。告别「看起来没问题」的错觉,构建AI时代的代码质量保障体系。
R-HORIZON:探索长程推理边界,复旦NLP&美团LongCat联合提出LRMs能力评测新框架
复旦大学与美团LongCat联合推出 R-HORIZON——首个系统性评估与增强LRMs长链推理能力的评测框架与训练方法。核心创新:R-HORIZON提出了问题组合(QueryComposition)方法,通过构建问题间的依赖关系,将孤立任务转化为复杂的多步骤推理链。
美团 LongCat 发布 AMO-Bench:突破 AIME 评测饱和困境,重新定义 LLM 数学上限
美团LongCat团队发布数学推理评测基准——AMO-Bench 。该评测集共包含50道竞赛专家原创试题,所有题目均对标甚至超越IMO竞赛难度。AMO-Bench既揭示出当前大语言模型在处理复杂推理任务上的局限性,同时也为模型推理能力的进一步提升树立了新的标杆。
美团 LongCat Interaction 团队发布大模型交互系统技术报告 WOWService
美团LongCat团队正式发布——「WOWService大模型交互系统技术报告」,深度拆解了「数据与知识双驱动」「自我优化训练」「四阶段训练流水线」「多Agent协同」四大核心技术框架,希望对行业发展提供参考与启发。
美团 LongCat 团队发布全模态一站式评测基准 UNO-Bench
美团LongCat团队提出了一套高质量、多样化的一站式全模态大模型评测基准——UNO-Bench。该基准通过一个统一的框架,不仅能同时精准衡量模型的单模态与全模态理解能力,更首次验证了全模态大模型的“组合定律”——该定律在能力较弱的模型上呈现为短板效应,而在能力较强的模型上则涌现出协同增益,为行业提供了一种全新的、跨越模型规模的分析范式。
美团开源LongCat-Audio-Codec,高效语音编解码器助力实时交互落地
针对SpeechLLM落地中的音频处理难题,美团LongCat团队正式开源专用语音编解码方案LongCat-Audio-Codec。它提供了一套一站式的Token生成器(Tokenizer)与Token还原器(DeTokenizer)工具链,其核心功能是将原始音频信号映射为语义与声学并行的Token序列,实现高效离散化,再通过解码模块重构高质量音频,为SpeechLLM提供从信号输入到输出的全链路音频处理支持。真正让语音大模型既“听懂”语义,又能够“说清”。
LongCat-Flash-Omni正式发布并开源:开启全模态实时交互时代
美团LongCat-Flash系列再升级,美团正式发布全新家族成员LongCat-Flash-Omni,在文本、图像、视频理解及语音感知与生成等关键单模态任务中,均展现出极强的竞争力。LongCat-Flash-Omni是业界首个实现 “全模态覆盖、端到端架构、大参数量高效推理” 于一体的开源大语言模型。
美团 LongCat 团队发布 VitaBench:基于复杂生活场景的交互式 Agent 评测基准
美团LongCat团队研发的VitaBench(VersatileInteractiveTasksBenchmark)正式发布,这是当前高度贴近真实生活场景所面临复杂问题的大模型智能体评测基准。VitaBench以外卖点餐、餐厅就餐、旅游出行三大高频真实生活场景为典型载体,构建了包含66个工具的交互式评测环境,并进行了跨场景的综合任务设计,例如要求agent在一个旅行规划任务中通过思考、调用工具和用户交互,完整执行到买好票、订好餐厅的终端状态。
