Loading...

从高拟真到真可用,LongCat-Video-Avatar 1.5 正式开源
LongCat-Video-Avatar1.5是一款从开源SOTA迈向商业级应用的数字人视频模型。在唇形同步、物理合理性、长视频稳定性、多人互动和高效推理上实现了全面跃升。LongCat-Video-Avatar1.5即便在复杂商业场景里,也能稳定、自然地输出高质量内容,让数字人视频生成从彩排室的完美演练,走向千人千面的真实舞台。

美团 LongCat 开源 General 365:树立推理评测新标尺
美团LongCat团队正式发布General365。我们发现,在对26款主流模型的实测中,目前地表最强的Gemini3Pro准确率仅为62.8%,而绝大多数模型甚至没能摸到60分的及格线。

用Agent评测思路管理AI Coding —— 31万行代码AI重构的实践
当90%以上代码由AI生成,决定系统走向的不是谁写得更快,而是约束AI的能力。没有统一规范,AI只会成倍放大混乱。本文基于31万行代码重构实践,分享我们如何用Agent评测思路管理AICoding——通过技术债梳理、建设Rule、重构SOP和Pre-PR机制,把重构从高成本专项变成随迭代持续推进的日常动作。

LARYBench 发布:定义具身动作表征 ImageNet,首次度量从人类视频学习的泛化表征
LARYBench(LatentActionRepresentationYieldingBenchmark),一个指引从大规模的视觉数据学习到通用的隐式动作表征的系统化评测基准。实验结果表明:在动作泛化和控制精度上,通用视觉模型的表现均显著优于专门为具身智能设计的动作专家模型,具身动作表征可以从大规模人类视频数据中涌现。

突破零样本 TTS 音色克隆上限:LongCat-AudioDiT 的声音克隆艺术
能不能让AI直接学会声音本身的规律,跳过中间环节?为破解这一技术瓶颈,美团LongCat团队正式发布LongCat-AudioDiT。在该模型中,彻底抛弃梅尔谱等中间表示,直接在波形潜空间进行基于扩散模型的文本转语音(Text-to-Speech,TTS),从根源阻断数据转换的级联误差。

LongCat-Flash-Prover:AI 攻克数学定理证明,不仅要“算得对”,更要“证得严”
在常规的数学解题中,模型只需要“答对最终数值”即可,但数学定理证明不同,它要求极度严苛的逻辑链条,任何一句自然语言的模棱两可,都可能导致整个证明的崩塌。那么,如何让AI从“猜答案”走向“严谨证明”,成为复杂推理具有挑战的课题。为了解答这个问题,我们开源了专门用于数学形式化与定理证明的模型——LongCat-Flash-Prover。

美团发布原生多模态 LongCat-Next:当视觉和语音成为AI的母语
LongCat-Next是我们在通往物理世界AI道路上的一次探索。今天,我们把研究思路的核心——LongCat-Next模型和它的离散分词器全部开源,希望更多开发者能基于它,构建真正能感知、理解并作用于真实世界的AI。

美团 BI 在指标平台和分析引擎上的探索和实践
美团数据平台构建了以指标平台为核心的新一代BI架构,通过自动语义和增强计算两种核心能力的建设,部分解决了传统BI平台在个性化数据集驱动下产生的数据口径混乱、查询性能差等问题。

重塑站外体验:大众点评 M 站基于 Qwik.js 的重构实践
为突破传统Web框架的性能瓶颈,大众点评增长团队引入Qwik.js重构M站核心页面架构,解决了重构前页面加载慢、维护成本高的难题。借助“可恢复性”能力,我们甩掉了传统水合的性能损耗,搭配全链路优化与工程化适配,让各个页面的性能指标都得到了明显提升。本文将拆解本次重构的技术选型、原理与落地细节,沉淀前沿框架在站外场景的落地经验。

LongCat 为 OpenClaw 装上效率引擎:你的自动化任务还能再快 30%
依赖第三方订阅进行非官方调用存在账号安全风险与服务不稳定性。为规避此类问题,LongCat团队提供稳定合规的官方免费API,开发者可通过官方渠道直接接入OpenClaw,在确保账号安全的前提下构建自动化工作流。

欢迎留下您的脚印