Loading...
MoE模型则代表了技术前沿,以极致的规模和性能吸引高端用户和研究者,这种双轨并行的产品线,让Qwen能够在不同的细分市场中都保持竞争力,尤其是二次开发的衍生模型,Qwen一直在HF都是排名第一的衍生模型,大量的科研和二次开发都是基于Qwen2.5,用LLaMA的越来越少。按这个模式,模型的总参数量可以急剧增加(比如R1直接到671B的总参数量),但每次前向传播(即推理)时实际激活的参数量和计算量(FLOPs)却只占一小部分(比如R1实际上只激活37B),从而实现了经济的训练和高效的推理。
解析3种AI应用模式:核心技术拆解与工程实践
推理模型和传统的生成式语言模型的差别在于,传统的生成式语言模型在收到Prompt后就会马上生成,如果生成出现错误或者质量不好,是没机会纠正的,只能继续生成下去或者后续纠正继续生成,但是推理模型可以在向用户输出内容之前,会先输出思维链(ChainofThought),对输入的Prompt思考验证完成后,再开始生成。这意味着以前在提示词中加入COT的方式已经没必要了,也不需要复杂的角色扮演、示例,因为COT的存在,推理模型的“智能”程度高了很多,不需要角色设置、示例也能很好的理解和跟随指令。
程序员的自我修养 - 架构要素与认知
提到书籍:《逻辑学导论》、《深度思考法》、《学会提问》、《快思慢想》、《金字塔原理》、《奇妙的数字7±2》、《选择的悖论》、《软件架构》、《设计模式解析》、《面向对象分析与设计》、《架构真经》、《必然》、《简单法则:设计、技术、商务、生活的完美融合》、《箴言书注》、《终身成长:重新定义成功的思维模式》、《刻意练习:如何从新手到大师》、《系统架构:复杂系统的产品设计与开发》、《淘宝十年产品事》。在上面的思考之后,隐约感觉到需要为上面的认识定性,到底背后的信仰、认识出发点是什么,所以提出“概念为王”的口号。
端侧AI突破性能瓶颈:MNN 基于 SME2 指令集的大模型高效推理实现
SME2中一共有32个向量寄存器(z0-z31),每个向量寄存器的长度都是512bit.SME2指令架构相较于SVE/SVE2指令架构的最大特点是新增了数组寄存器za.za寄存器也可看作一个向量寄存器,特殊的是该向量中的所有元素都是512bit的向量寄存器.所以za寄存器也可以看作是一个二维矩阵(数组),宽度是512bit,za寄存器的形状是64x64bytes.下图展示的是一个宽度为256bit的za寄存器,有32行32列。
如何做到在手机上实时跑3D真人数字人?MNN-TaoAvatar开源了!
MNN-TaoAvatar是我们推出的一款开源的3D数字人应用,它集成了多项领先的AI技术,支持实时3D数字人语音交互,使用户能够在手机上实现与数字人的自然交流,仿佛真的在与一个「活生生」的人交谈。更令人惊艳的是,它能够根据语音实时驱动面部表情的变化,从而带来更加生动真实的对话体验。基于端侧AI推理引擎MNN,我们研发了一系列的核心模块,包括运行大语言模型的MNN-LLM、语音识别模型的MNN-ASR、语音合成模型的MNN-TTS,以及数字人渲染的MNN-NNR。
淘宝直播数字人:服务端工程技术
欢迎大家一起交流进步。直播数字人在业务发展初期,由于业务体量规模小,前期主要由内部几个商家先进行试用,在面对人员紧缺,同时需要快速验证线上效果的情况下,该阶段采用的方案是人工进行配置,包括主播名单开白使用,主播提交的素材,模型的训练、模型授权等都依赖产研的手动配置和操作。经过一段时间的主播调研和分析后,我们发现当前的产品的设计和体验上,还有较多可以提升的空间,产品能力的智能化发展,是后续需要重点规划和建设的方向,使用更多AI的能力,降低主播的开播门槛,提升消费者的使用体验,给平台带来更大的提效。
淘宝直播数字人:音视频&算法工程技术
团队基于对大语言模型研发、多模态语义理解、语音合成、数字人形象建模、AI工程化部署及音视频处理技术的深厚沉淀和积累,已搭建起覆盖直播全链路的AI技术矩阵。以淘宝直播为例,在直播的过程主要包括了音视频采集、渲染/混音、编码、传输/协议、GRTN、播放器这几个主要的环节。数字记忆:克隆自己、亲人的人设、声音、形象,保留一份永久的分身和记忆,留给自己与儿女!自营商家:天猫超市,喵速达,淘宝秒杀,百亿补贴,淘宝买菜,天天热卖,淘工厂等。千人千面:让每个人拥有一个专属数字人助理,有颜声音甜,陪你讲话、聊天、答疑!
淘宝直播数字人:形象技术
欢迎大家一起交流进步。通过模型鲁棒性和适应性的提升以及自动化审核策略的兜底,将用户素材录制的要求难度降低,例如传统链路要求素材录制必须是绿幕,而绿幕录制会相应带来一系列对于拍摄的要求,像是不能穿毛绒衣服、不能带眼镜、手部不能超出画面等等,这些要求都变相限制了素材拍摄的真实性和多样度。人工评测打分存在主观性,标准难统一,且评测后对低分直播间的治理建议,用户很难完全理解并执行,导致线上生态依然很差,大量低分低表现力数字人会严重影响C端买家的直播观看体验,这也就间接影响了数字人直播间的整体观看时长和下单量。
淘宝直播数字人:LLM弹幕互动技术
为了实现实时互动的功能,目前我们有两种弹幕互动的形式:一种是在直播间弹幕区通过用文本展示回复,另一种方式是把回复的内容通过TTS和唇驱让数字人口播。存在的模糊空间比单轮意图更大,基于上下文也许既能提取到观众问的链接号也能提取到观众想问商品的关键词,还有可能观众之前问的品通过调整顺序之后现在就在讲,但是这种case其实分错了,后续也能回答对。每次检索宝贝口袋商品时,首先和实时宝贝口袋商品进行同步,输入商品信息,使用BERT计算上下文向量,新增向量库中没有的向量,剔除不存在于宝贝口袋的商品向量。
淘宝直播数字人:LLM文案生成技术
对于商品口播文案的生成,在数据层面上,相比于最初的只依赖商详信息输入,我们新增了很多内容到文案生成中,比如问评买的用户评价信息、商品详情图的素材理解信息、商家个性化的人设信息和实时的权益信息等。这些信息丰富了文案讲解的内容,让口播文案从大模型千篇一律的文案框架中,升级到了包含丰富且准确的信息,以及多变的文案结构。过去一年,我们从零搭建了整个数字人文案生成的框架,也收集了丰富的信息源,共同组成了我们的弹药库,后续如何合理的组合和使用这些弹药库,需要有个更高维度的reference来对标。
淘宝直播数字人LLM推理优化:模型蒸馏与路径压缩实践
本专题是我们打造智能数字人的部分实践总结。我们将探讨六大核心环节:LLM文案生产赋予数字人思考和内容生成能力,如同其“大脑”;LLM互动能力则聚焦对话逻辑与拟人化交流,是实现自然交互的关键;TTS(语音合成)技术负责将文字转化为富含情感、个性化的“声音”;形象驱动技术让语音与表情、口型、肢体动作精准同步,塑造逼真视觉形象;音视频工程解决实时渲染、低延迟传输与高质量画面输出的技术挑战;最后,服务端工程构建稳定、弹性、高并发的后端支撑平台,确保数字人服务高效稳定运行。欢迎大家一起交流进步。TLDR直播间弹幕互动
加一个JVM参数,让系统可用率从95%提高到99.995%
其次,加机器虽然能通过稀释单机请求量,让STW长暂停影响到的请求量更少,但并未从根本解决问题,且会导致机器资源大量浪费。例如超时时间是50ms,YGCSTW49ms,则YGC结束后还剩余1ms,此时要分别处理1000个请求(高流量)和10个请求(低流量),后者报错会少很多,压力不大;ZGC中业务线程访问对象将触发“读屏障”,如果发现对象被复制移动了(通过“着色指针”实现),则“读屏障”会把读出来的指针更新到对象的新地址上,让业务线程始终访问到对象更新后、移动后的正确地址。
零基础解码Transformer与大模型核心原理
矩阵和“早上好”的转置矩阵做计算时,“早”会跟自己以及其他两个字(“上”、“好”)的向量分别做内积,来得到一个新的向量。本文作者逾末,来自淘天集团-直播技术团队。:获取输入句子的每个单词的特征值,也就是常说的embedding,但是只获取单词的特征值是不够的,因为推理一个句子,还需要单词之间的依赖关系,所以需要对单词的具体位置进行编码,获取到位置的编码信息(即位置的embedding,后面会详细讲位置信息如何编码的~),随后将两个Embedding相加,即可得到拥有位置信息的编码矩阵,如下图所示。
聊聊AI应用架构演进
RAG中的缓存设计,主要是面向精准匹配的缓存,比如面对相同的用于做知识库内容检索的query,可以快速从缓存中返回结果,因为当知识库变得丰富的同时,在做检索的时候,需要涉及到的向量计算量大且耗时,同时在一些使用场景中,知识库中的知识可能会存在一些热点内容,这时候缓存这部分知识的Index和body,对于整体推理提效会有不错的效果。Context增强的核心目标是针对用户的query,补充最相关、最必要的关联数据,从而提升模型的输出质量,因此如何找到这个最相关的补充数据,在细节方案设计上没有固定模式,在。
探秘TaoAvatar:淘宝3D真人数字人技术解析
未来三年,随着3D重建大模型、AIGC编辑等技术的突破,结合多模态语音大模型赋能的毫秒级对话能力,3D数字人将不再只是商业工具,而将成为每个人在数字世界的化身——既能随心切换服饰妆容参与虚拟社交,也能带着我们的思维习惯执行智能任务。,正是集成了这些前沿技术的3D真人数字人产品。TaoAvatar自研的低成本多视角相机阵列,仅需15分钟即可完成真人数字分身的高精度拍摄,表情、手势和动作的捕捉,自研AI动态重建算法在1周内便可交付自然驱动的3D真人数字人,显著降低成本与周期,让超写实数字人真正触手可及。
阿里淘天T-Star Lab 技术Openday 报名开放
点击阅读原文报名。
Agent工程能力思考记录
除了HSF,其实还有很多业务团队常用的接入诉求,比如SLS日志查询的接入,ODPS表读取的接入,IDEAs服务的接入等,这些能力可以快速支撑起一个简单的应用场景,譬如我之前文章里面的FlowLink原子能力接入后台、多啦a梦平台,本质上都是做的工具接入提效;对于MCP中心来说,也可以通过一些更通用的工程化手段来处理,比如在服务发现的末端,基于用户的请求前置过滤一些与本次无关的工具,可以是通过向量相似性或是LLM来处理,这种二阶段工具匹配的做法不仅可以减少长任务下的上下文长度,还能提高工具匹配的准确性。
大模型微调知识与实践分享
此外,Transformer的权重矩阵包括Attention模块里用于计算query,key,value的Wq,Wk,Wv以及多头attention的Wo,以及MLP层的权重矩阵,LoRA只应用于Attention模块中的4种权重矩阵,而且通过消融实验发现同时调整Wq和Wv会产生最佳结果。提升模型在正样本上的概率(优化模型在正样本上的概率大于参考模型在正样本上的概率),降低模型在负样本上的概率(优化模型在负样本上的概率小于参考模型在负样本上的概率)。
当我们在谈多端一码时,我们在谈论什么
文章从背景问题出发,详细阐述了KMP的核心技术特性,并结合直播业务的实际场景,分享了从技术预研到复杂业务落地、再到架构迁移的完整经验。随着直播技术业务的不断迭代,直播各端业务代码以及架构差异变得愈发明显,同时双端不平衡的开发资源也加剧了这种差异的产生。如何解决这些差异,首先映入脑海里的自然是一些已经较为成熟的跨平台方案,例如Flutter、Weex(2.0)和DX等等,但是这些跨平台方案实际上在直播业务中都有过各种尝试,因为各自的一些特性以及直播业务的特殊性,最后都没能实现多端一码的目标。
淘宝直播组件调度、复用和治理
直播间组件的加载都是比较耗时的。前面我们说到过组件治理的一个方向是组件渲染的优化,目的是通过优化视图布局层级,使用更稳定、优化的布局方式,提升组件上屏渲染的性能。是指组件本身的复用(组件对象和组件对应视图View的复用)以及组件内部元素的复用(比如基于列表RecyclerView组件的RecyclerView.ViewHolder,DXView的复用等等)上面我们说到直播间组件加载的三段式中,组件的注册和组件视图创建并不是每次上下滑都会执行的,因为存在直播间组件的复用。