Loading...

淘宝直播数字人:LLM弹幕互动技术
为了实现实时互动的功能,目前我们有两种弹幕互动的形式:一种是在直播间弹幕区通过用文本展示回复,另一种方式是把回复的内容通过TTS和唇驱让数字人口播。存在的模糊空间比单轮意图更大,基于上下文也许既能提取到观众问的链接号也能提取到观众想问商品的关键词,还有可能观众之前问的品通过调整顺序之后现在就在讲,但是这种case其实分错了,后续也能回答对。每次检索宝贝口袋商品时,首先和实时宝贝口袋商品进行同步,输入商品信息,使用BERT计算上下文向量,新增向量库中没有的向量,剔除不存在于宝贝口袋的商品向量。

淘宝直播数字人:LLM文案生成技术
对于商品口播文案的生成,在数据层面上,相比于最初的只依赖商详信息输入,我们新增了很多内容到文案生成中,比如问评买的用户评价信息、商品详情图的素材理解信息、商家个性化的人设信息和实时的权益信息等。这些信息丰富了文案讲解的内容,让口播文案从大模型千篇一律的文案框架中,升级到了包含丰富且准确的信息,以及多变的文案结构。过去一年,我们从零搭建了整个数字人文案生成的框架,也收集了丰富的信息源,共同组成了我们的弹药库,后续如何合理的组合和使用这些弹药库,需要有个更高维度的reference来对标。

淘宝直播数字人LLM推理优化:模型蒸馏与路径压缩实践
本专题是我们打造智能数字人的部分实践总结。我们将探讨六大核心环节:LLM文案生产赋予数字人思考和内容生成能力,如同其“大脑”;LLM互动能力则聚焦对话逻辑与拟人化交流,是实现自然交互的关键;TTS(语音合成)技术负责将文字转化为富含情感、个性化的“声音”;形象驱动技术让语音与表情、口型、肢体动作精准同步,塑造逼真视觉形象;音视频工程解决实时渲染、低延迟传输与高质量画面输出的技术挑战;最后,服务端工程构建稳定、弹性、高并发的后端支撑平台,确保数字人服务高效稳定运行。欢迎大家一起交流进步。TLDR直播间弹幕互动

加一个JVM参数,让系统可用率从95%提高到99.995%
其次,加机器虽然能通过稀释单机请求量,让STW长暂停影响到的请求量更少,但并未从根本解决问题,且会导致机器资源大量浪费。例如超时时间是50ms,YGCSTW49ms,则YGC结束后还剩余1ms,此时要分别处理1000个请求(高流量)和10个请求(低流量),后者报错会少很多,压力不大;ZGC中业务线程访问对象将触发“读屏障”,如果发现对象被复制移动了(通过“着色指针”实现),则“读屏障”会把读出来的指针更新到对象的新地址上,让业务线程始终访问到对象更新后、移动后的正确地址。

零基础解码Transformer与大模型核心原理
矩阵和“早上好”的转置矩阵做计算时,“早”会跟自己以及其他两个字(“上”、“好”)的向量分别做内积,来得到一个新的向量。本文作者逾末,来自淘天集团-直播技术团队。:获取输入句子的每个单词的特征值,也就是常说的embedding,但是只获取单词的特征值是不够的,因为推理一个句子,还需要单词之间的依赖关系,所以需要对单词的具体位置进行编码,获取到位置的编码信息(即位置的embedding,后面会详细讲位置信息如何编码的~),随后将两个Embedding相加,即可得到拥有位置信息的编码矩阵,如下图所示。

聊聊AI应用架构演进
RAG中的缓存设计,主要是面向精准匹配的缓存,比如面对相同的用于做知识库内容检索的query,可以快速从缓存中返回结果,因为当知识库变得丰富的同时,在做检索的时候,需要涉及到的向量计算量大且耗时,同时在一些使用场景中,知识库中的知识可能会存在一些热点内容,这时候缓存这部分知识的Index和body,对于整体推理提效会有不错的效果。Context增强的核心目标是针对用户的query,补充最相关、最必要的关联数据,从而提升模型的输出质量,因此如何找到这个最相关的补充数据,在细节方案设计上没有固定模式,在。

探秘TaoAvatar:淘宝3D真人数字人技术解析
未来三年,随着3D重建大模型、AIGC编辑等技术的突破,结合多模态语音大模型赋能的毫秒级对话能力,3D数字人将不再只是商业工具,而将成为每个人在数字世界的化身——既能随心切换服饰妆容参与虚拟社交,也能带着我们的思维习惯执行智能任务。,正是集成了这些前沿技术的3D真人数字人产品。TaoAvatar自研的低成本多视角相机阵列,仅需15分钟即可完成真人数字分身的高精度拍摄,表情、手势和动作的捕捉,自研AI动态重建算法在1周内便可交付自然驱动的3D真人数字人,显著降低成本与周期,让超写实数字人真正触手可及。

阿里淘天T-Star Lab 技术Openday 报名开放
点击阅读原文报名。

Agent工程能力思考记录
除了HSF,其实还有很多业务团队常用的接入诉求,比如SLS日志查询的接入,ODPS表读取的接入,IDEAs服务的接入等,这些能力可以快速支撑起一个简单的应用场景,譬如我之前文章里面的FlowLink原子能力接入后台、多啦a梦平台,本质上都是做的工具接入提效;对于MCP中心来说,也可以通过一些更通用的工程化手段来处理,比如在服务发现的末端,基于用户的请求前置过滤一些与本次无关的工具,可以是通过向量相似性或是LLM来处理,这种二阶段工具匹配的做法不仅可以减少长任务下的上下文长度,还能提高工具匹配的准确性。

大模型微调知识与实践分享
此外,Transformer的权重矩阵包括Attention模块里用于计算query,key,value的Wq,Wk,Wv以及多头attention的Wo,以及MLP层的权重矩阵,LoRA只应用于Attention模块中的4种权重矩阵,而且通过消融实验发现同时调整Wq和Wv会产生最佳结果。提升模型在正样本上的概率(优化模型在正样本上的概率大于参考模型在正样本上的概率),降低模型在负样本上的概率(优化模型在负样本上的概率小于参考模型在负样本上的概率)。

当我们在谈多端一码时,我们在谈论什么
文章从背景问题出发,详细阐述了KMP的核心技术特性,并结合直播业务的实际场景,分享了从技术预研到复杂业务落地、再到架构迁移的完整经验。随着直播技术业务的不断迭代,直播各端业务代码以及架构差异变得愈发明显,同时双端不平衡的开发资源也加剧了这种差异的产生。如何解决这些差异,首先映入脑海里的自然是一些已经较为成熟的跨平台方案,例如Flutter、Weex(2.0)和DX等等,但是这些跨平台方案实际上在直播业务中都有过各种尝试,因为各自的一些特性以及直播业务的特殊性,最后都没能实现多端一码的目标。

淘宝直播组件调度、复用和治理
直播间组件的加载都是比较耗时的。前面我们说到过组件治理的一个方向是组件渲染的优化,目的是通过优化视图布局层级,使用更稳定、优化的布局方式,提升组件上屏渲染的性能。是指组件本身的复用(组件对象和组件对应视图View的复用)以及组件内部元素的复用(比如基于列表RecyclerView组件的RecyclerView.ViewHolder,DXView的复用等等)上面我们说到直播间组件加载的三段式中,组件的注册和组件视图创建并不是每次上下滑都会执行的,因为存在直播间组件的复用。

淘宝Java工程师的LLM开发实践
Embedding是一种强大的技术,它能够将高维、稀疏的离散数据,如文本、图像、用户行为等,映射到低维、稠密的连续向量空间。而切分后的小块文本更易于进行索引和检索,能够加速检索阶段的相似度计算。在这些领域中,使用Fine-Tuning(微调)技术可能是一个更为合适的选择,通过微调可以使模型更好地适应特定领域的需求,提高模型在该领域的性能和准确性。在这一阶段,首先会将用户输入的query发送给向量数据库进行相似度检索,然后把检索到的内容输入给LLM进行总结生成,最后将最终的结果返回给用户。

CursorRules:AI编程助手规则调优实战
它可不是简单的配置文件,更像是你给AI助手量身定做的"行为规范手册",或者说是孙悟空头上的那个"紧箍咒"——当然,咱这是友好的、为了高效合作的"咒"。但现在,Cursor更推荐用新的方式(老方法未来可能不支持了哦):在项目根目录下创建一个.cursor文件夹,然后在里面再建个rules文件夹,最后把你的规则分门别类写在不同的.mdc文件里,比如python.mdc管Python的事,react.mdc管React的事。一般来说,项目特定规则的"威力"更大。

淘天⾃营质量技术AI智能体的实践和思考
我们积极探索前沿技术,持续技术创新和突破,用AI驱动质量革新,保障亿级系统可靠性,提升系统的稳定性和安全性,让用户享受更好的服务体验,让商家更高效、低成本地运营。文章详细阐述了AI智能体的整体架构设计、核心能力(如工具调度、数据查找、链路诊断等)、具体实施方案及其应用效果,并展望了未来在AI赋能质量技术领域的规划与发展方向。注意⼯具语义描述,⼯具的基础信息能够准确⽀持⽤户查找、使⽤他的所有场景,并且能够区别其他相似⼯具。常⻅有2种接⼊⽅式,⽅案1⽆法做到通⽤,本⽂重点介绍⽅案2的实现。

JianYi: 淘宝家装行业的分割&抠图系统
一支专注于通过AI和3D技术驱动商业创新的技术团队,依托大淘宝丰富的业务形态和海量的用户、数据,致力于为消费者提供创新的场景化导购体验,为商家提供高效的场景化内容创作工具,为淘宝打造围绕家的场景的第一消费入口。我们不断探索并实践新的技术,通过持续的技术创新和突破,创新用户导购体验,提升商家内容生产力,让用户享受更好的消费体验,让商家更高效、低成本地经营。在抠图的后处理阶段,我们摒弃传统的腐蚀和膨胀方法,采用联通域合并和最小集提取技术来过滤噪声,确保抠图结果更清晰准确。

浅谈团队代码风格/结构一致性
我所在的团队,一部分职责是开发维护直播业务中主播直播售卖商品的时候的CPS佣金体系,完成消费者点击商品的行为跟踪,以及下单后把订单归因到主播,以及后续的计费、扣佣过程。轮子是2022.06开始造的,作为技术演进的项目,推进方式上主要是两个点:新的服务、应用直接采用规范的代码模式,老的应用和服务,随着业务需求的演进和人力情况逐步迭代。当然也可以做复杂的编排。珠玉在前,所以去解决前面提到的问题,很好的思路就是在应用中以某个框架形式的代码约束,统一代码分层风格,并逐步推广到域内的多个应用,实现规模化的效果收益。

淘天自营前端开发的AI增效实践总结
目前鸿雁AICoder的主要用户仍然是前端开发同学,但随着文本大模型和多模态大模型的发展,输入口语化的描述,就能得到优质的文档/原型图,也能够为其他领域的工作提效。从最开始功能独立的AI工具到融合开发生态的AI插件,再到包罗万象的AI平台,什么才是最适合我们、最适合业务、最适合真正落地的方案呢。在AI重塑生产力的时代浪潮中,技术团队始终在探索效率的边界。与鸿雁ABC工作台深度集成,实现“一站式”开发到投产,模块、迭代、仓库、代码都有了,你需要做的只是点点按钮,改改细节。

MCP入门指南:大模型时代的USB接口
类似于USB接口对计算机的作用,MCP为人工智能提供了一种通用的连接方式,能无缝整合数据源、工具和上下文信息,从而显著增强AI的能力。作为"大模型时代的USB接口",MCP提供了一种标准化的方法,使AI能够访问各种数据源、利用多样化的工具,并在更丰富的上下文中工作。MCP作为一个开放且标准化的协议,在连接AI与外部世界方面具有革命性意义,不仅提升了AI的功能边界,还为开发者和用户提供了前所未有的便利。对于开发者而言,MCP简化了集成过程,减少了重复工作,并提供了更安全、更可控的方式来增强AI功能。

亿级流量下的前端高可用架构实践:淘宝春节许愿主互动
在上面的视频中我们可以看到,在我们的玩法中,用户一共有30个心愿,在用户许完所有愿望之前,可以不停地循环需要,所以对应的我们的灯笼动画的执行也是一个循环的过程,整个过程可以拆解为几个阶段:灯笼入场、心愿选择、心愿编辑、完成心愿选择,灯笼飞去中间、玩法点亮灯。主玩法动画交互链路复杂,一共有100+动画元素,包括(spine、lottie、css、视频等不同类型),在不同的业务流程中,需要对不同的动画元素进行按序组合,保证在同一个动画流程中不同动画的执行顺序。

欢迎留下您的脚印