Loading...
可以看到除ChatGPTAgent外,其他三款产品均未参与或公布标准化基准测试结果,ChatGPTAgent以90分的总分领先,Fellou获得52分位居第二,而Comet和Dia的评分均低于20分,反映了严重的数据透明度不足问题,反映了WebAgent行业在评测标准化方面的不成熟。团队支撑的业务能力覆盖电商全链路,从产业分析到智能运营决策,从商家经营自动化到生态创新,从行业消费者体验提升到产业链模式创新,覆盖了服饰、快消、消电、企业服务等各个行业,构建着智能驱动的商业革新引擎。
基于智能体的自适应测试系统 - 淘工厂实践
我们需要让他在这个流程中承担什么任务/解决哪类问题(角色定位),在原有基础上具备哪些专业知识(知识库)、如何解释手头任务并布置给他(提示词)、如何正确的思考并接受反馈改进(提示词)、可以使用的工具及资源(工具调用),随着时间推移,他经历的多了、收录过往的case多(补充沉淀知识库),这位应届生也会变得越来越专业,能力越来越强。从执行结果、过程日志分析提炼,结合部分人工标注结果,评估分析、并实现经验回流和用例沉淀,回补到各域以及对抗助手的正负向向知识库,同时,不断沉淀该域的用例,自我完善。
聊聊AI Coding
VibeCoding,翻译是“氛围编码”(感觉蛮贴切),本质上是一种我们使用AI能力进行编码的方式,在这个模式下,我们把AI当成一个回答问题的机器,我们描述我们的诉求,让它帮我们写一段可运行的符合诉求的代码,如果产出的版本有问题(不符合诉求或者是运行错误),我们会根据相关的反馈(编译器、运行时错误、诉求差异点描述)重新调整我们的prompt,让AI进行迭代优化,直到解决问题为。更高效的做法是,对这个问题做一定的解读,可以a、针对该问题通过进一步的提问来帮助AI快速定位和解决;可能有一些不同的声音;
RLHF技术实践:大语言与文生图模型的生成优化
最后,我们以「家作」的“场景模特”功能为例,展示了如何通过RLHF技术,有效优化模型的生成效果,显著降低图像中肢体异常的概率,从而提升用户体验。首先我们把大量的prompt(OpenAI使用调用GPT-3用户的真实数据)输入给第一步得到的语言模型,对同一个问题,可以让一个模型生成多个回答,也可以让不同的微调(fine-tune)版本回答。相较于仅依赖固定标签的监督学习,RLHF通过引入相对偏好而非绝对标准答案,赋予模型更强的探索空间,有助于突破标注者能力的上限,从而潜在地实现更高水平的智能表现。
NL2SQL:从自然语言到SQL的智能转换技术深度解析
通过利用这些SQL查询缺陷中的线索,进行一定程度的修正。在实际应用中,基于与架构相关的上下文、生成的SQL查询以及执行结果(包括潜在的错误信息),可以使模型能够进行第二轮的修正。可以通过知识库的方式解决,另外一方面也有一些数据库层面提供的解决方案,比如阿里的PolarDB提供了「配置表」功能,通过全局生效的固定表名,存储了诸如「问题文本条件判断」、「问题处理」、「问题补充与具体业务/概念相关的信息」等前置文本转换功能,「模型生成的SQL条件判断」、「处理SQL,用于对业务逻辑中的值映射进行强制处。
如何利用多模态大模型进行淘宝商品理解?
例如对于类似这样的尺寸标注,我们需要的是1.5m款式床的宽度,图中出现了两个可能的选项,是床头的1.6m,床尾的1.5,以及其他的一些干扰尺寸,例如1.8m和1.9m,这些干扰尺寸来自其他款式的干扰,由于我们需要的是该具体款式实际占地尺寸,因此我们需要的是1.6m这个尺寸数据。具体到尺寸提取这个任务上来说,其实我们最终需要的结果也是精确且客观定义的,这个特性使得我们非常适合使用强化学习的方式来帮助我们提升能力,我们只需要关注最终结果的正确性,而中间的思考过程可以由模型自行发挥,而不去做显式的监督。
面向互联网2C业务的分布式类Manus Java框架
文章从背景出发,分析了当前主流Agent架构(如Manus、字节TARS、AutoGLM)存在的问题,如云虚拟机架构的数据孤岛问题、本地化Agent架构的响应速度与安全性不足等,进而提出了一种结合分布式服务端与异构C端的混合架构。至于训练数据,模型优化这些深度算法向的东西,可以在业务证明大方向上价值之后,基于平台系统的辅助下积累的线上数据和评估能力,半自动化地蒸馏优化,甚至引入专业算法团队去提升。产生的效果也是有巨大差异,而且他自己能快速的体验迭代,这比中间加一个研发去翻译,效率是无与伦比的。
我的Cursor编程实践经验分享
通过近两个月的实践,在编程中,cursor的表现取决与有效的Rules+正确的开发流程+标准的Prompt。经过这段时间的实践,在编程领域Cursor做的很不错,在一些比较大的需求上,表现的效果不稳定,比如技术方案需要参考业界已有的优秀案例为参考,能设计出有水平的技术方案,业界对这部分的定义称为-深度研究。在我们日常引用到内部的文档比较麻烦,可能需要把文章下载为md文档,在加载到cursor中,使用该MCP可以直接使用,不需要来回转换,比较便利,这个是我们前端的团队同学开发的mcp。
200行极简demo - 学习如何手搓一个ReAct Agent
依托淘宝APP亿级流量入口的核心购物场景,通过持续的技术突破与前沿AI科技深度融合,沉淀出GearsAI、供应链数字分身等AI时代研发与运营基础设施,让商家、小二实现更高效、低成本的经营。我们终于认识了ReAct的核心——“思考(Thought)-行动(Action)-观察(Observation)”循环的真正含义,同时也对ReAct的关键实现有了更深入的理解。小结:在上述例子中,用户一共说了2句话,Agent回复了2句话,但大模型分别调用了1次、3次。通过一步步的实现和推演,
2023-2025大模型领域2年发展综述
MoE模型则代表了技术前沿,以极致的规模和性能吸引高端用户和研究者,这种双轨并行的产品线,让Qwen能够在不同的细分市场中都保持竞争力,尤其是二次开发的衍生模型,Qwen一直在HF都是排名第一的衍生模型,大量的科研和二次开发都是基于Qwen2.5,用LLaMA的越来越少。按这个模式,模型的总参数量可以急剧增加(比如R1直接到671B的总参数量),但每次前向传播(即推理)时实际激活的参数量和计算量(FLOPs)却只占一小部分(比如R1实际上只激活37B),从而实现了经济的训练和高效的推理。
解析3种AI应用模式:核心技术拆解与工程实践
推理模型和传统的生成式语言模型的差别在于,传统的生成式语言模型在收到Prompt后就会马上生成,如果生成出现错误或者质量不好,是没机会纠正的,只能继续生成下去或者后续纠正继续生成,但是推理模型可以在向用户输出内容之前,会先输出思维链(ChainofThought),对输入的Prompt思考验证完成后,再开始生成。这意味着以前在提示词中加入COT的方式已经没必要了,也不需要复杂的角色扮演、示例,因为COT的存在,推理模型的“智能”程度高了很多,不需要角色设置、示例也能很好的理解和跟随指令。
程序员的自我修养 - 架构要素与认知
提到书籍:《逻辑学导论》、《深度思考法》、《学会提问》、《快思慢想》、《金字塔原理》、《奇妙的数字7±2》、《选择的悖论》、《软件架构》、《设计模式解析》、《面向对象分析与设计》、《架构真经》、《必然》、《简单法则:设计、技术、商务、生活的完美融合》、《箴言书注》、《终身成长:重新定义成功的思维模式》、《刻意练习:如何从新手到大师》、《系统架构:复杂系统的产品设计与开发》、《淘宝十年产品事》。在上面的思考之后,隐约感觉到需要为上面的认识定性,到底背后的信仰、认识出发点是什么,所以提出“概念为王”的口号。
端侧AI突破性能瓶颈:MNN 基于 SME2 指令集的大模型高效推理实现
SME2中一共有32个向量寄存器(z0-z31),每个向量寄存器的长度都是512bit.SME2指令架构相较于SVE/SVE2指令架构的最大特点是新增了数组寄存器za.za寄存器也可看作一个向量寄存器,特殊的是该向量中的所有元素都是512bit的向量寄存器.所以za寄存器也可以看作是一个二维矩阵(数组),宽度是512bit,za寄存器的形状是64x64bytes.下图展示的是一个宽度为256bit的za寄存器,有32行32列。
如何做到在手机上实时跑3D真人数字人?MNN-TaoAvatar开源了!
MNN-TaoAvatar是我们推出的一款开源的3D数字人应用,它集成了多项领先的AI技术,支持实时3D数字人语音交互,使用户能够在手机上实现与数字人的自然交流,仿佛真的在与一个「活生生」的人交谈。更令人惊艳的是,它能够根据语音实时驱动面部表情的变化,从而带来更加生动真实的对话体验。基于端侧AI推理引擎MNN,我们研发了一系列的核心模块,包括运行大语言模型的MNN-LLM、语音识别模型的MNN-ASR、语音合成模型的MNN-TTS,以及数字人渲染的MNN-NNR。
淘宝直播数字人:服务端工程技术
欢迎大家一起交流进步。直播数字人在业务发展初期,由于业务体量规模小,前期主要由内部几个商家先进行试用,在面对人员紧缺,同时需要快速验证线上效果的情况下,该阶段采用的方案是人工进行配置,包括主播名单开白使用,主播提交的素材,模型的训练、模型授权等都依赖产研的手动配置和操作。经过一段时间的主播调研和分析后,我们发现当前的产品的设计和体验上,还有较多可以提升的空间,产品能力的智能化发展,是后续需要重点规划和建设的方向,使用更多AI的能力,降低主播的开播门槛,提升消费者的使用体验,给平台带来更大的提效。
淘宝直播数字人:音视频&算法工程技术
团队基于对大语言模型研发、多模态语义理解、语音合成、数字人形象建模、AI工程化部署及音视频处理技术的深厚沉淀和积累,已搭建起覆盖直播全链路的AI技术矩阵。以淘宝直播为例,在直播的过程主要包括了音视频采集、渲染/混音、编码、传输/协议、GRTN、播放器这几个主要的环节。数字记忆:克隆自己、亲人的人设、声音、形象,保留一份永久的分身和记忆,留给自己与儿女!自营商家:天猫超市,喵速达,淘宝秒杀,百亿补贴,淘宝买菜,天天热卖,淘工厂等。千人千面:让每个人拥有一个专属数字人助理,有颜声音甜,陪你讲话、聊天、答疑!
淘宝直播数字人:形象技术
欢迎大家一起交流进步。通过模型鲁棒性和适应性的提升以及自动化审核策略的兜底,将用户素材录制的要求难度降低,例如传统链路要求素材录制必须是绿幕,而绿幕录制会相应带来一系列对于拍摄的要求,像是不能穿毛绒衣服、不能带眼镜、手部不能超出画面等等,这些要求都变相限制了素材拍摄的真实性和多样度。人工评测打分存在主观性,标准难统一,且评测后对低分直播间的治理建议,用户很难完全理解并执行,导致线上生态依然很差,大量低分低表现力数字人会严重影响C端买家的直播观看体验,这也就间接影响了数字人直播间的整体观看时长和下单量。
淘宝直播数字人:LLM弹幕互动技术
为了实现实时互动的功能,目前我们有两种弹幕互动的形式:一种是在直播间弹幕区通过用文本展示回复,另一种方式是把回复的内容通过TTS和唇驱让数字人口播。存在的模糊空间比单轮意图更大,基于上下文也许既能提取到观众问的链接号也能提取到观众想问商品的关键词,还有可能观众之前问的品通过调整顺序之后现在就在讲,但是这种case其实分错了,后续也能回答对。每次检索宝贝口袋商品时,首先和实时宝贝口袋商品进行同步,输入商品信息,使用BERT计算上下文向量,新增向量库中没有的向量,剔除不存在于宝贝口袋的商品向量。
淘宝直播数字人:LLM文案生成技术
对于商品口播文案的生成,在数据层面上,相比于最初的只依赖商详信息输入,我们新增了很多内容到文案生成中,比如问评买的用户评价信息、商品详情图的素材理解信息、商家个性化的人设信息和实时的权益信息等。这些信息丰富了文案讲解的内容,让口播文案从大模型千篇一律的文案框架中,升级到了包含丰富且准确的信息,以及多变的文案结构。过去一年,我们从零搭建了整个数字人文案生成的框架,也收集了丰富的信息源,共同组成了我们的弹药库,后续如何合理的组合和使用这些弹药库,需要有个更高维度的reference来对标。
淘宝直播数字人LLM推理优化:模型蒸馏与路径压缩实践
本专题是我们打造智能数字人的部分实践总结。我们将探讨六大核心环节:LLM文案生产赋予数字人思考和内容生成能力,如同其“大脑”;LLM互动能力则聚焦对话逻辑与拟人化交流,是实现自然交互的关键;TTS(语音合成)技术负责将文字转化为富含情感、个性化的“声音”;形象驱动技术让语音与表情、口型、肢体动作精准同步,塑造逼真视觉形象;音视频工程解决实时渲染、低延迟传输与高质量画面输出的技术挑战;最后,服务端工程构建稳定、弹性、高并发的后端支撑平台,确保数字人服务高效稳定运行。欢迎大家一起交流进步。TLDR直播间弹幕互动