Loading...

从人机协作到AI主导:我们是怎么把代码质量交给“数字SRE”的?
未来,随着Agent能力的进一步成熟,我们期待看到更多类似“数字SRE”、“数字测试专家”的角色涌现,共同构建一个人类指挥、AI执行、双向协同的智能化研发新生态。本次实践我们将抽象层级提升,把从“问题定位”到“提交代码评审(CR)”的全链路交给Agent自主执行,实现了从“帮我写代码”到“帮我完成任务”的范式跃迁。从2023年“Copilot辅助补全代码”,到2026年“AIAgent主导质量治理”,这不仅是工具链的升级,更是研发范式的根本性转变。

万级实时推理的商品领域Agent实践思考和总结
我们正积极拥抱这些前沿技术,将其与商品域的实际业务场景深度融合:以更强的语义理解能力让Agent真正"读懂"商品的深层含义,以Skill模块化的方式沉淀和复用商品域的专业领域知识,以商品理解"大脑"为核心构建自适应决策机制,实现对商品信息的主动感知与动态更新。业务实现在离线统一的方式有多种,例如可借助支持在离线一体的流程编排平台。在海量商品构成的复杂生态下,我们系统性地构建了贯穿商品定义、发布、存储、治理、理解与消费分发的全生命周期管理能力,帮助商家与平台实现商品信息的标准化表达、智能化理解与规模化流通。

浏览器自动化:从GUI到OpenCLI
生成能力受限:由于缺乏关键参数载荷,自动化脚本生成逻辑目前仅能覆盖只读类接口(如列表查询、详情获取并输出YAML),无法有效支撑写操作类接口(如创建、更新、删除)的命令生成,导致自动化闭环在“写入场景”中断。文章讲述放弃不稳定的前端UI自动化操作,采用解析并复现底层API请求的方式,来解决浏览器自动化的效率与稳定性难题。而Agent最喜欢的,其实是更清晰的执行面:命令、参数、返回值、失败原因。探索与分析:explore深度抓取页面、自动滚动、拦截网络请求、识别框架与状态管理、推断能力与推荐参数。

TLiveOmni 1.0: 直播视频多模态理解大模型
TLiveOmni1.0是一款面向电商直播场景的全模态大模型,原生支持图像、文本、视频、音频四模态统一输入,实现128K上下文窗口。该模型深度扎根电商直播领域,构建了超20项精细化原子能力,包括音频维度的语境感知ASR与多说话人分离、视频维度的商品时序切分与卖点提取、以及图像维度的商品空间定位与细粒度OCR。基于Qwen3-VL-Instruct架构,通过添加音频编码器并采用"模态对齐→能力强化→全任务微调"三阶段训练范式,模型在电商直播场景的关键任务上达到SOTA水平。在推理部署方面,通过定制化vLLM

RAG 全链路技术详解
因此,我们梳理了这篇技术指南,期望从实战角度拆解RAG的全链路核心能力:从底层原理出发,深入探讨如何构建索引、如何通过技术手段优化召回,以及如何建立科学的评测闭环。大型语言模型(LLMs)已经取得了显著的成就,尽管它们仍然面临着很大的局限性,尤其是在特定领域或知识密集型任务中,特别是在处理超出其训练数据或需要当前信息的查询时,会产生"幻觉"。其中,X是与位置相关的矩阵。应用会将问题与文本段通过提示词模板生成最终的提示词,由大模型生成回复,这个阶段更多是利用大模型的总结能力,而不是大模型本身具有的知识。

面向智能导购的Agent评测实践
一支专注于通过AI和3D技术驱动商业创新的技术团队,依托大淘宝丰富的业务形态和海量的用户、数据,致力于为消费者提供创新的场景化导购体验,为商家提供高效的场景化内容创作工具,为淘宝打造围绕家的场景的第一消费入口。在数据集构建完成后,我们使用四种搭配模型生成最终的搭配结果,分别为:外部模型XX、gemini25(gemini-2.5-pro-06-17)、gpt51(gpt-51-1113-global)、qwen3-vl(qwen3-vl-235b-a22b-instruct)。

AI-Generated UI 技术深度解析:模型流式输出与 UI 渲染实践
团队聚焦AI原生及衍生技术的探索与落地,覆盖从问题定义、方案设计、模型选型与训练微调,到工程交付与效果迭代的全链路闭环,致力于通过系统架构、平台能力、上下文工程及评测体系,沉淀可复用的技术资产与能力底座,高效支撑业务的探索与持续发展。从高并发C端交互到AI驱动的B端解决方案,从架构性能优化到算法模型落地,持续挑战系统边界,以技术重构商家经营效率,定义下一代智慧零售新标准。随着模型能力的持续提升和工具链的不断完善,AI-GeneratedUI将从"辅助工具"进化为"创作伙伴",深刻改变软件开发的方式。

缓存使用实践总结:以淘宝交易结算场景为例
CAE代扣协议签约信息:支付宝向集团侧提供了CAE代扣的结算能力,CAE代扣的前提是商家签约了CAE代扣协议,而CAE代扣协议的签约信息是落在支付宝侧,但汇金侧会在每次销帐调支付宝CAE代扣时快照存储一份CAE代扣签约信息。A1:缓存会占用内存空间,而单个应用机器的内存是有限且难以动态扩展的,如果数据量过大使用本地缓存可能会导致OOM,若限制了缓存空间的上限则可能导致淘汰频繁从而缓存命中率过低,而分布式缓存的空间是可横向动态扩展从而满足大数据量的需求。1、对于旁路与直写缓存,确保代码能准确重刷缓存;

天猫新品团队AI编码实战指南(下)
虽然对于枚举过的页面,现有的约束条件可以一定程度上约束产出内容,但是对于未枚举,或者无法枚举的页面,产出的页面就随着使用者或者编码工具的不同而开始天差地别,(有时候甚至可以通过页面风格判断是谁,用什么工具写的页面)有什么办法可以让这些部分也尽可能地有一个较为一致的视觉表现?所以,我们为小二端开发提供了一个轻量级的团队知识库(其实更多用在C端开发),以类Skill的形式封装了小二端开发的规范与代码模版,实现了无视开发工具,简单易用的公共知识库,通过公共知识库进行小二端AI开发的。请翻译:‘今天天气真好。

天猫新品营销技术团队AI编码实战指南(上)
完成需求后,可以重新梳理整个流程中的问题与可以复用的内容,进一步完成资产沉淀,这部分内容前期的生成和调整都会比较费劲,但是基本几个中型需求认真跑下来的沉淀,就可以覆盖很多日常开发的内容了,然后就可以逐步进入坐享其成的阶段。基于以上思路,还可以进一步设计视图分离的组件库,预设组件的事件,由调用方进行视觉组件的实现,完成事件的绑定,做到最大化的逻辑复用。重构过程中,也经常会遇到视图和逻辑绑定过深,无法复用视觉/逻辑代码的情况,这时候也可以直接让AI进行代码拆解,产出更加纯粹的逻辑/视觉组件。

面向电商直播场景的全模态大模型推理加速方案
最终在H20与RTX4090硬件上的实测表明,该方案在保证各模态任务精度损失控制在1.5%以内的前提下,实现了2.5倍至3.5倍的推理加速,且针对不同硬件特性总结出了FP8(H20)与W4A16(4090)的最优部署策略。然而,随着多模态大模型(VLM)的快速发展,引入了视觉、音频等多模态数据,这对整个大模型的推理系统是一个新的挑战。包括音频维度的语境感知ASR与多说话人分离,视频维度的商品时序切分与直播卖点提取,以及图像维度的商品空间定位与细粒度OCR,实现了对直播内容的全面解构。

淘天营销中后台生码工作流最佳实践
集团内的luna资产中心可以解决这类问题,但由于营销中后台公共组件、utils较多,全量迁移至luna成本较高,因此先通过一个资产使用指引Skill来包装各种资产的查询方式,内部调用各个平台(luna、codewiki、anpm)的开放接口,但实际执行过程中发现Agent的指令遵循度较差,常常弄错当前npm包应该调用哪个开放接口获取。淘天集团-营销前台技术团队。从更长远的视角看,随着AI能力的持续升级和私域知识库的不断沉淀,营销中后台的AI生码路径将朝着更高自动化程度、更低人工干预成本的方向持续演进。

800行代码实现 Open Claw 的 Tool、消息总线、子Agent管理架构
本文想说明的技术观点是对于Tool调用、消息分发、子Agent管理这三类Agent系统里的核心组件,优先采用薄抽象、显式控制流和贴近模型API的实现方式,往往比引入多层中间件更容易获得工程上的确定性。系统边界更清晰,运行路径更容易追踪,问题更容易定位,也更适合作为后续扩展Memory、调度和持久化能力的基础。业务上,我们负责88VIP、天猫积分、省钱卡、大会员、消费券等淘宝核心业务,同时支撑淘宝、千问、闪购等阿里业务的账号互联互通。用运行时普通对象定义,而非Zod等库。

MNN-Sana-Edit-V2:端侧运行的图像漫画风编辑大模型
MNN-Sana-Edit-V2是淘宝业务技术Meta团队联合杭州电子科技大学研发的端侧图像编辑大模型,该模型在参考Sana和Metaquery等学术界论文的基础上,基于文生图框架,创新性地增加了图像编辑功能,基于淘宝MNNLLM和MNNDiffusion的端侧量化部署能力,做到了所有模型本地运行,既能保护隐私,避免用户信息泄漏,又能做到快速运行,减少等待时间。具体来说,对预训练的LLM模型权重,我们采用了4Bit非对称量化,别的模型均采用8Bit非对称量化。

Codeindex · 让大模型更好地理解你的代码
针对代码量大、分支多及依赖关系复杂等痛点,Codeindex提供了代码语义化索引、检索以及函数依赖图生成能力。团队以前端、Weex、Native端的技术解决方案框架和研发模式不断完善自己,持续探索端智能等创新,打造极致的体验和工程技术,保障多端设备的适配和稳定运行,致力于让亿级规模的交付能够更丝滑、更稳定。总结一下上面的时序图,SDK内部会查询文件内部声明了哪些函数、函数内部有没有嵌套声明函数、函数内部调用了哪些函数、被调用的函数是来自内部声明还是外部引用。对Class内部的函。

卡片式对话的协议方案探索和思考
最终,文章提出了一套包含Markdown标记、消息传输、UI渲染及事件通信的四层统一协议体系,旨在解决Agent时代下多端一致性、数据实时性及跨团队协作混乱的问题,为构建高效、标准化的卡片式对话系统提供了落地的架构参考。一种可行的组合方式是:在MCPTool层使用MCPApps的绑定机制来管理Tool与UI的映射关系,同时用A2UI的JSONSchema作为UI描述的标准格式——这样既有Tool层的确定性,又有UI层的通用性。这种"自由"的代价是系统迅速碎片化。

淘宝动效解决方案分享
进一步看,动效体系的演进不应只是播放器或渲染技术的优化,更应是覆盖全链路的系统化升级,而AI将在其中发挥越来越重要的作用。本文提出了一套平台化、协议化、工程化的动效解决方案,覆盖设计(AE插件)、编辑(可视化画布SDK)、布局(align/group动态对齐与成组)、播放(H5/Weex跨端统一Player)、压缩(二进制优化)、代码生成(Lottie→Anime.js)及AI辅助(MCP协议动效Agent)全链路,解决碎片化、多端不一致、性能差、维护难等痛点,实现“一次制作、多端复用、智能可控”。

从全量启动到最小核: 手淘外链唤端链路的三次架构演进
对用户来说,体感最差的不只是"慢",还有"乱"——闪屏页长时间停留制造焦虑,首页闪现又消失让人困惑,目标页面的白屏等待更是将耐心消磨殆尽。但我们观察到,在启动任务执行期间,网络I/O能力几乎完全空闲——启动任务主要消耗的是CPU,而资源加载主要消耗的是网络带宽,两者天然适合并行。通过不断的探索和沉淀,我们的外链唤端架构经历了从全量串行到按需裁剪、从被动等待到主动预加载的演进过程,先后落地了标准链路、极简链路和最小核链路三代方案,最终将低端设备的唤端体感耗时从10s压缩到3s。

AI 答疑助手优化实践:从 RAG 到 LightRAG 的全链路升级
在全局性问题上,LightRAG的高级检索虽然不如GraphRAG的GlobalSearch那样有社区摘要的加持,但在我们的场景中已经足够用了——毕竟用户问的80%以上都是具体的技术问题,而非需要鸟瞰全局的综合性提问。当用户问"WebView的离线包加载流程是什么"时,系统首先通过向量相似度找到"WebView"和"离线包"相关的实体节点,然后提取这些节点的Value文本以及它们之间的关系描述,拼装为上下文。根据上一步推理出的每个步骤,分别生成对应的知识库查询关键词组。

告别“伪智能”代码:用 Spec + RAG 打造真正懂你的AI程序员
文章指出,单纯依赖大模型的自然语言理解往往导致代码生成不准确,而通过引入结构化的开发规范(Spec)作为明确指令,并配合RAG技术实时检索项目特有的代码库、文档和最佳实践,可以赋予AI真正的“项目感知力”。这种模式让AI从通用的代码生成器转变为懂业务、懂架构的专属程序员,显著提升了代码生成的准确性、可维护性及与现有系统的融合度,为构建高质量、低幻觉的AI辅助开发流程提供了切实可行的落地方案。(Specification,规范)是对软件系统行为、接口、数据格式或业务规则的精确、无歧义、可验证的描述。

欢迎留下您的脚印