还在为 DeepSeek 推理速度慢、部署麻烦发愁?

腾讯云「高性能应用服务HAI」联手自研计算加速引擎「TACO-LLM」,推出DeepSeek-R1 32B TACO加速版环境!实测多个场景调用性能相较vLLM提升80%,3分钟开箱即用的算力服务,完成环境创建,并使用兼容 openai 的api格式对模型进行调用,企业级AI应用开发效率直接拉满。

TACO-LLM:专业级推理加速引擎

腾讯云TACO-LLM(TencentCloud Accelerated Computing Optimization LLM)作为面向大语言模型的推理加速引擎,通过充分利用计算资源的并行计算能力,为客户提供兼顾高吞吐和低时延的优化方案

通过三大核心能力重构效能标准:

高易用,无缝迁移:TACO-LLM 设计实现了简单易用的接口,完全兼容业界开源 LLM 推理框架 vLLM。若开发者正在使用 vLLM 作为推理引擎,可以无缝迁移到 TACO-LLM,轻松获得比 vLLM 更优的性能。

多平台,全栈适配:支持国内外多平台生态芯片,一云多芯,多样化高性能算力,全站硬件适配。

高效能,多维加速:集成Continuous Batching动态批处理、Paged Attention显存优化、投机采样等8项核心技术,针对不同的计算资源进行性能优化,全方位提升 LLM 推理计算的效能。

实测效果认证为推理加速「黑科技」

DeepSeek-R1 32B TACO加速版环境,相比于vLLM,可在多个场景提升token吞吐能力,降低生成结果的等待时间,推理流程全面提效。

让我们用实测数据说话:

代码生成类场景:使用github数据集来进行测试,相比于vLLM,TACO-LLM在代码生成类场景中token吞吐平均提升 125% 。

请在此添加图片描述

预训练数据集场景:使用 C4数据集来进行测试,相比于vLLM,TACO-LLM在预训练数据集场景中token吞吐平均提升 53% 。

请在此添加图片描述

对话数据集场景:使用 ShareGPT_V3数据集来进行测试,相比于vLLM,TACO-LLM在对话类场景中token吞吐平均提升 66% 。

请在此添加图片描述

请在此添加图片描述

3分钟上手,上HAI开启TACO版加速体验

如此加速能力,现已上线 腾讯云高性能应用服务HAI 。并且开箱即用,3分钟即可用上这款 AI 开发者的「躺平神器」,堪称双倍加速。

点击链接,一键跳转开启体验申请:

https://cloud.tencent.com/apply/p/vwelof4sp3n

申请成功后,进入高性能应用服务HAI购买页,选中DeepSeek-R1 32B TACO 加速版环境,选择算力套餐进行创建。

请在此添加图片描述

创建完成后,环境会自动拉起TACO加速版DeepSeek模型服务,可直接使用兼容openai格式的api进行调用测试。

将ip修改为实例公网ip,port修改为对应端口

请在此添加图片描述

开箱即用,玩转AIGC应用

高性能应用服务HAI 作为一款开箱即用的GPU云服务平台,为用户提供更易用的GPU智算服务。提供20+款主流大模型一键快速部署,让您随时玩转AIGC应用。现已支持全面 DeepSeek-R1 1.5B-671B 模型预装环境,并提供GPU、CPU多种算力资源与服务。

请在此添加图片描述

一键部署,3分钟调用!DeepSeek-R1登陆腾讯云

HAI x Deepseek 1元限时活动强势来袭,羊毛先到先薅

Coming Soon!

DeepSeek-R1 671B TACO加速满血版环境快马加鞭上线中,敬请期待!

请在此添加图片描述

文章来源于腾讯云开发者社区,点击查看原文