还在为 DeepSeek 推理速度慢、部署麻烦发愁?
腾讯云「高性能应用服务HAI」联手自研计算加速引擎「TACO-LLM」,推出DeepSeek-R1 32B TACO加速版环境!实测多个场景调用性能相较vLLM提升80%,3分钟开箱即用的算力服务,完成环境创建,并使用兼容 openai 的api格式对模型进行调用,企业级AI应用开发效率直接拉满。
TACO-LLM:专业级推理加速引擎
腾讯云TACO-LLM(TencentCloud Accelerated Computing Optimization LLM)作为面向大语言模型的推理加速引擎,通过充分利用计算资源的并行计算能力,为客户提供兼顾高吞吐和低时延的优化方案。
通过三大核心能力重构效能标准:
高易用,无缝迁移:TACO-LLM 设计实现了简单易用的接口,完全兼容业界开源 LLM 推理框架 vLLM。若开发者正在使用 vLLM 作为推理引擎,可以无缝迁移到 TACO-LLM,轻松获得比 vLLM 更优的性能。
多平台,全栈适配:支持国内外多平台生态芯片,一云多芯,多样化高性能算力,全站硬件适配。
高效能,多维加速:集成Continuous Batching动态批处理、Paged Attention显存优化、投机采样等8项核心技术,针对不同的计算资源进行性能优化,全方位提升 LLM 推理计算的效能。
实测效果认证为推理加速「黑科技」
DeepSeek-R1 32B TACO加速版环境,相比于vLLM,可在多个场景提升token吞吐能力,降低生成结果的等待时间,推理流程全面提效。
让我们用实测数据说话:
● 代码生成类场景:使用github数据集来进行测试,相比于vLLM,TACO-LLM在代码生成类场景中token吞吐平均提升 125% 。
● 预训练数据集场景:使用 C4数据集来进行测试,相比于vLLM,TACO-LLM在预训练数据集场景中token吞吐平均提升 53% 。
● 对话数据集场景:使用 ShareGPT_V3数据集来进行测试,相比于vLLM,TACO-LLM在对话类场景中token吞吐平均提升 66% 。
3分钟上手,上HAI开启TACO版加速体验
如此加速能力,现已上线 腾讯云高性能应用服务HAI 。并且开箱即用,3分钟即可用上这款 AI 开发者的「躺平神器」,堪称双倍加速。
点击链接,一键跳转开启体验申请:
https://cloud.tencent.com/apply/p/vwelof4sp3n
申请成功后,进入高性能应用服务HAI购买页,选中DeepSeek-R1 32B TACO 加速版环境,选择算力套餐进行创建。
创建完成后,环境会自动拉起TACO加速版DeepSeek模型服务,可直接使用兼容openai格式的api进行调用测试。
将ip修改为实例公网ip,port修改为对应端口
开箱即用,玩转AIGC应用
高性能应用服务HAI 作为一款开箱即用的GPU云服务平台,为用户提供更易用的GPU智算服务。提供20+款主流大模型一键快速部署,让您随时玩转AIGC应用。现已支持全面 DeepSeek-R1 1.5B-671B 模型预装环境,并提供GPU、CPU多种算力资源与服务。
HAI x Deepseek 1元限时活动强势来袭,羊毛先到先薅
Coming Soon!
DeepSeek-R1 671B TACO加速满血版环境快马加鞭上线中,敬请期待!