本文共计4602字 预计阅读时长14分钟

公司介绍

上海合合信息科技股份有限公司(简称:合合信息,股票代码:688615.SH)是一家中国领先的人工智能产品公司,始终致力以AI技术创新赋能,向全球C端用户和多元行业B端客户提供“真有用、真好用”的产品。已在上交所科创板上市。公司主要 C 端产品包括扫描全能王、名片全能王和启信宝。

请在此添加图片描述

请在此添加图片描述

合合信息公司发展方向简介

随着业务的飞速发展,产品线积累了千亿文件和 PB 级数据,需要在这些数据中快速进行业务分析、辅助智能决策,对大数据的 OLAP 计算引擎和存储能力有更高的要求。而相较于原有 IDC 的架构,由于资源扩容受限,数据查询频繁遭遇资源争用、且查询速度无法满足更加复杂和智能的决策场景,成为制约业务应用数据价值的主要瓶颈。

为应对这些挑战,合合信息引入腾讯云数据仓库 TChouse-C 云原生版作为新的决策引擎底层架构,结合云原生架构的极速扩缩容能力和对底层引擎的深度优化,搭建了全新的决策产品平台。目前腾讯云 TChouse-C 云原生版已稳定支撑每日百亿级数据的稳定读写,显著提升决策分析的查询速度约45%,成本下降50%。(数据来源于合合信息技术环境测算)

决策业务形态与技术需求

基本业务形态

在互联网行业竞争愈发白热化的当下,企业若想在激烈的市场角逐中实现用户与业务的持续增长,精细化运营已成为必然选择,而数据则是精细化运营的核心驱动力。公司业务决策围绕 “增长” 这一核心目标,形成了 分析-决策-执行 的闭环:

  • 分析环节:依靠数据洞察平台(事件、留存、路径、漏斗分析)、AB 自动报告平台(自动智能报告、流量预警)、智能决策平台(波动分析、智能预警、智能归因),对业务数据进行多维度、自动化且智能化的剖析,挖掘业务现状与问题。

  • 决策环节:基于分析结果,从用户模式、商业模式、产品模式等维度,制定推动业务增长的策略。

  • 执行环节:通过功能优化、A/B 测试、个性化 Push、活动运营等手段,将决策落地,作用于业务以促进增长,同时执行产生的数据又回流到分析环节,持续驱动闭环运转。

业务对数据工具和平台的需求

要实现这样的业务闭环,对数据引擎和平台提出了诸多需求。在数据量爆发式增长的背景下,业务不仅需要更高效的数据分析能力,也渴望更多智能分析平台的助力,以更精准、快速地从海量数据中做出智能角色。

  • 数据洞察平台:需具备强大的多维度分析能力,能高效处理海量业务数据,快速实现事件、留存、路径、漏斗等分析,助力业务人员清晰了解用户行为、产品使用情况等,为决策提供基础数据支撑。

  • A/B 自动报告平台:要实现报告的自动化生成,减少人工操作成本;同时具备精准的流量预警能力,能及时发现流量异常,让业务人员快速响应,保障业务稳定并抓住潜在机会。

  • 智能决策平台:需拥有智能分析能力,可对业务波动进行深度分析、智能预警,还能对业务结果进行智能归因,帮助业务人员更精准、高效地找到问题根源或成功因素,提升决策的科学性与效率。

  • 整体数据工具链和底层引擎:各平台间需具备良好的协同性与统一的数据分析引擎能力,确保从分析到决策再到执行的数据闭环顺畅,同时要能适配业务在不同模式(用户、商业、产品)下的决策与执行需求,为业务全流程的增长目标提供有力的数据工具支持。

请在此添加图片描述

业务决策流程与平台工具

A/B智能决策场景下的架构演进

A/B 实验已全面覆盖合合信息多条业务线。以某C端业务线为例,每天有近百个实验在线,支撑 BI 等多场景分析,对应下游生成多种数据源,日增数据量高达数百亿条、规模接近TB级。平台早期依赖 IDC 自建 ClickHouse,尚能满足最初的分析与性能需求。但随着业务对实验报告科学性、准确性和智能化分析的要求不断提升,原有计算引擎已难以支撑当前和未来的数据处理与分析需求,具体挑战如下:

  • 报告科学性及智能解读
    现有实验报告多为数据堆积,缺乏有指导意义的结论和解读,理解门槛高,非专业人士易产生解读偏差,从而带来决策失误。

  • 支持长周期实验指标
    受限于现有 IDC 资源的存储能力(仅能保存 60 天数据),无法满足业务对 90 天甚至更长周期(如 180 天)实验分析的需求,难以支撑长周期趋势分析与分期复盘。

  • 历史数据与报告取回
    为释放容量,历史数据被定期删除,导致无法按需灵活调取历史数据和报告。系统如遇 HDFS 等基础设施故障,还会严重影响历史数据的取回和报告生成,给跨周期分析带来不便。

  • 多维下钻分析
    归因分析需多表 Join、关联 8 个以上维度。受架构和性能限制,单次多维下钻需全表扫描百亿数据,耗时 8-10 分钟,并发稍高即可能触发 OOM,复杂分析难以及时完成,影响业务精细洞察。

  • 自定义高级探查
    高并发、大数据量背景下,复杂查询和灵活自定义分析易超时/失败,资源能力难以支撑团队多样化、智能化和定制化分析需求,例如归因溯源、指标异常分析等。

  • 报告生成效率及系统稳定性
    高写入压力下,I/O 瓶颈导致数据写入延迟和丢失,影响实时报告生成。查询性能不足和运维复杂,查询失败率高达 34%,经常需要人工维护和窗口休眠,核心报告效率与稳定性难以保障,严重制约决策时效和使用体验。

综上,现有平台已无法全面满足对高科学性、智能化、长周期、多维度、稳定高效的 A/B 实验数据分析需求,平台架构升级和技术革新已势在必行。

请在此添加图片描述

智能决策AB报告平台技术需求点

解决思路-引入腾讯云TCHouse-C云原生版

为满足 A/B 平台对大规模离线数据的高并发查询与实验分析产品需求,解决传统 IDC 架构在数据处理效率、扩展性及资源弹性方面的瓶颈,团队调研了多家云厂商的 ClickHouse 兼容方案。经过对性能、稳定性、成本及生态适配性的综合评估,最终选定腾讯云 TCHouse-C 作为核心数据存储与计算平台,并针对其标准版(存算一体)和云原生版(存算分离)两种部署架构开展 POC 测试。

POC 旨在验证大规模离线数据(每天约 800GB,主要包括 order 表和 behavior 表)从 IDC 通过 SparkSQL 加工同步至 ClickHouse 后的高并发查询与实验分析能力,以支撑 A/B 平台业务需求。验证方式围绕 A/B 实验平台的指标查询场景展开,重点关注不同历史数据跨度(30天、60天、90天)下的查询效率与系统承载能力,具体包括单实验、多指标场景下的多个 SQL 并发查询,选择 3 组实验进行同时查询,来综合评判不同架构、数据量和查询并发下业务多指标实验的性能、稳定性及优化空间,为 A/B 平台生产环境的建设提供决策依据。

经过上述多次测试,TCHouse-C 云原生版在查询和写入方面性能表现均最优:

  • 查询性能方面,TCHouse-C 云原生版性能表现最好,相较原先 IDC 中自建的开源 ClickHouse 集群以及 TCHouse-C 标准版,平均查询性能提升 21% 和 16%;
  • 写入性能方面,在相同并发量和批次大小的条件下,TCHouse-C 云原生版写入耗时相比存算一体版降低了约 28 %。

请在此添加图片描述

基于如上测试效果,最终 A/B 智能决策场景决定采取 TCHouse-C 云原生版作为新的底层数据基座,新的系统架构如下图所示:

请在此添加图片描述

A/B决策架构引进 TCHouse-C 云原生版

上线后优化效果

在引入 TCHouse-C 云原生版后,整体取得了如下效果

  • 灵活资源配置、支持长周期实验:基于 TCHouse-C 的弹性扩缩容能力,在业务高峰时扩容至多台高规格节点、计算资源提升多倍,支持更长周期实验数据处理、满足指标准确性要求,在计算完成后缩容至单个节点、减少资源闲置、实现更高的资源利用率;
  • 冷数据存储降本、历史报告自动取回:利用 TCHouse-C 与 COS 对象存储的冷存集成能力,近几年历史实验实验数据明细数据都进行冷存、降低存储成本,取回时通过“冷数据透明查询” 功能,无需手动迁移,10 分钟内可完成历史报告重分析;
  • 指标稳定性保障:通过优化 SQL 并对计算资源进行弹性扩展后,各类指标的查询耗时由分钟级降至秒级,复杂指标查询 OOM 报错率从 34%(IDC)降至 0%,60 天窗口期报告生成成功率从 72% 提升至 100%,业务指标的查询稳定性得到充分保障。

其他场景实践应用

除了 A/B 实验决策场景,TCHouse-C 也在其他场景提供了对应的技术能力,支撑决策产品的研发。

场景1:指标智能归因 —— 支撑 “高并发智能维度归因算法” 需求

指标智能洞察是合合信息自研的一站式业务指标异常分析工具,核心聚焦指标波动归因——通过自研创新的指标归因算法,基于多层指标树和多维度交叉分析,可直接定位影响波动的核心指标及对应根因维度组合(如 “城市 × 设备 ×版本 ” ),帮助业务方快速锁定异常源头。

该工具的高效分析依赖大量并发维度查询的支撑,需对关键指标进行多维度拆分及交叉下钻,单用户单次归因会触发多次维度组合并发地柜查询。我们借助 TChouse-C 自动弹性扩容能力,并结合过滤条件下推优化、分布式分片聚合、高基数维度并行查询等机制功能,在高并发下钻场景中实现秒级资源调整,确保多维度高并发组合查询计算时仍能保持秒级响应,为归因分析提供稳定高效的底层算力支持,实现秒级的深层根因定位。

请在此添加图片描述

指标洞察产品示意图

场景2:No-ETL 物化视图加速 —— 降低 “指标开发” 成本

请在此添加图片描述

原架构下业务报告指标(如用户转化率、功能使用率)需通过 Spark 进行 ETL 加工,开发周期较长(1 个指标需 2-3 天),看板搭建则依赖 ETL 完成,需求交付周期从最初需求提出到上线耗时 1 周以上、整体耗时过长,同时 ETL 任务存在一定失败概率,会导致指标数据缺失,造成业务体验不佳。

在引入 TCHouse-C 后,我们通过物化视图的能力实现了 No-ETL 指标开发,直接对原始明细指标创建预计算视图,支持 SUM、COUNT、DISTINCT 等聚合操作,指标逻辑通过 SQL 定义,无需编写 ETL 脚本。物化视图配置按分区自动刷新,支持 “增量更新”,仅计算新增数据即可,避免全量重算,大大减少了资源消耗。整体指标开发工作量减少 70%,1 个指标开发时间从 3 天缩短至 0.5 天、需求交付效率提升数倍,ETL 失败导致的指标缺失率从 15% 降至 0%。

场景3:弹性扩缩容 —— 实现成本可控

原 IDC 集群中的开源 ClickHouse 使用本地磁盘作为存储,随历史数据的不断堆积,资源成本指数级增加。同时集群扩缩容需手动部署机器、运维周期长(1 周),且计算与存储绑定、闲置时资源浪费严重。

腾讯云 TCHouse-C 云原生版采用存储与计算分离的架构,上层计算节点无状态、完全可以按实际业务负载进行弹性扩缩容,而底层存储采用对象存储、按需取用,且对象存储自身具备高可用机制,无需采用双副本部署模式来保证集群的高可用,进一步节省了存储成本,整体与我们的需求高度匹配。

在引入 TCHouse-C 后,我们结合自定义扩缩容规则,集群变配采用 API 进行自动化管理,结合编程式、无人工干预的调度进行弹性调整。通过接口调用,扩缩容操作可以与业务系统、调度平台顺畅集成,提升敏捷性。扩缩容流程结合自定义规则,例如系统可根据日历和公司业务需求设定扩缩容时机:

—— 工作日白天,自动扩容至最大节点,满足高并发与业务高峰需求;

—— 非工作时段、节假日/调休,系统自动识别并缩减资源至最小节点,极大降低资源浪费。

规则支持灵活调整,可精确适配公司作息、法定假日与特殊调休安排,实现资源与实际业务负载的合理匹配。整个变配过程支持分钟级响应,无需业务停机或复杂迁移。集群弹性扩展与收缩对业务透明,保障系统平滑可用、不中断。依托按需自动扩缩容,实现峰谷资源及时切换,在满足性能与稳定性的同时显著优化成本结构,充分释放人力、运维与硬件资源效率,通过腾讯云控制台配置节点数量,扩缩容过程自动同步数据,用户无感知(扩容时间从 1 周缩短至 10 分钟)。

基于 TCHouse-C 云原生版存储计算分离的系统架构和完全按需取用的计费模式,3 年数据管理总成本降低 42%(对比 IDC 方案)、运维人力成本减少 60%,集群资源利用率从 40% 提升至 75%。

收益总结

在引入腾讯云数据仓库 TCHouse-C 后,合合信息获得了相关收益:

  • 查询效率大幅提升:支撑内部多项业务分析决策场景,实现秒级查询响应,百亿级甚至千亿大表关联查询也能实现秒级并发响应,如在 A/B 实验智能报告场景中,并发查询响应时间从原来的分钟级缩短至秒级,极大提高数据分析效率与决策及时性。

  • 开发效率显著提高:基于物化视图的 No - ETL 方案使指标开发工作量减少 70% 以上,业务搭建指标看板速度从周级提升至分钟级,快速响应业务需求变化,在新业务上线时,能迅速搭建指标看板,为业务运营提供快速便捷的数据支持。

  • 成本降低:TCHouse-C 架构精简、运维简单,云原生版本的极速扩缩容能力配合调度策略,帮助企业节省成本约 50% 以上。通过灵活调整资源配置,避免资源闲置浪费,降低硬件采购与运维成本。

未来规划

合合信息大数据部门在引入腾讯云数据仓库 TCHouse-C 云原生版之后,在内部得到了广泛的应用,满足了业务分析场景需求、实现降本提效,决策产品效果获得业务部门认可。

未来我们期待腾讯云数据仓库 TCHouse 的底层能力上有更进一步的提升,包括弹性扩缩容更多的个性化策略、 弹性版的定制化冷存能力、 Clickhouse 原生投影功能支持、支持 Seatunnel 更高效稳定的数据导入方式、Bitmap 深度性能优化等,通过不断的迭代更新,使基础引擎底座的构建更加简单易用。最后,感谢腾讯云大数据团队,感谢其对问题的快速响应和积极的技术支持。同时,腾讯云也将不断打磨产品,探索惠及更多行业场景的云端实践之路。

END

文章来源于腾讯云开发者社区,点击查看原文