应用场景

用户画像与行为分析

函数支持,业务场景秒级响应 高表正交位图实现画像场景的秒级圈人

场景挑战

CDP(用户数据管理平台)是企业用来收集并统一管理用户在多个渠道上的完整数据的工具。通过分析收集到的数据,CDP 可以形成用户 360 度全景画像,洞察用户的行为、兴趣、需求等信息,更好地把握用户的生命周期,为企业提供精细化的营销和服务。

用户画像与行为分析的常见工作流

上图是常见的用户画像与行为分析的工作流,当前常见解决方案往往面临下列的问题

表结构不灵活

随着产品迭代,需要新增埋点数据字段,例如关注功能或停留时间属性。当前解决方案不具备轻量级的表结构变动能力,难以保证高效应对业务变更。

分析复杂

当前的解决方案在分析离散事件的关系时,常使用通用 SQL 处理时间范围间隔,将计算逻辑变得非常复杂,并且可能需要引入大量的 join 操作,计算效率低。

无法实时更新

用户标签数量通常为几百到上千个,受计算资源和业务特点等多种因素影响,标签生成时间各异,但业务总需求最实时的用户画像,当前的解决方案难以兼顾计算与更新。

难以实时响应查询

每个用户每天会产生多个埋点数据,随着用户数量增加,行为数据量也会呈指数级增长。当前的解决方案难以实时响应查询需求。

SelectDB 解决方案

基于 SelectDB 建设的 CDP 数仓平台分层

基于 SelectDB 建设的 CDP 数仓平台分层

数据集成

  • 支持将在线业务库(例如 MySQL、Oracle 等)的增量数据通过 CDC 工具同步到 SelectDB,前端埋点数据通过 Kafka 进行实时消费并写入 SelectDB。
  • SelectDB 提供 Flink CDC 和高频小批量导入功能,确保数据流的延时低至分钟级甚至秒级。此外,SelectDB 支持 Exactly Once 语义,保证数据导入不丢不漏。
  • SelectDB 还支持数据湖功能,可查询 Hive、JDBC 和 ES。

数据存储层

  • 上游多个数据源将数据写入消息队列,支持用 ETL 或 ELT 模式在 Flink 实时计算层对 SelectDB 中持久化的数据进行轻量级清洗和建模。
  • SelectDB Cloud 的存储基于低成本、高可用的对象存储;在 SelectDB Enterprise 可以将数据下沉到对象存储,实现数据冷热分层。

服务与应用层

  • SelectDB 支持标准 MySQL 协议,支持 ANSI SQL,方便对接上游的服务与应用层。
  • 通过圈选和打标,可以对外提供推荐、投放和查询的接口服务,在应用系统中,可以实现人群画像分析,拉取人群包后根据用户全域 OneID 进行广告的精准推送服务。

函数支持,业务场景秒级响应

丰富的行为分析函数,带来开发简化和效率提升。以留存分析为例,通过 Retention 函数,SQL 简单直观且执行效率高。通过画像函数,可以在秒级延迟行为分析场景 3000 亿活跃数据,行为分析平均延迟小于 10s,P95 20s 左右。

函数支持,业务场景秒级响应

高表正交位图实现画像场景的秒级圈人

用户画像千亿数据,秒级人群预估,秒级别 10 标签圈人,10 秒级别 100 标签人群圈选。

高表正交位图实现画像场景的秒级圈人