应用场景
用户画像与行为分析
函数支持,业务场景秒级响应
高表正交位图实现画像场景的秒级圈人
场景挑战
CDP(用户数据管理平台)是企业用来收集并统一管理用户在多个渠道上的完整数据的工具。通过分析收集到的数据,CDP 可以形成用户 360 度全景画像,洞察用户的行为、兴趣、需求等信息,更好地把握用户的生命周期,为企业提供精细化的营销和服务。
上图是常见的用户画像与行为分析的工作流,当前常见解决方案往往面临下列的问题
表结构不灵活
随着产品迭代,需要新增埋点数据字段,例如关注功能或停留时间属性。当前解决方案不具备轻量级的表结构变动能力,难以保证高效应对业务变更。
分析复杂
当前的解决方案在分析离散事件的关系时,常使用通用 SQL 处理时间范围间隔,将计算逻辑变得非常复杂,并且可能需要引入大量的 join 操作,计算效率低。
无法实时更新
用户标签数量通常为几百到上千个,受计算资源和业务特点等多种因素影响,标签生成时间各异,但业务总需求最实时的用户画像,当前的解决方案难以兼顾计算与更新。
难以实时响应查询
每个用户每天会产生多个埋点数据,随着用户数量增加,行为数据量也会呈指数级增长。当前的解决方案难以实时响应查询需求。
SelectDB 解决方案
基于 SelectDB 建设的 CDP 数仓平台分层
数据集成
- 支持将在线业务库(例如 MySQL、Oracle 等)的增量数据通过 CDC 工具同步到 SelectDB,前端埋点数据通过 Kafka 进行实时消费并写入 SelectDB。
- SelectDB 提供 Flink CDC 和高频小批量导入功能,确保数据流的延时低至分钟级甚至秒级。此外,SelectDB 支持 Exactly Once 语义,保证数据导入不丢不漏。
- SelectDB 还支持数据湖功能,可查询 Hive、JDBC 和 ES。
数据存储层
- 上游多个数据源将数据写入消息队列,支持用 ETL 或 ELT 模式在 Flink 实时计算层对 SelectDB 中持久化的数据进行轻量级清洗和建模。
- SelectDB Cloud 的存储基于低成本、高可用的对象存储;在 SelectDB Enterprise 可以将数据下沉到对象存储,实现数据冷热分层。
服务与应用层
- SelectDB 支持标准 MySQL 协议,支持 ANSI SQL,方便对接上游的服务与应用层。
- 通过圈选和打标,可以对外提供推荐、投放和查询的接口服务,在应用系统中,可以实现人群画像分析,拉取人群包后根据用户全域 OneID 进行广告的精准推送服务。
函数支持,业务场景秒级响应
丰富的行为分析函数,带来开发简化和效率提升。以留存分析为例,通过 Retention 函数,SQL 简单直观且执行效率高。通过画像函数,可以在秒级延迟行为分析场景 3000 亿活跃数据,行为分析平均延迟小于 10s,P95 20s 左右。
高表正交位图实现画像场景的秒级圈人
用户画像千亿数据,秒级人群预估,秒级别 10 标签圈人,10 秒级别 100 标签人群圈选。
小米
