导读:趣丸科技成立于 2014 年,是一家集兴趣社交及电子竞技等业务于一体的创新型科技企业,旗下有 TT 语音、麦可及 TTChat 等多款兴趣社交产品。核心产品 TT 语音是国内领先的兴趣社交平台,累计注册用户已超 2 亿,并成为 LPL、KPL、PEL 等五大头部电竞职业赛事官方合作伙伴。趣丸科技利用多年聚焦兴趣社交领域的深厚积累为核心优势,积极瞄准全球数字技术基础前沿领域和关键核心技术的研发和创新。

构建用户画像数据平台

构建用户画像数据平台.png

在 TT 语音数字技术基础中,用户画像和行为分析是技术底座中的核心功能,通过精准的用户画像构建和人群圈选持续提升为业务运营能力,带动业务增长。 整体画像平台的业务流程如上图,通过将多源的数据汇聚到数据平台,其中数据源包括用户行为数据、离线标签、实时标签和日常运营产生的数据。这些数据通过数据集成服务汇聚到数据平台后,在数据平台中构建用户画像模型,对外提供人群画像、人群圈选、用户洞察、效果分析等数据服务,最终应用于智能运营、AB实验、客服系统、风控系统和推荐系统等各个上层应用系统中。 由于历史原因,TT 语音最初的数据平台构架在 ClickHouse 上,随着业务的发展 ClickHouse 缺点逐渐显现出来:

  • 由于数据更新性能有限,因此无法满足实时标签频繁更新;
  • ClickHouse 内存管理不完善,易出现 OOM 导致服务进程退出的情况;
  • 由于不支持事务,DDL 语句无原子性保障;
  • 由于 ClickHouse 是存算一体架构,海量数据存储下每个节点都需要挂载 SSD ,造成存储成本居高不下,并且扩缩容和运维的成本较高;
  • ClickHouse 多表 Join 能力弱,导致大部分业务要在数据集成侧打成大宽表后才能分析,增加了业务处理的复杂度。

基于 SelectDB 用户画像数据平台

构建用户画像数据平台.png

基于以上痛点,TT 语音将数据平台进行了升级改造,从 ClickHouse 升级到 SelectDB Cloud。基于 SelectDB Cloud 的新架构也解决了过去存在的诸多痛点:

  • 基于主键表的部分列实时更新,解决了过去标签更新不及时的问题;提供轻量化并且原子化的元数据修改,解决标签的数据准确性问题;
  • SelectDB Cloud 通过 MemTracker 机制对内存进行有效管控,可以及时发现和 Kill 异常查询,保证了稳定的查询服务、保障线上业务的稳定运行。
  • 通过存算分离提供了极致的极致性价比,云上开箱即用的服务,降低了运维成本。

值得一提的是,SelectDB Cloud 既支持大宽表查询、也支持复杂的多表 Join 查询,在实际应用中百亿明细数据和十多亿的标签数据 Join 仅需要 3-5 秒就能完成,这极大降低了业务的复杂度,提升了业务的灵活性,。 经过一系列的架构探索,TT 语音在服务器资源和成本方面节省了 40%以上,解决了过去存在的数据更新不及时以及数据准确性问题,基于弹性计算、多集群部署以及资源隔离等能力使服务可靠性提升 5-10 倍,整体人群圈选效率提升 10 倍。而 TT 语音也计划在未来将更多业务放到 SelectDB 中来,包括智能运营、业务风控以及基于用户行为明细数据的实时人群圈选。最后已经看到大模型与 Apache Doris 在业界已经有很多的成功案例,也会探索大模型结合 SelectDB 构建智能的用户画像和洞察服务。

更多热门文章