文本与向量检索场景
原生集成 ANN 向量检索能力,融合全文检索与结构化过滤,在单一系统中实现 TB 级向量的低成本存储与高性能混合查询,为 AI 应用构建统一的搜索基座。
AI 应用面临的检索挑战
专用向量库成本高
独立部署 Milvus 等向量数据库需要额外集群资源;HNSW 索引内存开销大,扩展到 10 亿向量时内存接近 1TB,TCO 难以承受。
向量与业务数据割裂
向量库与业务数据库独立,跨系统联合查询需要应用层处理数据一致性,开发与运维复杂度高。
混合查询性能瓶颈
RAG 场景需要在向量检索基础上叠加结构化过滤、全文检索,多系统串联导致延迟叠加,影响用户体验。
SelectDB 的原生向量检索方案
不同于专用向量库或插件式扩展,SelectDB 将 ANN 向量检索与 OLAP 引擎深度融合,让向量查询与过滤、连接、聚合一样成为数据库的基础能力。
三条行业路径对比
Milvus · Qdrant · Pinecone
底层围绕 ANN 构建,纯向量检索深度优化。但会成为独立系统,需自行处理数据一致性、联合查询与跨系统运维。
pgvector · MySQL HeatWave
嵌入事务数据库内,部署门槛低。但底层存储和索引并非为大规模向量负载设计,扩展性与并发能力有限。
SelectDB / Apache Doris
直接复用 OLAP 引擎的列式存储、分布式执行与向量化计算,天然适合向量与结构化过滤相结合的混合查询。
核心技术
1. IVF 索引:比 HNSW 更低的成本
主流 HNSW 算法虽召回率高,但图结构必须常驻内存,10 亿向量场景下索引内存接近 1TB。IVF(Inverted File Index)通过 K-Means 聚类将向量空间划分为多个桶,查询时仅扫描最近的 nprobe 个桶,大幅降低内存占用与查询开销。
2. IVF_ON_DISK:磁盘分层存储突破容量上限
内存保留聚类中心与热数据缓存,磁盘保存倒排列表与向量数据。查询时热数据命中缓存,冷数据按需从 SSD 读取,在普通商用机器上即可支持十亿级向量检索,QPS 接近纯内存方案。
3. PQ 量化:48 倍压缩比
乘积量化(Product Quantization)将向量切成多个子向量分别聚类编码,1 个 768 维向量从 3072 字节压缩至约 64 字节,压缩比接近 48 倍,进一步提升存储效率。
4. ANN Index Only Scan:4 倍性能提升
类似关系数据库的覆盖索引优化——如果查询只需 ID 和距离值,无需回表读取原始向量,直接利用索引内容完成计算。官方基准测试(100 万向量、768 维、TopK-10):
900 QPS · 97% 召回率
相比 Standard Path 整体性能提升约 4 倍
核心能力
统一混合检索
向量检索、全文检索、结构化过滤在一条 SQL 中完成,无需多系统串联,彻底消除跨系统数据一致性问题。
十亿级向量规模
IVF_ON_DISK + PQ 量化组合,在普通商用硬件上即可支持十亿级向量数据,存储成本可控。
灵活的距离度量
支持 L2、余弦、内积等多种距离度量方式,适配不同模型(OpenAI、智谱、百川等)的 Embedding 输出。
动态召回率调节
nprobe 参数可运行时动态调整,同一套索引即可在召回率与延迟之间实时平衡,适应在线与离线不同场景。
实时向量写入
支持实时流式写入与秒级可见,新产生的向量数据即刻可查,满足 RAG 场景对数据时效性的要求。
生态系统兼容
兼容 MySQL 协议与 SQL 语法,无缝集成现有 BI 工具、数据管道与 AI 框架(LangChain、LlamaIndex 等)。
典型应用场景
RAG 知识库检索
文档 Embedding 与元数据存储于同一张表,一条 SQL 完成语义搜索 + 权限过滤 + 时间范围筛选,支撑企业级 AI 问答。
多模态搜索
文本、图片 Embedding 统一存储与检索,支持以文搜图、以图搜图等跨模态应用,结合结构化标签实现精准过滤。
智能推荐与风控
用户行为 Embedding 实时写入,向量相似度 + 数值范围过滤实现毫秒级实时推荐与异常检测。