同花顺知识图谱团队的图数据库选型

本文整理自同花顺知识图谱团队在 nMeetup·杭州场的演讲

这次分享主要站在（意向）用户角度讲下技术团队选择数据库产品时，会有哪些考量点。在同花顺知识图谱团队开启知识图谱战略之后，一开始使用的是 Neo4j，但在使用过程中发现随着金融业务的增长，Neo4j 并不能很好地应对增长的业务。所以，技术团队出了一个解决方案：数据库和应用层之间增加多级缓存。虽然缓存能一定程度缓解问题提升性能，但是它其实会引发更多的问题。

于是，我们开始思考有没有一款图数据库能满足目前的业务需求之外，还能应对未来的业务增长。至此，知识图谱团队开始了选型之旅。

如何选图数据库

同花顺知识图谱团队的图数据库选型

选型这块，主要分为了：How 怎么选、What 选什么、Why 为什么这三部分内容，此外最后讲述下同花顺这块的知识图谱团队和团队业务。

选型依据这块，主要分为：

功能强大：具备极佳的性能
商用成熟：产品成熟
社区活跃
数据量大：能应对目前的业务量，以及未来的业务增长
开源优先
技术支持
国产优先

选图数据库和选股票类似，我们会考虑一些消息面、基本面和技术面，当然二者之间还是有区别的。图数据库的三面主要是下面几点：

消息面：是否满足选型依据
基本面：是否能够稳定持久
技术面：是否达到技术要求

消息面

同花顺知识图谱团队的图数据库选型

在图数据库消息面这块，一般我们会上一个网站：DB-Engine，可以看到排名第一的是 Neo4j，毕竟是最早的一款图数据库相对成熟。一圈调研下来，发现他们营销做得不错：在百度或者 Google 上面搜索图数据库，就能看到他们的广告。

在这个 DB-Engine 排名上，可以看到其他的像是比较出名的（排名第七）JanusGraph，我们如何在这么多的数据库中确定我们最终使用的数据库呢？

同花顺知识图谱团队的图数据库选型

插个题外话，这里说下 DB-Engine 的排名规则，它的排序依据是 Google、Bing 搜索引擎的搜索结果，Google Trends 里的关键词趋势，像 Stack Overflow、DBA Stack Exchange 上的讨论，Indeed 之类的招聘网站的招聘数，Linkedin 里的职位数以及社交网络主要是 Twitter 的讨论量。

我们可以发现一个问题：上面的网站要么是国内无法访问的或者是相对小众的网站。

所以 DB-Engine 上面的排名，对国内的一些产品来说，其实是有失偏颇的，至少它的数据肯定是不能反映它的一些真实情况的。如果考虑到国内的一些使用情况的话，这 DB-Engine 里百度出品的 HugeGraph，以及 NebulaGraph 排名肯定是要上升好多档。

说完 DB-Engine，再说下我们针对 DB-Engine 上的信息做得简单筛选：

同花顺知识图谱团队的图数据库选型

上面这些数据库从消息面上是不满足同花顺知识图谱团队的需求。而这份结果也再次证明了 DB-Engine 的排名结果并非精准，比如：排名在 NebulaGraph 之上的一些数据库已经是一些不活跃、不再更新的产品了。以上截图信息都来源于 DB-Engine 公开信息。

基本面

同花顺知识图谱团队的图数据库选型

经过消息面之后，我们筛选出了 Neo4j、Orient DB、Dgraph、JanusGraph、HugeGraph、Nebula 等 6 款图数据库产品，这 6 款产品相对活跃，支持多语言。

按照产品的最早发布时间，排在最前面的是 07 年发布的 Neo4j，然后依次是 OrientDB、Dgraph、JanusGraph、HugeGraph，以及 19 年发布的 NebulaGraph。排名越靠前的数据库产品，它的支持语言程度越高，系统功能也会相对更加完善。这块也是“后起之秀”新数据库需要去完善、改进的地方。

同花顺知识图谱团队的图数据库选型

而像 HugeGraph、Neo4j 很多产品功能只是在商业版本（企业版）才会支持，我们还需要了解他们的商用版本内容以及报价。

同花顺知识图谱团队的图数据库选型

上面这张图比较有意思，它指出了各类图数据库在不同场景下支持的数量级：比如 Neo4j 是支持十亿的点、万亿的边，毫秒级的响应时间。OrientDB 的数据就比较有意思了，支持无限量级的数据，我不知道它是如何做到这个数值。Dgraph 并没有明确数据量情况，只是说提供了一个 Google 生产级别的数据，支持实时查询，以及 TB 级别的结构化数据。

后面两款一个是百度开源的 HugeGraph，一个 NebulaGraph，Nebula 这边还是比较占优势的——它提供千亿级别、万亿边关系的数据量支持情况。

技术面

同花顺知识图谱团队的图数据库选型

经过消息面、基本面，其实没有一个非常明确的胜出者。我们看下技术面这块，由于 HugeGraph 和 JanusGraph 架构类似，OrientDB 技术支持一般，所以在技术面这块我们着重考察：Neo4j、HugeGraph、NebulaGraph 这 3 款图数据库。

Neo4j 只支持同构部署，不支持异构部署，所以不能发挥每台机器的特异性，比如：有的机器它可能是计算型的，有的机器 IO 强，如果按照 Neo4j 的部署设定，这就要求每台机器情况等同。Neo4j 的分析能力和性能提升，主要依靠两个 Fabric 组成的虚拟机提供区域分区能力（上图绿色部分）。

在架构层面，NebulaGraph 和 HugeGraph 的存储计算分离的架构更有优势，至少使用者可以针对业务部门的实际情况搭配机器配置。

同花顺知识图谱团队的图数据库选型

HugeGraph 在存储这块支持多种存储引擎，可对接多种第三方引擎，然后在此基础之上加上了一个计算框架，在计算框架之上是接口层，例如：Huge Console、Huge Loader 等等。

在计算这块，主要基于底部的存储引擎提供了 OLTP 和 OLAP 能力。这里 HugeGraph 的存储引擎不是用自己的存储引擎，主要还是依赖于其他的存储引擎，这里可能不如 Nebula 用自己的存储引擎。举个例子，我们用的第三方存储引擎是 HBase，HBase 的实时性是非常差的，这时候用它做存储引擎就会影响到上一层的性能。

同花顺知识图谱团队的图数据库选型

NebulaGraph 这里也是一个存储和计算分离的一个架构，每一层都可无限扩展，你的存储不够就加存储，计算不够就加计算，相对而言还是一个比较先进的架构。

讲完架构之后，同花顺这边参考了其他技术团队的测试结果：

同花顺知识图谱团队的图数据库选型

这是腾讯云安全团队在 v1.x 版本的性能测试。

同花顺知识图谱团队的图数据库选型

这是美团 NLP 团队做的 Nebula、Dgraph、HugeGraph 的性能对比：在这里，HugeGraph 的存储引擎用的是 HBase，而 Dgraph 和 NebulaGraph 用的是 RocksDB，就像之前说的那样 HBase 在实时性这块是一个短板。如果数据库存储引擎层面，3 个数据库都是用的 KV 存储引擎的话，结果不会产生如此大的一个量级差距；

同花顺知识图谱团队的图数据库选型