顺势而为,一文看全国产数据库技术趋向

(ChinaIT.com讯)每一个应用都需要数据库。面对多达十几种的数据库,以及上百家的供应商,作为一个企业用户,你会不会有选择困难症?

一方面,企业用户是选择关系型数据库,还是NoSQL数据库?是选择免费的开源数据库,还是商业数据库?是选择本地部署的,还是让数据库上云?

如果选择上云,用户是选择数据库托管服务,还是云原生数据库?

另一方面,数据库很难管理,用户要去设置,要打补丁,要做调优,还要去做容错等。

虽然十多年之前,亚马逊云科技就开始在业界推出了数据库托管云服务Amazon RDS,帮助用户能快速解决这些问题,但是大部分的关系型数据库仍然是本地部署的,依然要面对层出不穷的数据库问题。

虽然企业客户正在快速地向开放式开源数据库引擎如MySQL等转移,但是在实际应用中,开源数据库很难用,用户自己很难搞定。

作为企业的CIO,如果弄清了数据库技术的发展趋向,那么选型或许会变得简单多了。

01

云原生数据库代表着未来

Gartner的一份报告称,到2022年,所有数据库中的75%将被部署或迁移到云平台,而只有5%的考虑返回到本地部署环境。到2023年,云数据库管理系统的收入将占DBMS市场收入总额的50%。

随着云计算的迅速发展和广泛应用,数据库正朝着“云+数据库”的方向演进。随着开发者使用习惯的变化以及传统行业的行业云构建的趋势,未来的数据库模式将逐渐云化。

传统数据库越来越不能适应云在扩展性、可靠性和规模化的优势,云数据库应运而生。

现在,中国的数据库产品正在发生天翻地覆的变革,云数据库有望成为市场的主流,引领着用户的应用创新。同时,云原生数据库代表着未来。

云数据库的发展经历了几个阶段:目前正在经历从第一阶段“数据库上云”,即从数据库到云数据库;第二阶段从云数据库到云原生数据库的变革。

云原生数据库的核心理念就是利用云计算的本质,运用虚拟化的技术,将数据库的核心资源进行池化,以此解决资源弹性、高可用的挑战。同时,通过存储与计算分离与解耦,灵活弹性地满足客户业务需求。

而云原生数据库汇聚了诸多优势,如天然拥有云计算的弹性能力,兼具开源数据库的易用、开放特点,以及传统数据库的管理和处理性能等优势,是新业务上云的最佳选择。

根据IDC的数据,阿里云排名中国数据库行业第一,主要得益于其领先的云数据库技术以及面向行业需求布局的数据库产品矩阵和解决方案。

除了智能化的企业级云数据服务RDS之外,阿里云自研了面向不同核心应用场景的云数据库产品,形成了以PolarDB、AnalyticDB、Lindorm为核心的面向在线交易处理、分析与多模、HTAP、物联网等不同场景的云数据库产品矩阵。

其云原生数据库技术也向NoSQL领域、数仓、数据湖等发展。在NoSQL领域,阿里云数据库云原生多模数据库 Lindorm,主打帮客户提供“存得起、看得见”的非结构化、半结构化的数据存储与处理解决方案,并以简易、高效底方式处理和查询数据,比如时序、日志、文档等。云原生内存数据库Tair,100%兼容开源社区版的 Redis,让数据实时在线。

在数仓方面,AnalyticDB更是具备存储计算分离、存储池化、弹性、高可用、离在线一体化的大数据处理能力,用数据库的方式支持客户去处理传统大数据的问题。

腾讯云原有的TDSQL、TBase、CynosDB三大产品线将统一升级为“腾讯云企业级分布式数据库TDSQL”。全新升级后的腾讯云TDSQL将涵盖分布式、分析型、云原生等多引擎融合的完整数据库产品体系。

融合、自治、效用是腾讯云原生数据库的三大特点,它具有数据库引擎加云存储的计算与存储分离架构,能对数据库进行全生命周期智能自治管理的优化与调优,以及实现按真实使用量计费的商业模式。

据透露,今年发布的TDSQL Serverless,是国内首个Serverless架构数据库引擎,能为腾讯云上超过100万的企业和开发者提供一站式云数据库服务。

华为已经持续战略投入GaussDB数据库10多年,GaussDB是结合云原生与AI的技术倾力打造的数据库,涵盖了关系型与非关系型的全场景业务。华为云发布了云原生数据库GaussDB(for openGauss),主打政企核心业务负载的金融级分布式数据库。

亚马逊云科技共有八个类别的数据库,基本涵盖了各种常见的数据库,除了关系型数据库,还有键值数据库、宽表数据库、文档数据库、内存数据库、图数据库、时序数据库以及分类账数据库,其中,关系型数据库种类最多,用得人也最多。

超过十万客户选择在云原生数据Amazon Aurora上运行数据库工作负载,具有最高等级的商业数据库一样性能和可用性,而成本仅需商业数据库的1/10,使之成为AWS历史上增长最快的数据库服务。

在今年的亚马逊 re:Invent上,AWS发布了Aurora Serverless v2,可在不到一秒内扩展至支持数十万个事务,与按业务高峰需求进行容量配置的方式相比,可节省高达90%的成本。

数据库服务已经成为主要公有云服务商的主要收入来源,云服务商以云原生的数据库产品、无服务器的部署方式等,已经收获了数据库市场一半的份额,也将成为未来数据库市场最大的赢家。

02

分布式满足大数据量、高并发需求

除了云原生,分布式是数据库另一个技术方向。云原生分布式将云原生和分布式的技术深度融合,将share nothing和share everything 架构深度融合,创造一个新的数据库神话。

数据库起初都是单机形式,主要服务金融、电信等大型企业。2000年后随着在线业务的蓬勃发展,很多系统都面临处理高并发、大数据量、超高峰值等挑战,数据库开始了分布式之旅。

分布式数据库是指数据在物理上分布而在逻辑上集中管理的数据库。通过分布式的方式,可以将计算和存储进行水平拓展,满足业务的大数据量以及高并发需求。

其中,分布式分析数据库主要解决海量数据的存储、查询分析的需求,主要是应对扩展性、高可用等挑战;而分布式事务数据库主要解决分布式事务的问题。目前一些企业推出了将分析与事务处理融合的分布式数据库系统。

分布式数据库首要的是透明性,对于用户来说,相当于一个单机数据库。另外数据冗余性,通过多副本来实现系统可靠性和可用性。同时易扩展,通过水平扩展来提升整体的处理能力。

2017年阿里云就在国内发布了自研的云原生分布式数据库PolarDB,使用自研分布式存储引擎、计算和存储分离的创新架构等,性能更快,在100TB的数据容量上提供了10倍于传统商业数据库的性价比,当时性能达到AWS Aurora的2倍。目前兼容MySQL、PostgreSQL、高度兼容Oracle语法的三种数据库引擎。

阿里蚂蚁金服OceanBase被称为完全自主研发的金融级分布式关系数据库,在普通硬件上实现金融级高可用,在金融行业首创“三地五中心”城市级故障自动无损容灾新标准,同时具备在线水平扩展能力。

目前腾讯云数据库TDSQL已经包括具有金融级分布式产品序列TDSQL,单体实例可支撑百T百万QPS的云原生序列TDSQL-C,可应用于百P级复杂场景的分析型序列TDSQL-A等,可兼顾各方面需求、实现极致的性能与通用性兼得的产品能力族。

青云QingCloud与其他云数据库服务一样,也提供丰富的数据库品类服务,关系型数据库服务就包括分布式版基于MySQL的RadonDB,以及基于PostgreSQL的PolonDB。

RadonDB基于MySQL数据库开发,采用分布式、云原生的设计思路,既能延续 DBA的使用习惯,又能适应全新的分布式架构。

星环科技拥有两款自研的关系型分布式数据库,一款是具备多模型、联邦学习等特性的高性能分析型数据库ArgoDB;另一款是支持SQL标准语言的交易型分布式数据库KunDB。

巨杉分布式数据库借助自主专利的STP分布式序列时钟协议,实现RR级事务隔离及跨引擎事务一致性能力,为数据中台提供联机湖仓生产落地的最佳实践。

开源的分布式数据库TiDB专注于实现高性能、在线弹性扩容和分布式事务特性,提供全球最顶级的跨数据中心容灾分布式 NewSQL数据库。

数据库未来的发展趋势是将云原生能力和分布式能力合二为一,既提供分布式的水平拓展能力,也提供云原生的弹性高可用能力。

03

让数据库使用维护智能化

AI技术正在深刻影响着数据库的未来发展,AI技术与数据库的融合是当今数据库研究的最前沿,可以说AI技术将推动数据库的再一次进化。

据专家介绍,AI技术与数据库的融合有两个发展方向。

第一,人工智能可以使数据库更加智能(AI for DB),即数据库的智能化。也是本文讨论的重点。

阿里云的李飞飞就认为,数据库的智能化就是利用AI机器学习的技术,让数据库系统能够实现“自动驾驶”,让开发者可以更好地管理和使用数据库的服务。

例如,传统的经验数据库优化技术包括成本估算、联结选择、旋钮调优、索引和视图顾问等不能满足大规模数据库实例、各种应用程序和多样化用户的高性能需求,特别是在云上。而基于机器学习的技术可以缓解这个问题。

第二,数据库技术可以优化AI模型(DB for AI)。例如,AI很难部署,需要开发人员编写复杂的代码和训练复杂的模型。数据库技术可用于降低使用人工智能模型的复杂性,加速人工智能算法,并在数据库内提供人工智能能力。

目前很多数据库企业都在利用AI优化数据库,如数据库智能配置、数据库智能优化、数据库智能设计、数据库智能诊断等。

阿里云基于云原生打造了云原生智能化管控平台DAS(Database Autonomy Service,数据库自治服务),可以做到自感知、自决策、自恢复,帮客户尽可能地简化数据库运维管控等一系列流程,提升效率、降低成本。

未来,数据库自治服务DAS将进一步结合云原生数据库的弹性能力,向用户提供智能化的Serverless数据库服务。

除了像SQL优化和索引优化这些常见的方法以外,数据库参数调优也是提升数据库性能的一个重要手段。但是参数调优是一个复杂、效率低并且成本高的问题。

腾讯云为此研发了一个新的参数调优工具CDBTune,它使用了深度强化学习的方法,自动调优数据库参数。相比于现存的方法,CDBTune无需细分负载的类型,也不需要积累大量的样本,可以智能学习参数调优的过程,获得一个比较好的参数调优效果。

众所周知,对于数据库研发团队而言,不精通SQL编程技术、环境维护工作量大、测试数据修改经常冲突、业务版本交付慢等,都是令人头痛的问题。对运维团队而言,SQL上线后性能差、数据库变更时间长、数据库变更风险高、故障定位难,应急处理慢,则是梗在心头的一根刺。

针对企业普遍面临的这些问题,华为云数据库推出两大神器:智能运维助手云DBA,和堪称DevOps最佳实践的数据库管理工具DAS,以智能化和自动化服务,支撑企业无忧上云。

华为云DBA通过智能诊断、百宝救护箱、实时预测、系统监控等功能,为用户提供从问题诊断到方案推荐,从上线前调优到上线中监控、再到上线后预测的业务研发部署流程全方位呵护,将数据库运维人员从纯人工手动操作中解放出来。

华为云数据管理服务DAS,则通过开发自助、专职 DBA、版本管理部署、SQL审核变更、自动化部署等服务,帮助企业实现 DevOps 实践能力的全面提升,大幅提高工作效率。

正像前文所言,AI与数据库的融合有两个方面,其中AI for DB是目前数据库供应商主攻的方向,未来的成果会越来越多。

04

开源和商业互相促进

相对于商用数据库市场,开源数据库领域所涉及的数据库高达几百种。一家研究机构在2019年研究了市场占有率最高的几种开源数据库。结果发现:

一是开源数据库市场高度集中,2019年,前三大开源数据库市占率为 57.3% ,前五大占有率为76.8%。

二是在开源数据库中,关系数据库仍然占据重要地位。其中占据前两位的MySQL PostgreSQL都是关系型数据库,非关系型数据库MongoDB 和Redis排名第三和第四。

最近几年,众多的企业将自研的数据库开源,主要是想利用开源的模式带来的好处,如底层技术开源,节省开发成本;降低销售成本,快速取得回馈;降低使用成本,减少迁移成本等。

但是利用开源,数据库服务商依然可以利用各自确立的商业模式,获得商业利益。如支持+服务类型,为用户提供生产级的服务支持响应、技术培训等获得收入;基础核心部分采用开源策略,但增加部分商用功能或独立商业版本。

最近几年,中国数据库企业纷纷将其自研数据库开源,并形成一股潮流。

腾讯云自主研发的分布式数据库引擎TDSQL PG版从2019年正式开源(开源代号TBase)开始,依托社区,在经过内部业务系统的实践检验后,基本保持每月一次小型升级、每半年一次重大升级的节奏,助力众多开发者应用前沿数据库技术,推动开源社区生态不断完善。开源不久,就受到了欧洲航天局、国家天文台,以及医疗健康、零售等各个行业用户的青睐。

今年8月TDSQL PG版推出重磅升级:上万张表访问场景下,内存占用节省60%;查询性能提升百倍;SQL语句兼容性增强等。同时,大力提升原有数据库版本在分布式场景下的易用性。

阿里云对外开放关系型数据库PolarDB for PostgreSQL的源代码,将阿里内部沉淀多年的技术分享出来,服务百万开发者,适用于中大型企业核心业务场景。开源遵循Apache Version 2.0协议,以全共享并尊重原作者著作权的模式开源,代码可以修改和再发布。

蚂蚁集团自研数据库产品OceanBase也开源。OceanBase开源采用业界通用Open Core模式,采用木兰公共协议MulanPubL-2.0版,允许所有社区参与者对代码进行修改、使用和引用。

青云QingCloud也宣布新一代分布式关系型数据库——RadonDB开源。RadonDB基于MySQL数据库开发,采用分布式、云原生的设计思路,既能延续DBA的使用习惯,又能适应全新的分布式架构。

TiDB是PingCAP公司自主设计、研发的开源分布式关系型数据库,是一款同时支持在线事务处理与在线分析处理 (HTAP)的融合型分布式数据库产品。

目前来看,数据库开源可以吸引更多的人来贡献和使用,帮助产品更快迭代。产品迭代更快也能带来商业模式的收益,所以开源和商业是互相促进的。

附录:

中国数据库市场的主要服务商

ChinaIT.com 网站文章仅限于提供更多信息,不代表本网站立场观点。如需转载,请注明来源 。转载之文章来源于互联网,如有版权问题,请与我们联系:content@chinait.com。

扫码关注ChinaIT小程序,随时掌握最新IT资讯