对话阿里云和李菲菲:关于云原生数据库的五个预测

作者:王会贤

数据存储、数据分析、数据安全...现在围绕“数据”的话题越来越多，离人们的生活越来越近。

从陌生到熟悉，数据不仅“出圈”，甚至已经站到了C位。去年，中央发布的《关于构建更加完善的要素市场配置体制机制的意见》明确提出，数据成为继土地、劳动力、资本、技术之后的第五大生产要素。

进入信息时代后，数据库、操作系统和中间件作为计算机最基础的三大软件，支撑着企业的正常运转。

当数据成为生产要素后，必然会迎来爆发式增长，企业的数据存储和处理需求将进一步释放。更重要的是，疫情加快了数字化转型的步伐，加快了企业上云的速度。

从信息化到数字化，时代的变化总会带来商业世界的变化。如何使用云原生架构下的数据库，成为企业的痛点，也是云厂商的机会。亚马逊AWS CTO沃纳·威格尔曾多次强调:“数据库是云计算的终极之战。”

数字智能时代，云的原生意味着什么？云原生数据库相对于传统数据库的核心优势是什么？把数据库搬到云端是云原生的吗？基于这些问题，雷锋网与阿里巴巴集团副总裁、阿里云数据库产品事业部负责人李菲菲展开了对话。

国产云原生数据库，摆脱“切肤之痛”

如今，数据库的商业世界因为云的出现和发展而分为两派。

一个是以Oracle为代表的传统商业数据库，一个是以国外的AWS和国内的阿里云为代表的云原生数据库，都是“IOE革命”的产物。

其实早期比较热的数据库有三种:层次数据库、网络数据库、关系数据库。

在《浪潮之巅》一书中，作者吴军写下了这样的观点:“甲骨文的崛起很大程度上取决于其对关系型数据库市场前景的第一眼，在商业模式上优于IBM。”

所以在云原生数据库入世之前，数据库的世界一直是Oracle的天下，国内大部分互联网公司不得不采用Oracle+IBM小型机+EMC的模式来维持正常运营。

高昂的成本让对数据库需求巨大的互联网巨头“吃不消”。

2009年，阿里巴巴的Oracle RAC集群节点数量达到创纪录的20个。但由于Oracle不具备灵活扩展的功能，只能根据峰值流量购买小型机和数据库，导致阿里将业务增加带来的大部分利润支付给Oracle。

第二年，阿里开始走上“IOE”之路，基于开源的MySQL构建AliSQL，并成功通过淘宝双11的测试。国产云原生数据库正式摆脱“皮肤之痛”，逐渐被市场认可。

另一方面，国外AWS在2015公布了基于云计算的自研数据库Amazon Aurora。Aurora是一个关系数据库，可以跨三个可用区域复制六份数据，最大的特点是高性能和高可用性。

随着云计算巨头的进入，云原生数据库一步步成为国内外主流。根据Gartner的预测，到2021，云数据库在整个数据库市场的占比将首次达到50%，到2023年，75%的数据库将运行在云平台上。

至于云原生数据库，随着逐渐出圈，也让人们关注的焦点从“是什么？”改成“还有什么问题可以解决？”

但是，云原生数据库存在数据孤岛的问题。如果无法访问多个数据系统，企业在数据处理和数据管理方面将“压力巨大”，甚至存在数据安全隐患。

传统数据仓库一般基于T+1数据集成构建离线数据仓库，以支持企业的各种分析和服务。传统的解决方案不仅会影响在线业务的稳定性，而且难以支持企业的实时需求。

因此，在李菲菲看来，云原生数据库已经到了2.0阶段。现阶段要解决的问题就是上面提到的痛点。

9月26日，在阿里云数据库创新云峰大会上，阿里云发布了首个一站式敏捷数据仓库解决方案。该方案结合一站式数据管理平台DMS和云原生数据仓库AnalyticDB(简称ADB)实现仓库集成的技术架构，提供在线数据实时入库、T+1定期快照、按需开仓等。数据延迟低至秒，持续使业务在线，让企业在线数据释放更大价值。

与传统解决方案相比，阿里云一站式敏捷数据仓库解决方案具有四大核心优势:

1，对业务端影响不大，不会因为数据聚合和实时处理而影响业务端的正常运行，CPU和内存占用小于5%；

2.保证了交易顺序和数据准确性，处理环节短，支持在线数据实时处理和卸载，效率更高。数据传输效率100m/s，数据延迟在10秒以内；

3.支持复杂的实时数据处理和计算逻辑；

4.低代码操作可以大大降低实时仓库的建设难度，提高建设效率，支持企业数字化转型过程中的各种实时场景。

除了实时的统计分析场景，企业还需要构建周期性的全快照，以满足周期性数据分析的需求。

传统的几个仓库定期总集成方案会对生产业务产生稳定的影响，总集成的时效性差，不能满足客户随时进行数据回溯的业务需求。

针对T+1的周期集成场景，一站式敏捷数据仓库解决方案支持基于拉链表的T+1全口径数据快照，用户可以通过简单的几步操作，根据需要生成各时期的全口径或增量快照。

此外，业务还可以根据需要进行任意时间点的数据回溯，快速解决数据异常问题。

在谈到数据库的未来发展趋势时，李菲菲提到了以下五点:

1，云原生+分布式一定是数据库的标准，分布式已经是必须了。分布式数据库由几个相互连接的数据库组成，而面向用户的数据库显示为单个数据库。云原生分布式数据库具有易用性、高可扩展性、快速迭代、节约成本等特点。，从资源池化到弹性扩展，再到智能运维，再到离线整合，解决企业用户的核心诉求。

2.AI for DB(数据库)和DB for AI将是主流趋势。更重要的是利用AI让数据库运维智能化，尤其是在云原生、分布式的前提下，因为数据库不仅灵活、可用、可扩展，部署后应用和运维的复杂度也大大降低。在数据库中，面对越来越多的非结构化数据，分析能力非常重要。

3.在当今环境下，数据的安全性和可靠性变得越来越重要。如何保证整个数据库系统在处理数据链接的过程中能够提供加密能力、多方安全计算能力和隐私保护能力，也是一个非常重要的趋势。

4.多模式数据处理能力将变得越来越重要。例如，新数据库的多模态处理能力将在新能源汽车企业的标签、智能电池预测等应用场景中发挥越来越重要的作用。

5.一个数据，多个数据处理引擎:实现仓库集成、仓库联动、仓库开放、数据无缝流转。

上述判断也从侧面反映了阿里云数据库的趋势，这一点毋庸置疑。但除此之外，业界最关心的还是开源。

这半年来，国内众多厂商纷纷提出开源策略，背后的原因显而易见。为了创造一个生态。在今年的阿里云峰会上，阿里云智能总裁、达摩院院长张建锋将阿里云2021年发展的关键词概括为:服务好、基础深、中国厚、生态强。

做好服务和生态已经成为当今厂商的目标，开源是最好的选择。

当雷Feng.com问到“阿里云数据库未来会开放所有能力吗？”当被问到这个问题时，李菲菲给出的答案是:“不会。”

之所以这样回答，是因为他对开源有一些判断和看法。

李菲菲说，这些部分是阿里云数据库的商业版本。

事实上，业内大多数数据库厂商都不会对自己的核心能力进行开源，比如TiDB和TiFlash的核心控制组件。

不像MongoDB、Cassandra、CouchDB这样的数据库厂商是靠开源起家的，开源只是阿里云数据库的策略，并不是阿里云数据库的命脉。

几年前有业内人士表示，国内数据库在面对开源时，首先需要解决信任、开源知识产权等问题。“开源将使供应商更认真地考虑版权和专利。事实上，选择开源后，他们对数据库厂商提出了更高的要求。”

李菲菲认为，开源只是一种选择，数据库开源成功不代表商业化就能成功，也不代表厂商不先进。

更准确的说，开源只是一种有效的手段。

最后，阿里云数据库希望客户能通过开源版本快速使用阿里云数据库产品的技术，并能参与技术产品的迭代过程。在一些高层次的能力上，他们可以借鉴团队的专业能力和阿里云的服务能力，成为很好的商业伙伴。这是李菲菲和阿里云数据库关于开源的一些基本思路。雷锋网雷锋网雷锋网