首页 证券 正文

「000929股票」数据仓库、Snowflake和令狐冲

wx头像 wx 2023-04-15 18:34:29 6
...

作者:郭华,头图来自:视觉我国

数据仓库简称数仓,是数据库的一个子范畴,在这个范畴里,现在最耀眼的明星是Snowflake。

Snowflake2012年建立,2014年推出榜首代产品,2017年上榜Gartner全球数据仓库法力象限并于2019年成为领导者,2020年上市,首日暴升111%,成为有史以来IPO规划最大的软件公司,市值一度逾越IBM,并在本年被DBengines评为2021年年度数据库。

Snowflake有着峻峭的生长曲线,而在这背面至少有两个点值得重视,一是它的自我实现,二是它的典范效应,前者是个精彩故事,后者则展现了与某种恐惧力气的共处之道。在这两个点上,它都与令狐冲十分相似,能够说Snowflake之于数据仓库,恰如令狐冲之于笑傲江湖。

一、华山派和思过崖

令狐冲的兴起之路上有两个要害节点,分别是华山派和思过崖。

令狐冲在华山派长大,是华山派大师哥,师父是气宗的岳不群,也跟风清扬学过剑宗的独孤九剑,所以不论他后来怎样闯荡江湖,华山派都是他的起点。

后来他上了思过崖,在魔教长老留下的石刻上看到了华山功夫的破解办法,一招一式翔实之极。这让他大为震动,开端觉得华山派不过浪得虚名,不只自己功夫不可,师父的功夫也不可,遇到高手“假使不愿服输,便只要自杀了”。所以思过崖是他的开悟点,自思过崖后,他对全国的功夫有了更清醒的观念。

和令狐冲相同,Snowflake也有这么两个点,而且这两个点都能在Snowflake的CTOBenoit身上找到。

Benoit是Snowflake的创始人,是数据库范畴的尖端工程师。他此前一直在Oracle作业,是Oracle架构师,担任OracleRAC,他对Oracle的重要性被描述为梅林之于亚瑟王。所以由于他,Snowflake才能在根底技能上从一开端就就处于十分抢先的位置。客观的说,Oracle便是Snowflake的起点。

Benoit也碰到过思过崖,只不过这个思过崖不是石壁,而是Oracle的客户。在Oracle的十年里,Benoit重复听到客户讲现在的产品太杂乱、价格太贵,重复讲云,讲Hadoop,讲他们对Oracle的应战。但Oracle对这些东西的表现,哪怕不算无动于衷,也是掉以轻心——工程师很少开发新东西,日常作业便是修正Bug,而且公司仍然要依据自己墨守成规的节奏,每四年进行一次首要的晋级……总归,他感觉自己正在坐失机宜[1]。

所以他决议要出来自己做一个真实的云数仓。

二、江湖根由

Benoit出来创建Snowflake的时分是2012年,其时数据仓库商场上存在着三个门派。

这三个门派也代表了数据仓库开展的三代。

榜首代是传统派,起源于上世纪八十年代,代表公司是Teradata。

核算机诞生后,使用程序就有了存储和在线处理数据的需求,所以以Oracle、IBM为代表的联络数据库就呈现了。它们成功后不久,Teradata敏锐的发现,除了数据存储外企业还有数据剖析的需求。所以它瞄准这一点,在1984年推出了榜首代数仓产品DBC/1012。得益于其立异性的集群架构,DBC/1012能够处理高达1TB的数据,在核算机硬盘只要几MB的其时,这显得反常先进。

Teradata很快占据了数仓商场,然后Oracle、IBM,以及其他一些独立公司也渐渐开端进来,不过就像Benoit担任过的OracleRAC相同,根本上我们都参阅了Teradata的MPP架构。所以这些公司是数仓的传统派,就像笑傲江湖里的武当、少林和五岳剑派相同,历史悠久,影响力大,是数仓商场的名门正派。

第二代是Hadoop派,代表公司Cloudera。

Hadoop派的呈现是两股潮流开展的效果:榜首个是数据,互联的迸发发生了海量的非结构化数据,而对这部分数据的剖析需求逾越了传统数仓的处理才能;第二个是开源,在理查德·斯托曼建议的自由软件运动下,开源越来越成为干流的根底软件开发形式。

在这两个潮流的影响下,2006年美国工程师DougCutting参阅Google的大数据处理形式,开发了开源软件Hadoop。凭仗强壮的数据处理才能和敞开源码的特性,Hadoop很快席卷全球。2008年,依据Hadoop的开源公司Cloudera建立,一年后,DougCutting参与Cloudera任首席架构师。后来在Hadoop之上,呈现了以Hive、Impala等为代表的SQLonHadoop产品,它们弥补了传统数据仓库在海量非结构化处理上的缺位,逐步在互联公司里成为干流。

Hadoop系列有点像笑傲江湖里的福威镖局,实力不大,本想偏居于江湖一角,但揭露的源代码就像祖传的辟邪剑谱相同,被江湖各派所觊觎,树欲静而风不止,总是血雨腥风。

第三代是云核算派,代表公司AWS。

亚马逊的AWS揭开了万物上云的大浪潮,使用上了云后,就发生了两个天然——数据天然在云上发生,云核算公司天然想供给更多产品。所以环顾四周,它就看到了福威镖局这个软柿子,2009年,AWS依据Hadoop源码,推出了一个保管在自己云上的产品EMR。

开源协议诞生时并没有考虑到云这种形状,所以严格来说AWS的行为并不算违背协议。但开源届遍及感觉受到了损伤,MongoDB的CEO说每逢一个开源软件流行时,云厂商就会直接拿过来放到自己的云上,然后从中取得大部分价值,而且从不回馈社区。Redis的CEO则直言自己像个傻子,云拿着自己的东西大赚了一笔。

从这时起,云和开源的对立就发生了,云厂商被称为开源吸血鬼。

除了开源软件,云厂商也保管传统数仓。2011年,Amazon出资了ParAccel,2012年,依据ParAceel的技能,AWS推出了自己的云数仓Redshift,从某种意义上来说,Redshift便是一个保管的ParAccel。

所以云核算派的绝技便是保管,简略粗犷但有用,它们和笑傲江湖里的魔教相同,寻求的是千秋万载一统江湖,是江湖中的恐惧力气。在它面前,不论是传统数仓仍是开源Hadoop,都瑟瑟发抖。

Gartner数据库2011-2020全球商场格式

三、吸星大法

在这样的格式下,Snowflake开端了其创业之旅,其实这个进程和令狐冲兴起的进程差不多,简略来说便是练武和交锋。

先说练武,Snowflake有Oracle的根柢,但练的并不满是Oracle的功夫。

和Teradata相同,Oracle用的是MPP架构。形象一点来看,这种架构便是狗拉雪橇,许多狗组成一个狗群,狗群拉着雪橇,假如想拉更多的东西,那就添加更多的狗。狗便是核算机,狗群便是核算机集群,对外供给的产品便是雪橇,数据剖析才能便是雪橇的装载量。

但狗拉雪橇是有问题的,由于狗跟狗之间才能不同享,假如某条狗瘸了,整个系统都跑不利索,狗越多出问题的概率就越大,所以MPP架构不能支撑特别大的集群,扩展才能有限。

Snowflake看到了云的优势,更进一步的,它许多选用云的技能,经过存储核算别离的办法处理了这个问题。

它把存储从集群中剥离出来,换成了一致的云存储。还以狗拉雪橇为例,Snowflake的思路相当于把狗做了改造,狗腿换成轮子,狗自身变成“狗力”的标志。一辆雪橇想要多少“狗力”就套上多少狗,轮子则全跑在一个无限延伸的轨道上,并由其供给动力。这个轮子和铁轨构成的动力系统便是云。

凭借云的才能,Snowflake能够供给近似无限的弹性。

在TeradataDBC/1012和Snowflake的架构图中,能够明晰看到两者的差异首要在存储层,Snowflake的DataStorage是一个全体,开端是AWS的S3,现在也支撑Azure、GCP等其他云渠道。

Snowflake产品架构[5]

Teradata产品架构[6]

存储核算别离是一种技能改造,也是一种理念立异,它表现了Snowflake敞开容纳的心态。在Snowflake之前,没有哪家数仓公司敢把自己的存储整个换成S3。

而跟着这种技能改造,Snowflake也改造了自己跟AWS的联络,两者从朴实的竞赛对手,变成对手和客户,乃至是对手跟协作伙伴的联络,由于假如Snowflake卖的好,那天然S3的营收也会添加。

和令狐冲结交魔教的曲洋、圣姑,又学了魔教的吸星大法相同,这种多元化的联络,为将来开展供给了更多或许。

四、少林之战

练武之后是交锋,武要悄悄的练,但交锋的时分越揭露越好,对手越凶猛越好。

比方令狐冲的少林之战,在这场全国英雄都在场,并能决议任我行去留的较量中,他打败了自己的师父岳不群,所以一战成名,全国人尽皆知令狐少侠剑法无敌。

「000929股票」数据仓库、Snowflake和令狐冲

Snowflake也遵从了这种形式。2014年,隐秘开发了两年后,它向商场揭露了自己的产品,尔后就开端不断应战威望。

先是Oracle、AWSRedshift和SQLServer,时刻是2015年,地点在旧金山的VMworld大会。

VMworld大会是VMware举行的全球数字化峰会,数万人参与,影响力相似笑傲江湖里刘正风的金盆洗手大会。在这次会议上,时任SnowflakeCEO的BobMuglia企图从头界说江湖次序,他说只要Snowflake是云数仓,不论Oracle、SQLServer仍是AWSRedshift,都不可。

他批判道,不管任何时分Oracle议论云,它说的都是保管,用户仍然要手动做许多办理作业,而这些作业本该主动完结。他以为Oracle想成为真实的SAAS化云数仓,还有很长的路要走,整个架构都要变,SQLServer也相同。而关于Redshift,他必定Redshift确真实云上做了不少东西,不过由于其架构仍是传统MPP,所以仍然仅是一个保管的ParAccel,作为用户你仍然要清空它、办理它、决议主键的散布……一切你在上云前要做的,你现在仍然要做,你仍然需求DBA。[2]

这次大会的宣传语是“readyforany”,怎样看怎样像Snowflake资助的,有点傲慢。

Snowflake傲慢的底气或许来自团队:Benoit来自Oracle,对Oracle一目了然。BobMuglia曾经是微软的高档副总裁,分管过SQLServer,团队里还有Actian创始人——Redshift依据ParAccel,而ParAccel后来卖给了Actian。所以理论上来说,它的确能够对这些对手的问题知道的一览无余。

然后它又应战了数据仓库的传统老迈Teradata。

它写了一个小册子,用两个极具羞辱性的问题“那个Teradata数仓真的值一千万美金吗?”、“你的事务真的应该依靠来自1979年的技能么?”来引战Teradata。Teradata当然十分愤恨,他们逐条进行了一系列回复,但这正好上了Snowflake的当。

Snowflake碰瓷Teradata[7]

和VWworld大会相同,Snowflake这么放肆的意图其实是“引流”。不少人顺着Teradata的回复找到了Snowflake,效果在猎奇的体会往后,就被其超卓的产品体会“留存”了。

所以狂是狂,但实力也是真的有,在引战和争议中,Snowflake快速生长。

数仓范畴有个Gartner法力象限,它从高到低把产品分为利基玩家、远见者、应战者和领导者四个象限,能够看成数仓的英雄榜。Snowflake2017年初次作为利基玩家进入,2018年成为应战者,2019年就成为了领导者,一年升一档,很快和Teradata、IBM、Oracle等老前辈坐在了一同。作为比照,华为也是2017年榜初次上榜,但仍是利基玩家。不过客观说能进入便是打破,华为是国产数据库的榜首个,仍然国货之光。

Gartner数仓法力象限2019

到了2020年,Snowflake上市了。

五、笑傲江湖

Snowflake上市首日股价暴升111%,是有史以来IPO规划最大的软件公司。

对资本商场来说,Snowflake在存储核算别离、云原生等技能概念的根底上,又成功讲了一个更事务化的新概念——数仓SaaS,在它之前,数仓是被界说为PaaS的。

两者有什么差异?PaaS面临开发者,SaaS面临最终用户,或许借用BobMuglia的话来说,数仓SaaS不需求DBA。

这是颠覆性的,股票商场爱颠覆性。

从营收来看,Snowflake根本和Teradata、Cloudera在同一量级,但从市值来看,一路暴升的Snowflake现已站到了IBM、Oracle相同的水平线。这阐明两件事:榜首,有些出资人以为Snowflake代表了数仓的未来,惧怕错失它就像惧怕错失特斯拉;第二,哪怕挤干泡沫,Snowflake的营收也赶上了前两代数仓课代表的水平,阐明数仓SaaS作为一种新形式,现已成为实际。

市值&营收比照

科学史学家科恩说过,科学革新便是旧范式向新范式搬运的进程。

范式包含两部分,一部分是该范畴一切成员在某一特定时期都能承受的一系列根本的理论假定,另一部分是这些理论所处理了的实际问题。

在数仓的国际里,理论部分是存储核算别离和云原生,实际效果则是迸发性呈现的许多云原生数仓创业公司。所以依据科恩的界说,数仓SaaS现已成了一种范式,而Snowflake正在引领着范式搬运,直接带动了这两年的云原生数据库创业潮。

所以假如“商场上榜首代产品总能主动取得50%商场份额”的达维多规律建立,那么我们关于Snowflake的热心就不能说完满是空穴来风。

而且客观的说,Snowflake的确冒了和这种报答等量的危险。

技能危险自不必说,比技能危险更不确认的,是商业路线上的危险。

它是榜首个挑选跟云协作的数仓公司,回头看或许觉得很天然,但实际上里面充满了奇妙的平衡,很像全球系统下的国家博弈。Snowflake从AWS进口S3和EC2等原材料,向AWS出口制品,而这个制品又和AWS的本地供货商Redshift直接竞赛。为了维护Redshift,AWS应该约束Snowflake,但这样又会影响S3和EC2的出售,所以这是一种左右互搏。此外,Snowflake也支撑GoogleCloud和Azure,AWS还要忧虑它带着客户搬运到竞赛对手那里。

这是一种包含了多层次竞赛与协作的动态平衡,一点也不天然,不过依照Snowflake的副总裁卡帕斯的说法,这个平衡正在变得安定,他们和AWS现已从真实的竞赛对手,变成了真实的联盟。只不过这个联盟并不像令狐冲娶了任盈盈那么简略,需求更多更持久的利益支撑——在Snowflake招股书,它许诺在接下来的5年内,在云上的耗费将到达12亿美金[3],而且其间大部分会归于AWS。

但总归,Snowflake“跨过距离,发明了这种联络”[4]。它的成功也给其他人树立了一个典范,一个怎么与云巨子共处的典范,所以假如再分代的话,现在应该从粗犷的第三代云保管年代,进入了调和共生的第四代云原生年代。

附,要害信息来历:

[1].FrankSlootman,SteveHamm.RiseofpeDataCloudamazon/Rise-Data-Cloud-Frank-Slootman/dp/1728363608

[2].BobMuglia,SnowflakeComputing|VMworld2015youtube/watch?v=l0hxeVD86Do

[3].sec.gov/Archives/edgar/data/1640147/000162828020013010/snowflakes-1.htm

[4].AWSAndSnowflake:‘FromTrueCompetitors,ToFrenemiesTo…AnAlliance’crn/news/cloud/aws-and-snowflake-from-true-competitors-to-frenemies-to-an-alliance-

[5].TheSnowflakeElasticDatawarehouse,2016event.cwi.nl/lsde/papers/p215-dageville-snowflake.pdf

[6].APracticalImplementationofpeDataBaseMachine-TeradataDBC/1012,1992ieeexplore.ieee.org/document/183180

[7].IsThatTeradataDataWarehouseReallyWorp$10Millionpacificdataintegrators/uploads/resources/244/is-pat-teradata-data-warehouse-really-worp-10-million.pdf

本内容为作者独立观念,不代表虎嗅态度。未经答应不得转载,授权事宜请联络hezuo@huxiu

本文地址:https://www.changhecl.com/280971.html

退出请按Esc键