X

超越亚马逊、谷歌、微软,阿里云飞天大数据平台的世界第一

杭州的云栖小镇,树立着一尊飞天5K纪念碑,记录了一段阿里云为自研大数据平台奋斗的历史。

这座纪念碑的底座,在一侧刻着参与“战斗”的227个工程师的名字,另一侧刻着王坚的一段话:“一群有理想的平凡人经历了1757个日日夜夜,用生命和热血写成代码,为云计算开启了未来之势。坚持你相信的,相信你坚持的。”

这就是2013年,被阿里云内部称做“5K战役”的4个月无休的研发经历。经过连续4个多月的努力,阿里云成功的将原有的数据处理平台全部迁移到基于飞天5K的MaxCompute上,这就是飞天大数据平台的由来。

作为目前中国唯一自主研发的计算引擎,也是全球集群规模最大的计算平台。阿里云飞天大数据平台的算力,也远远超过了当初的5K。数据显示,飞天大数据平台目前已经可以扩展至10万台计算集群,规模全球第一。

被“逼出来”的飞天

2008年,王坚从微软亚洲技术研究院空降阿里,担任首席架构师。这个在阿里内部尊称为“博士”的首席架构师并非程序员出身,是一个不会写代码的架构师,但他对技术方向的前瞻性,给阿里云的自研之路奠定了坚实的基础。

王坚在他的《在线》一书中写道:不是 “去IOE”,而是计算去掉了计算机。为了完成这样一个目标,阿里云自己的大数据在2008年紧锣密鼓的在筹备,并在2009年写下了第一行代码。这才有了2013年5K的故事,有了今天的飞天大数据平台。

事实上,在当时大数据这条路线的选择面是很狭窄的,要么继续建Oracle集群,要么走开源的Greenplum或是Hadoop路线。但是这个方向对阿里来说,似乎都不够好。

首先,以Oracle集群为代表的IOE架构很难满足当时淘宝快速的业务拓展需求,尽管当时阿里已开始把数据迁移到更大规模的开源平台,但后者在百台机器规模时就遇到瓶颈,给业务增长造成极大阻碍。

其次,Greenplum、Hadoop之类的开源技术在可靠性、安全性上也遭遇了天花板。

可以这样理解,当初阿里决定自研大数据平台,本质是被“逼出来”的决定。

如当初王坚所说,“将单一集群做到数千乃至更高,技术上是国家和企业竞争力的标志。阿里巴巴必须攻克这道难关。”飞天大数据平台也的确做到了这一定,飞天也是中国云计算,乃至中国科技界的骄傲。

屹立世界之巅

不想做将军的士兵,不是一个好士兵,不想成为世界第一的公司,也不是一个好公司。

客观的说,以今天的眼光看,能够走独立自研大数据平台路线的公司,无一不是世界级的科技巨头,如Google、亚马逊AWS、微软以及阿里云。

2013年8月15日,阿里云历史性地突破了同一个集群内5000台服务器同时计算的局限,为未来的大规模服务奠定基础。

今天的飞天大数据平台,不仅以10万台计算集群达到规模全球第一,同时单日数据处理量从2015年100PB、2016年180PB、2017年320PB,一直到2018年超过600PB,仅用三年时间便提升了5倍。如今,能做到这一能力的科技公司在全球都寥寥可数。

应该说从2009年的第一行代码,到2019年,整整十年里,飞天都在不断的进化之中。

比如,基于这套创新技术,2015、2016年,阿里云刷新世界计算奥运会之称的SortBenchmark多个世界纪录。在2017年10月,阿里云将TPC的benchmark适配到MaxCompute,进行了全球首次基于公共云的bigbench大数据基准测试,数据规模被拓展到100TB,并成为首个突破7000分的引擎,性能达到 7830QPM。2018年9月,性能较2017年10月提升一倍多,达到18176.71QPM。另外,在超小型10TB规模的指标上,MaxCompute与其他开源竞品进行了比对分析,性能超过开源竞品3倍。

在我看来,如果将2008年到2013年看做是飞天创世的第一阶段,那么从2015年到2019年就是飞天大数据平台频频登上世界舞台,通向巅峰的第二阶段。

在这个阶段,随着技术创新能力的不断突破,飞天也收获了很多权威机构的认可。比如,2018年3月,Gartner发布《2017年分析型数据管理解决方案(DMSA)魔力象限》报告,对各大厂商的大数据服务能力进行了全面评估。全球共20家顶尖厂商入选。阿里云作为云服务商成功冲进Gartner魔力象限;同时,2018年11月,MaxCompute,DataWorks和AnalyticDB代表阿里云入选Forrester Wave™ Q4 2018云数据仓库研究报告,产品能力综合得分全球第7,中国第一,并在产品功能(Current Offering)方面力压微软。今年5月,阿里云自研大数据计算平台 MaxCompute 获得浙江省科技进步一等奖。

飞天就如同它的名字所代表的含义一样,一步一个脚印,从零起步,十年一个轮回,实现了从0到1的跨越。

脚踏实地,实践出飞天

毫无疑问,任何技术的有效性,都需要实践来验证。飞天的十年,不仅是技术创新的十年,更是实践落地的十年。

首先,飞天最初的实践舞台就是阿里巴巴自己。双11,就像是阿里巴巴永不落幕的旗帜,创造了中国零售的巅峰,也给阿里云带来了世界级的技术试炼场。客观的说,如果没有双11这么巨大的业务压力,王坚当初也不会毫不犹豫做出放弃Oracle路线和开源路线,走向自研。

在2018年的双11狂欢节中,MaxCompute单日数据处理超过600PB,同时平稳支撑电商混布单元在线流量洪峰12万笔/s交易,稳定承载45%导购流量,顺利完成1200台DB业务混部的目标,为双11交易峰值提供了有力保障和平滑支撑。

我认为,飞天今日之成就,双11居功至伟,双11和飞天两个“符号”,最为充分的表达了技术与业务之间,相互促进的典型模式。

其次,飞天在行业市场也取得了非常多的突破。例如,在政务领域,飞天大数据平台支撑下,杭州“最多跑一次”打通与办事最密切相关的100个事项70多亿条数据,老百姓甚至有可能一次都不跑;在交通领域,杭州城市大脑实时指挥1300个红绿灯路口、200多名交警,从2016年到2018年,杭州从全国最拥堵城市排行榜上下跌52名;在工业领域,阿里云的大数据处理技术帮助制造企业寻找上千个参数的最优搭配,提升制造的良品率。协鑫光伏、天合光能等行业龙头企业,都在尝试这一全新的生产模式;在海外市场,MaxCompute也已进入新加坡、欧洲等市场,将这一技术服务给更多用户。

第三,作为中国唯一自主研发的计算引擎,也是全球集群规模最大的计算平台。飞天这十年不断对实体经济的赋能,其实为中国的数字经济的发展,提供了一个很好的表率:我们有能力用自己的核心技术,推动符合自身特色的经济增长模式。