阿里巴巴集团拥有超过10万名员工。其平台交易总额已占中国社会消费品零售总额的13%,创造了超过4000万个就业岗位。这个庞大的数字经济今年即将迎来20岁生日。
很少人知道的是,这个数字经济之所以能走到今天,离不开它花费半年时间打造的业务和技术基础——伴随着成长阵痛而飙升的阿里云也取得了成功今年。十岁了。
2019年3月,虎嗅独家专访了阿里云智能基础产品事业部总经理蒋江伟(又名小谢)和高级技术专家钟华(又名顾前)。不出意外,采访内容证实了我们之前的猜测:如果你想从庞大而复杂的阿里经济中找到一条了解“昨天、今天、明天”的商业线索,阿里云恐怕是最好的选择。
烟囱
“即使你只访问一次淘宝主页,所涉及的技术和系统规模也超乎你的想象。这是包括长江学者、国家科学技术奖获得者在内的2000多名淘宝顶级工程师的心血结晶。等待对于许多伟大的人来说。”
——卡特“你刚刚在淘宝上买了东西”
2008年初,淘宝程序员碰壁了,被吓坏了。
当时的淘宝在技术上是一个由200多个功能模块组成的压缩代码包,体积约为几百兆。其复杂性已经“超出了人类的认知负荷”,没有人能够完全掌握其内在的逻辑和联系。 “我改了产品相关的代码,发现交易有问题。我在论坛上改了代码,但旺旺出了问题。”
这仍然是业务“几个月翻倍”的快速发展时期。淘宝数据库连接数最高峰时已超过5000个。数据库服务器的CPU占用率经常超过90%,无法扩展。
事实上,早在四个月前的一次战略会议上,阿里巴巴的决策者就已经看到了这个问题。
这次会议的召集人是马云。平时战略会议都是在西湖边开,但这次他说想找个能看海的地方,思想更开放一些。但秘书当时对宁波不熟悉,订错了地方。结果,一群高管在一个不见海的房间里,发生了两天两夜的“无关紧要”的争吵。
昨晚深夜,大家经过争论终于画了一张图。图为信息流、资金流、物流将形成统一的数据智能,基本勾勒出12年后阿里巴巴的样子。
各个业务中流动的数据必须“统一”,该项目被命名为“登月计划”。
然而,月亮很美,但太远了。目前的现实是,淘宝的底层技术基础已经岌岌可危,已经出了名的“这里改了,那里就会出错”。
“淘宝旅游”、“淘宝彩票”要上线。为了“不给主站造成混乱”,技术人员从头开始,重新构建了这两个系统。即使有很多重复的功能,比如用户、交易、查询、评价等功能。
重复建设只是成本问题。每一个独立的企业就像一个独立的烟囱,都生长在同一个田地里,却又各自冒出自己的烟雾。数据统一是不可能的。
就连商业属性最一致的两个商家——淘宝网和淘宝商城(天猫的前身)也像两个独立的国家。
他们有很多共同的用户和商人,但火车在不同的轨道上运行,书籍是不同的语言。当承载数据的“火车”到达“国界”时,它必须使用复杂的架构手段来“找一个翻译者”或“换一个翻译者”。机车”。
另外,阿里的土地上有那么多的烟囱,无数的机车和翻译机,变得异常复杂。
建烟囱是多年来企业IT模式:你创业,我给你一个系统;如果您开始另一项业务,我将为您提供另一个系统。设计、生产、供应、物流、订单、库存、配送、客服……每个职能都有系统,企业就像一片烟囱。
这就是工业流水线发明后管理界的黄金法则:对每一个封闭的业务流程进行梳理、分配、不断优化,通过提高每一个流程、业务流程的效率来提高整个企业的效率。
然而,当数字信息取代实物,成为最重要的生产资料时,数字时代工业流水线的弊端被无限放大——内部环节只能串联,对外完全封闭,只是像根一样。烟囱。
“你会发现你无法前进了,新的业务不断涌现,大家都在向IT部门要资源,看似你很优秀,但实际上却拖慢了大家的步伐。”
“以互联网的速度,生与死都是瞬间的,如果慢了,就会死。”
决策者虽然看到了问题,却指着远处的月亮。但正如人类真正登陆月球要付出惨重代价一样,阿里的“登月”并不容易。
修补天空
“中国的电商行业能有今天的成就,数百万淘宝店主应该感谢秦始皇的《同文车通通》一书,感谢高考语文试卷上的普通话发音题。”
——马平《我们的双11“剁手”,中国正在为2000年做准备》
2007年底,有程序员想出了一个办法:把每个烟囱都必须的、逻辑最独立、最简单的用户信息模块拆开,变成一个单一的公共模块。经过这次尝试,效果还不错,淘宝又把交易模块独立出来了。
2008年10月,在此前成功尝试的基础上,阿里进行了一次名为“更换高速飞机发动机”的大手术。
这个名为“七彩石”(女娲炼金补天的石头)的项目的核心目标是在数据和业务层面将淘宝和天猫彻底打通。
当时的解决方案有后来中泰的影子:
1、提取各个业务的通用功能,如交易、支付、会员等,封装成“砖块”。房子千奇百怪,但砖头却都是一样的。开展新业务变得非常容易。
2、让数据归入统一的池子,为后续数据智能的喂养打下基础。
“大多数产品都有70%的行业通用性和20%的行业通用性,真正与同行不同的恐怕只有10%。”阿里巴巴高级技术专家顾前在与各行业数百家领先企业会面后得出这样的结论。
而这补天石的影响力还远不止于此。
2009年初,七彩石项目竣工。这个大型的公司级项目雇佣了200多人(此前阿里巴巴10多人的技术项目已经不小了),最终为阿里巴巴积累了一套中间件技术。这个词后来在科技圈流行起来,成为“拆烟囱”的标准。
(阿里云飞天研发团队合影)
同样是在2009年,王健带领的飞天团队正式推出阿里云品牌。
在宁波召开的战略会议上,决策者打算找一位“登月计划”的负责人,后来找到了王健。
王渐被称为“博士”,但长期以来,博士都长着一张类似于“骗子”的面孔。
马云表示,他会持续10年,每年向阿里云投资10亿,等到成功。然而,阿里巴巴内部论坛上批评的声音却越来越大。花钱并不会产生结果。这不是一个商业公司应该做的事情。
事实上,这恰恰说明阿里云确实是在痛苦和业务压力下诞生的:
首先,“登月”需要解决算力问题,现成的IOE模型完全不适用;
其次,用“五彩石”修补天空后,必须有一个与之相匹配的分布式基地。
2013年,飞天单集群容量达到5000台,成为全球第一家对外提供这一能力的公司,算力基础宣告奠定。
截至2018年底,阿里云在中国的市场份额已超过2至8家玩家的总和。与此同时,阿里巴巴宣布组织架构调整,阿里云升级为阿里云智能,中台能力与云全面融合。阿里云正式成为阿里巴巴经济体的技术基地和整个集团技术能力的输出。
阿里云智能总裁是十年前“七彩石”项目负责人张剑锋。
今年3月21日,张建峰首次在公开场合阐释升级后的阿里云智能化战略。至此,2007年开始于宁波海边的故事彻底落下帷幕。 “登月”的另一条隐藏线浮出水面。
阿里云更多被外界认知是因为其计算能力和资源调度能力,以及自主知识产权的研发。但很少有人知道,阿里云的成长和发展伴随着集团的每一次业务阵痛和瓶颈突破,都与中台战略密不可分——
从七彩石到阿里云,这并不是巧合,而是同一逻辑下的自然延伸。可以说,中台战略和阿里云是相互负责、相互需要、缺一不可的。
这不仅是一个可以进行计算的云,更是一个可以解决实际业务问题的云。因为阿里云是在痛苦中诞生的。而阿里巴巴集团遭受的痛苦比大多数中国企业早了十年。
1000 个错误
“犯了足够多的错误,你跌倒了,你又站起来。所有的错误都是金钱,这是很大的钱。”
——马云致辞
“你怎么能证明城市的下水道结构不被洪水淹没呢?”
阿里云智能基础产品事业部总经理小谢给我们讲了一个故事。 2013年,阿里巴巴模拟的流量远超双11的压力,这次洪水下来后,出现了1000多个Bug。
“像这样一个非常极端、非常极端的bug,没有这么大的流量是无法解决的,即使我们招募无数的聪明头脑,也没有办法解决。”
这就是阿里巴巴与其他公司不同的地方。它具有互联网的规模、金融级的准确性、企业级的复杂性。
很多年前,互联网圈有一个流行词,叫“鼠标加水泥”,意思是传统商业模式与互联网的结合。这些能做面对面业务的“重资产互联网公司”是“水泥公司”,与那些仅靠屏幕就能满足用户的“鼠标公司”完全不同。
十多年前,阿里巴巴是中国第一代“水泥公司”。这是由其业务性质决定的,与BAT的另外两项“鼠标业务”完全不同。
比如搜索可以有一定的模糊范围,如果找不到几个链接也没关系。但电子商务做不到这一点。如果找不到商品,商家会打电话投诉。不仅内容不能有偏差,而且每笔交易的数量都代表着真金白银,哪怕差一分商家也不会这么做。
再比如,社会行为基本上是可以预测的,很难有巨大的起伏。电商用户就像12306一样,面临着巨大的灵活性。如果他们使用太多的计算能力,那就是浪费,但如果他们使用太少,他们就会崩溃……
而且,其他互联网公司的业务基本都比较清晰,大多围绕一个主流量核心设立支流业务。而阿里巴巴则从一开始就像一家传统企业。它需要覆盖产品或服务的整个链条,从生产和设计、库存和运输、分销和促销到客户服务分析。其业务复杂度远远超过同规模的互联网公司。
高精度、高复杂度、不可预测的高并发共同构成了阿里巴巴的技术瓶颈。这就是为什么当行业领袖认为云计算是“新瓶装旧酒”时,马云却坚称“如果我们不做云计算,阿里巴巴就会死”。
同期其他几家知名电商公司还在采购IBM的框架,甚至聘请了CTO。随后,这些公司的技术层面在现实困境面前出现了各种崩溃,而且很难通过系统性的改进来弥补这种崩溃。
十年后的2018年,腾讯、美团、京东等公司都或多或少地发布了中期战略和TO B战略的消息,云计算逐渐成为各家公司热门的业务线。
当然,也有更多的传统企业在近年来的市场挑战中逐渐发现了自己原有信息系统建设的滞后,并开始向阿里巴巴技术团队寻求建议。
这些事实都印证了这样一个判断:阿里巴巴并不是很聪明,也不是很奇怪,但它比其他公司早很多年就遇到了挑战。现在,大多数公司也已经走到了这一挑战的门口。
愿世间没有不幸
“我们必须承认各种不确定性,并利用数据和信息来消除它们,而不是用过去的自上而下设计的方法来解决问题。”
——吴军《硅谷之谜》
采访中,顾谦给我们展示了一组术语:VUCA。
这组术语包括四个词,即(波动性)、(不确定性)、(复杂性)和(模糊性)。可以充分概括这个商业时代的特征。
企业商业模式的转型,从电气时代的30年生命周期,到信息时代的10年生命周期,再到互联网时代的5年生命周期,再到2到3年的生命周期。当今DT时代的生命周期。
不确定性已成为时代主题。生与死都在一瞬间,真是VUCA。
商业的本质从未改变:基于信息不对称的盈利产品或服务,加上时代的机遇,也可以称为运气。在这个充满不确定性的VUCA时代,机遇已经成为不可预知的事情。告别工业时代“看十年、做十年”的战略思维。快速试错和数据智能是VUCA时代的王道。
这正是阿里巴巴中层能力的价值所在。阿里巴巴聚划算业务仅7个人仅用1个半月就开发完成。飞猪、钉钉、盒马等新业态频出。很多事情在阿里巴巴内部几个人几周就能完成,而在外部公司则需要几十个人至少半年时间才能完成。即使方向错了,如果从头开始,成本也会低很多。
企业可以做的第二件事就是统一数据,挖掘智能的“石油”。
例如,波司登利润连续两年大幅增长。主要原因之一是利用中台策略,实时监控全国3000多家门店的库存和销售情况,从而减轻库存压力和物流成本,提高产品售罄率。
在这段增减期间,对于一家销售额过亿的企业来说,只要物流成本降低10%,利润很可能会多出一二十亿。
一些咨询公司有更长远的眼光。例如埃森哲、毕马威、德勤纷纷来到阿里云合作,希望通过数据智能帮助企业数字化转型,支持业务决策。
阿里巴巴本身也是使用机器做决策最多的公司,从阿里巴巴的小贷到淘宝网。如果没有AI能力,数百人肯定无法操作这个万亿规模的平台。
谷歌云前首席科学家李飞飞曾多次表示,云是人工智能落地的最佳平台。这也是40%的中国500强企业、近一半的中国上市公司、80%的中国科技企业聚集在阿里云的重要原因。
结论
二十年前,湖滨花园的漏水屋里,这家公司的基因决定了后来的故事。它的根源是中国经济社会的根源。如果你受此苦,你也会以此养活自己。
走向社会十年,阿里遇到了巨大的困难。这也造成了巨大的障碍,来自他人的缺乏知识和难以忍受的痛苦。
转型为阿里云智能后,阿里的苦难就是为了解决社会的苦难,将过去十年在企业运营和商业实践中总结的方法论和技术架构包装成产品和商品,为整个经济和社会赋能。
20年前,阿里巴巴在报纸上发布了半版招聘广告。这句口号现已成为其企业文化,“如果不是现在,更待何时?如果不是我,那会是谁?”无非是)。
对于先驱者来说,痛苦是不可避免的经历。世界在质疑,而你却走过了它。
特别策划
扫一扫在手机端查看
-
Tags : 阿里云的飞天系统_生于疼痛的阿里云
我们凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求,请立即点击咨询我们或拨打咨询热线: 13761152229,我们会详细为你一一解答你心中的疑难。