11月6日消息 11月6日,在Techo开发者大会上,腾讯云副总裁、腾讯数据平台部总经理蒋杰表示,经过10年的积累,腾讯大数据平台的算力资源池目前已有超过20万台的规模,每天实时数据计算量超过30万亿条,腾讯已经成为中国实时数据计算量最大的公司。
上述数据背后是腾讯大数据平台技术过去10年的不断演进。据蒋杰介绍,腾讯的数据量在短短5、6年时间增长了几千倍,目前每天产生的数据量超过几十万亿条数据在产生。为了应对这种爆炸式增长,腾讯走出了一条技术引进+改造+自研的道路,在过去10年间,腾讯大数据平台已经经历了四代演进。
从以Hadoop为核心的离线计算时代到以Spark、Storm、Flink为核心的实时计算时代,再到如今的机器学习和深度学习时代,腾讯从无到有研发了分布式的机器学习引擎Angel,以及一站式AI开发平台智能钛TI,用来解决数据训练和算法的问题。目前,腾讯正在研究以批流融合、ABC融合、以及数据湖和联邦学习为方向的下一代大数据平台的研究,该平台将具备混合部署、跨域数据共享和边缘计算等能力。
蒋杰表示,从开始的技术引进、局部优化到如今的自主创新,腾讯的大数据技术也在实践中不断完善和创新。“十年前,腾讯管理几百个节点都很困难,调度性能差,规模上不去。后来为了有效解决计算能力和大规模集群问题,腾讯自研调度器,相对原生调度器性能提升150倍,大大提升了集群可扩展性。现在,腾讯大数据平台每天有1500万个分析任务,每天数据接入条数达35万亿条数据。”
2个月前,腾讯在ApacheCon 2019上,面向全球开发者正式宣布开源自身核心平台——实时数据采集平台TubeMQ,并捐献给Apache社区。此次在Techo大会现场,再次重磅宣布正式开源资源管理平台核心TKE和分布式数据库TBase,随着在大数据开源领域的开源逐步加速,腾讯正在成为中国大数据领域开源最全面的厂商。
“目前,已经有数百万的开发者在腾讯云上构建应用,相信后面会有越来越多开发者加入,我们将和所有开发者一起,共建云上的应用生态”,蒋杰表示。(完)