胡学鹏 阿里云智能GTS-SRE团队高级技术服务经理

阿里云在线教育售后技术负责人,曾参与阿里云多个头部客户的全站上云护航工作,积累了丰富的大数据上云护航经验,现任阿里云教育线TAM。

1.需求定位

  • 1.1常见痛点
    • 速度 – 慢,基础设施构建和集群搭建周期长。
    • 成本 – 高,硬件要求高,一次性成本高,额外费用比较多,付费模式单一。
    • 弹性 – 无,难以快速应对业务和数据爆炸性增长。
    • 安全 – 没有可靠的防护体系,认证、数据安全差,无法规避风险。
    • 运维 – 强依赖于运维团队,运维能力要求高。
    • 技术 – 有需求无实力,技术能力薄弱,大数据开发成本高,能力要求比较高。
    • 容灾 - 异地或者多集群容灾成本过高 ,几乎不会考虑。
    • 解决方案 – 缺少解决方案,没有经验,容易走错路。
    • 服务 – 自给自足 ,解决问题能力弱,低效不专业。
  • 1.2定点排除
    • 快速 - 互联网最新技术开箱即用。
    • 成本 - 按需使用,更低的试验和创新成本。
    • 弹性 - 业务爆炸性增长轻松应对。
    • 安全 - 可靠的防护体系,完善的合规认证规避风险。
    • 专业 - 行业领先的解决方案。
    • 标准 - 更容易标准化和自动化,方便运维。
    • 规模 - 全球化的部署,更快的全球业务扩展。
    • 解决方案- 覆盖度最高最全的解决方案,最佳实践。
    • 服务 – 专业的支持和服务团队,SRE全程护航。

2.大数据上云

  • 2.1上云前
    • SRE咨询

      使用户熟悉云上服务体系与各个产品团队对接人,减少沟通成本,推动上云进程。

    • 应用架构咨询

      收集用户部署架构,后期提供云上软件栈选型、硬件规格选用、region资源规划。

    • 大数据应用咨询

      基于用户架构、规格和业务场景,提供云上产品对接最佳实践。

    • 上云解决方案

      产品选型,自建组件对应迁移方案以及用户业务场景进行项目摸底,最终确定部署方案。

  • 2.2上云中
    • 云上基础设施

      专线规格开通与部署、IDC云上网络互通等大数据运行环境部署。

    • 规格测试选型

      评估硬件环境,资源规划,对计算平台进行算力压测tpcd-h,也可以根据用户集群规模选型。

    • 平台运维及培训

      提供产品使用须知和demo最佳实践,根据业务流节点特性进行作业配置,日志查询,运行测试等。

    • 应用改造

      ETL数据计算过程中,将开源语句诸如zakaban、MR等进行改造(pyodps限制、java沙箱、3个版本支持的数据类型、与其他sql语法差异、类型转换与支持、分区限制、sql使用限制、子查询限制、odps客户端常用命令及限制)。

    • 大数据应用迁移

      用户原应用系统,如:客户画像,产业报表等系统作业上云测试部署。

    • 存储上云实施

      根据迁移方案&迁移工具使用,将如hbase,hive,hdfs,kafka等自建源数据迁移计算平台。

    • 大数据展现实施

      结合quick bi将计算过滤后的数据可视化展现,用于分析。

  • 2.3上云后
    • 弹性优化实施

      emr节点算力资源task支持弹性调动。

    • 计算存储分离

      计算平台数据存储方式OSS+Jindofs模式。

    • 资源规格优化

      需要通过实际计算量判断。

    • 网络优化实施

      公、私网结合方式。

3.上云方案

  • 3.1整体方向

    企业画像-->部署架构,即根据用户业务平台+大数据使用情况/平台(ETL使用与配置情况)+数据源(结构化&非结构化)构思部署云上计算产品部署结构,包括:数据源-->数据接入-->数据处理-->数据服务-->应用。

  • 3.2方案推荐

    (1)机器集群选型

    根据客户画像+企业标签形式,在机器选型上给出推荐。

    如:用户大数据团队为开源计算,具备一定计算组件的开发能力,且更多原意接触自建的工作模式--EMR。

    如:用户大数据团队能够快速吸收新的计算引擎,对云上计算平台的产品配合与工作模式具有一定认识--ODPS。

    (2)一站式实时数仓开发方案架构/数据分析

    AnalyticDB +Dataworks--入门快、门槛低、开发简单,大大降低运维成本。

    数据源(如:日志与业务数据)-->数据集成(批量、增量、实时)-->实时数仓引擎AnalyticDB-->数据治理。

    (3)数据分析

    MaxCompte +quickBI。

    VPC(ECS、RDS)-->数据通道(SLS、flume、datax、dts)-->数据计算(MaxCompte)-->报表展示。

    (4)存储选型

    OSS+Jindofs:数据高可用、成本低、性能高、通用性强。