本文为您介绍阿里云实时计算业务流程的系统架构和数据链路。

业务流程简介

实时计算业务流程系统架构图如下。
Architecture
  1. 数据集采集

    广义的实时数据采集指使用流式数据采集工具将数据实时地采集并传输到大数据Pub/Sub(发布订阅)系统。Pub/Sub系统将为下游实时计算提供源源不断的事件源触发流式计算作业的运行。阿里云大数据生态中提供了针对不同场景领域的流式数据Pub/Sub系统。阿里云实时计算天然集成上图中诸多Pub/Sub系统,能够集成各类流式数据。

    说明 例如您可以直接使用实时计算对接日志服务(LogService)的LogHub系统,快速的集成并使用ECS日志。
  2. 流式计算

    流数据作为实时计算的触发源驱动实时计算运行。一个实时计算作业至少使用一个流数据作为数据源。对于复杂的业务场景,实时计算支持和静态数据存储进行关联查询。

    说明 例如针对DataHub流式数据,实时计算可以根据流式数据的主键,和RDS中数据进行关联查询(即JOIN查询)。
  3. 实时集成

    阿里云实时计算可以将计算的结果数据直接写入目的数据存储。阿里云实时计算天然集成了OLTP(RDS产品线等)、NoSQL(OTS等)、OLAP(ADB等)、MessageQueue(DataHub、ONS等)、MassiveStorage(OSS、MaxCompute等)等阿里云生态系统,从而最大程度的降低全链路数据的时延和数据链路的复杂度,保证数据加工的实时性。

  4. 数据消费

    流式计算的结果数据进入各类数据存储后,您可以运用个性化的应用,操控结果数据。例如使用数据存储系统访问数据,使用消息投递系统接受信息,或使用告警系统生成异常结果数据警报。

数据链路

部分阿里云生态外部数据存储不能和实时计算系统完全匹配,需要使用其它类型流数据进行转换。

  • DataHub

    DataHub提供了多类数据(如日志、数据库BinLog、IoT数据流等)上传到DataHub的工具、界面,以及开源、商业软件的集成。请参见DataHub使用文档对DataHub做更详尽了解。
  • LogService

    日志服务(LogService)是针对日志类数据的一站式服务。LogService提供了诸多针对日志的采集、消费、投递、查询分析等功能。 请参见采集方式,了解如何使用日志进行流式数据采集。
  • IoTHub

    阿里云物联网平台(IoTHub)是能够帮助开发者搭建安全的数据通道,方便终端(如传感器、执行器、嵌入式设备或智能家电等等)和云端的双向通信。 使用IoTHub规则引擎可以将IoT数据方便投递到DataHub,并利用实时计算和MaxCompute进行数据加工计算。 请参见设置数据流转规则,了解如何将IoT数据推送到DataHub。
  • DTS

    数据传输(DTS)支持以数据库为核心的结构化存储产品之间的数据传输。DTS是一种集数据迁移、数据订阅及数据实时同步于一体的数据传输服务。使用DTS的数据传输功能,可以方便您将RDS等BinLog解析并投递到DataHub,并利用实时计算和MaxCompute进行数据加工计算。 请参见将RDS for MySQL同步至DataHub,了解如何使用DTS进行流式数据采集。
  • MQ

    阿里云MQ服务是一套完整的消息云服务。阿里云MQ服务基于高可用分布式集群技术,搭建了包括发布订阅、消息轨迹、资源统计、定时(延时)、监控报警等功能。