数据处理分布式

Spark Streaming和Storm

许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍，然后尝试快速、高度概述其异同。...

许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍，然后尝试快速、高度概述其异同。

Apache Storm

在Storm中，先设计一个用于实时计算的图状结构，称之为拓扑(topology)。这个拓扑将会被提交给集群，由集群中的主控节点
(master node)分发代码，将任务分配给工作节点(worker
node)执行。一个拓扑中包括spout和bolt两种角色，其中spout发送消息，负责将数据流以tuple元组的形式发送出去;而bolt则负责
转发数据流，在bolt中可以完成计算、过滤等操作，bolt自身也可以随机将数据发送给其他bolt。在storm中，每个都是tuple是不可变数
组，对应着固定的键值对。

Apache Spark

Spark Streaming是核心Spark
API的一个扩展，它并不会像Storm那样一次一个地处理数据流，而是在处理前按时间间隔预先将其切分为一段一段的批处理作业。Spark针对持续性数
据流的抽象称为DStream(DiscretizedStream)，一个DStream是一个微批处理(micro-batching)的RDD(弹
性分布式数据集);而RDD则是一种分布式数据集，能够以两种方式并行运作，分别是任意函数和滑动窗口数据的转换。

Apache Samza

Samza处理数据流时，会分别按次处理每条收到的消息。Samza的流单位既不是元组，也不是Dstream，而是一条条消息。在Samza中，
数据流被切分开来，每个部分都由一组只读消息的有序数列构成，而这些消息每条都有一个特定的ID(offset)。该系统还支持批处理，即逐次处理同一个
数据流分区的多条消息。Samza的执行与数据流模块都是可插拔式的，尽管Samza的特色是依赖Hadoop的Yarn(另一种资源调度器)和
Apache Kafka。