Flume是一个用于将日志数据移动到HDFS的框架.通常,事件和日志数据由日志服务器生成,这些服务器上运行Flume代理.这些代理从数据生成器接收数据.
这些代理中的数据将由称为收集器的中间节点收集.就像代理商一样,Flume中可以有多个收集器.
最后,来自所有这些收集器的数据将被聚合并推送到集中存储,例如HBase或HDFS.下图解释了Flume中的数据流.
多跳流
在Flume中,可以有多个代理,在到达最终目的地之前,事件可能会通过多个代理.这称为多跳流.
扇出流量
从一个源到多个通道的数据流被称为扇出流.它有两种类型 :
复制 : 数据流将在所有已配置的通道中复制数据.
多路复用 : 数据流将数据发送到事件标题中提到的选定通道.
扇入流
将数据从多个来源传输到一个通道的数据流称为扇入流.
故障处理
在Flume中,对于每个事件,发生两个事务:一个在发送方,一个在接收方.发送者将事件发送给接收者.收到数据后不久,接收方提交自己的交易并向发送方发送"已接收"信号.收到信号后,发送方提交其交易. (发送者在接收到来自接收者的信号之前不会提交其交易.)