频道栏目
首页 > 资讯 > 云计算 > 正文

flume学习一:flume基础知识

16-05-31        来源:[db:作者]  
收藏   我要投稿

一.Flume使用的前提:

Flume使用 java编写,其需要运行在 Java1.6或更高版本之上。

二.Flume的定义:

Flume是一个分布式、可靠、高效可用的海量日志采集、聚合和传输系统,支持在系统中定制各类数据发送方,用于搜集数据;同时,flume提供对数据进行加单处理,并写到各种数据接受方(可定制)的能力。

核心一句话:将数据从数据源收集过来,再送到目的地。为了保证输送一定成功,在送到目的地之前,会先缓冲数据,待数据真正到的目的地后,删除自己缓冲的数据。

三.组件及作用:

1.source:从client端收集数据,传递个channel。直接读取:文件source的有两种方式:

ExecuteSource:以运行linux命令的方式,持续的输出最新的数据,如tail –f 文件名指令,在这种方式下取的文件名必须是指定的。

SpoolSource:检测配置的目录下新增的文件,并将文件中的数据读取出来。

2.channel:缓冲数据,连接sources和sinks,有点像队列。类型有MemoryChannel,JDBC Channel,FileChannel等。

3. sink:从channel收集数据,运行一个独立线程。可以向文件系统、数据库、hadoop存储数据。

在日志数据较少时,可以将数据存储在文件系统中,并且设定一定的时间间隔保存数据。

在日志数据较多时,可以将相应的日志存储到hadoop中,便于日后进行相应的数据分析。

组件名称功能介绍

 

 

Agent代理

使用JVM运行Flume。每台机器运行一个agent,但是可以在一个agent中包含多个sources和sinks。

Client客户端

生产数据,运行在一个独立的线程。

Source源

从Client收集数据,传递给Channel。

Sink接收器

从Channel收集数据,进行相关操作,运行在一个独立线程。

Channel通道

连接 sources和 sinks ,这个有点像一个队列。

Events事件

传输的基本数据负载。

 

四.Flume的整体构成图

 

源将事件写到一个多或者多个通道中。

接收器只从一个通道接收事件。

代理可能会有多个源、通道与接收器

Event是flume数据传输的基本单元,flume以事件的形式将数据从源头传送到目的地。

一个EventMapHeadersbyte[] body组成,其中Headers保存了Event的属性,body保存了Event的内容。

Source:负责接收events或通过特殊机制产生events,并将events批量的放到一个或多个channels。

Channel位于sources和sinks之间,用于缓存进来的events,当sink成功的将events发送到下一跳的channel或最终目的,events从channel移除。

Sink:负责将events传输到吓一跳或最终目的,成功完成后将events从channel移除。

五.常见错误:

Could not configure sink sink1 due to:No channel configured for sink: sink1
org.apache.flume.conf.ConfigurationException: No channel configured for sink:sink1

则仔细查看配置文件,一个source可以对应多个channel,所以是channels,agent.sources.source1.channels = channel1,

但是一个sink对应一个channel,所以是channel,agent.sinks.sink1.channel =channel1,请注意。

六.常见各组件支持的类型:

Flume Source 支持的类型:

 

Source类型

说明

Avro Source

支持Avro协议(实际上是Avro RPC),内置支持

Thrift Source

支持Thrift协议,内置支持

 

Exec Source

JMS Source

从JMS系统(消息、主题)中读取数据,ActiveMQ已经测试过

Spooling Directory Source

监控指定目录内数据变更

Twitter 1% firehose Source

通过API持续下载Twitter数据,试验性质

Netcat Source

监控某个端口,将流经端口的每一个文本行数据作为Event输入

Sequence Generator Source

序列生成器数据源,生产序列数据

Syslog Sources

读取syslog数据,产生Event,支持UDP和TCP两种协议

HTTP Source

基于HTTP POST或GET方式的数据源,支持JSON、BLOB表示形式

Legacy Sources

兼容老的Flume OG中Source(0.9.x版本)

 

Flume Channel支持的类型:

 

Channel类型

说明

Memory Channel

Event数据存储在内存中

JDBC Channel

Event数据存储在持久化存储中,当前Flume Channel内置支持Derby

File Channel

Event数据存储在磁盘文件中

Spillable Memory Channel

Event数据存储在内存中和磁盘上,当内存队列满了,会持久化到磁盘文件(当前试验性的,不建议生产环境使用)

Pseudo Transaction Channel

测试用途

Custom Channel

自定义Channel实现

 

Flume Sink支持的类型

 

Sink类型

说明

HDFS Sink

数据写入HDFS

Logger Sink

数据写入日志文件

Avro Sink

数据被转换成Avro Event,然后发送到配置的RPC端口上

Thrift Sink

数据被转换成Thrift Event,然后发送到配置的RPC端口上

IRC Sink

数据在IRC上进行回放

File Roll Sink

存储数据到本地文件系统

Null Sink

丢弃到所有数据

HBase Sink

数据写入HBase数据库

Morphline Solr Sink

数据发送到Solr搜索服务器(集群)

ElasticSearch Sink

数据发送到Elastic Search搜索服务器(集群)

Kite Dataset Sink

写数据到Kite Dataset,试验性质的

Custom Sink

自定义Sink实现

 

七各种组件的特性:

(1)可靠性

当节点出现故障时,日志能够被传送到其他节点上而不会丢失。Flume提供了三种级别的可靠性保障,从强到弱依次分别为:end-to-end(收到数据agent首先将event写到磁盘上,当数据传送成功后,再删除;如果数据发送失败,可以重新发送。),Store on failure(这也是scribe采用的策略,当数据接收方crash时,将数据写到本地,待恢复后,继续发送),Best effort(数据发送到接收方后,不会进行确认)。

(2)可扩展性

Flume采用了三层架构,分别为agent,collector和storage,每一层均可以水平扩展。其中,所有agent和collector由master统一管理,这使得系统容易监控和维护,且master允许有多个(使用ZooKeeper进行管理和负载均衡),这就避免了单点故障问题。

(3)可管理性

所有agent和colletor由master统一管理,这使得系统便于维护。多master情况,Flume利用ZooKeeper和gossip,保证动态配置数据的一致性。用户可以在master上查看各个数据源或者数据流执行情况,且可以对各个数据源配置和动态加载。Flume提供了web和shell scriptcommand两种形式对数据流进行管理。

(4)功能可扩展性

用户可以根据需要添加自己的agent,collector或者storage。此外,Flume自带了很多组件,包括各种agent(file, syslog等),collector和storage(file,HDFS等)。

 

 

 

 

 

 

 

相关TAG标签
上一篇:Flume+Hadoop+Hive的离线分析系统基本架构
下一篇:OpenstackNeutron学习手册
相关文章
图文推荐

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训 | 举报中心

版权所有: 红黑联盟--致力于做实用的IT技术学习网站