【Flume】日志采集聚合传输系统Flume概念与实践

您所在的位置:网站首页 什么是分布式数据处理 【Flume】日志采集聚合传输系统Flume概念与实践

【Flume】日志采集聚合传输系统Flume概念与实践

2023-05-28 13:51| 来源: 网络整理| 查看: 265

Apache Flume 是一个开源的分布式日志收集和聚合系统,用于将大量日志或事件数据从各种数据源(例如 Web 服务器、应用程序服务器等)移动到 Hadoop 或其他消息队列中心,如 Apache Kafka 或 Apache ActiveMQ。Flume 允许用户从数据产生源直接改写数据流并可对数据进行压缩、过滤、转换和聚合等操作。

Flume 架构包含三个核心组件:源、通道和汇聚器。每个组件都可以在不同的物理节点上运行,以便扩展协议和处理高负载。

源:在 Flume 中,"source" 是指所有将数据发送到 Flume 的数据源。数据源可以是各种不同类型的数据输入原点,例如 Web 服务器、网络接口、本地文件夹等。通道:通道是在源和汇聚器之间启动内部快速存储传输数据的方式。Flume 有多种类型的通道来适应不同的需求,例如基于内存、文件、JDBC 等等。汇聚器:汇聚器是指消费数据的目标位置。通常情况下,汇聚器将数据路由到 Hadoop HDFS 或再次进行过滤和处理。Flume 内置了多个汇聚器选项供用户选择,如File,HDFSevent,HBase和Kafka等。

在 Flume 中,您还可以通过使用一些可编程的插件来扩展其功能。例如,用户可以自定义 Flume 插件,执行不同的数据管道操作,并添加新源和汇聚器类型。

总之,Apache Flume 是一个灵活的、高伸缩性的日志收集框架,它能够很好地满足互联网企业对存储呈指数级增长的日志数据处理需求。

参考资料

Flume 1.9用户手册中文版 — 可能是目前翻译最完整的版本了

Flume学习笔记_flume需要依赖hadoop_sheygshsi的博客-CSDN博客

Flume 1.11.0 User Guide — Apache Flume

Index of /dist/flume 下载地址

大数据Flume技术解析

【尚硅谷】大数据技术之Flume教程从入门到实战_哔哩哔哩_bilibili



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3