入湖基础操作

您所在的位置:网站首页 聊云数据湖张记高 入湖基础操作

入湖基础操作

2024-03-19 18:11| 来源: 网络整理| 查看: 265

关系数据库全量入湖:可以实现RDS MySQL或PolarDB数据库表数据全量同步到数据湖,选择在数据源管理中配置好的数据源,将数据源对应数据库中选定表的数据全量同步到OSS中,如果待同步表中数据量大,则所消耗的资源也会比较大,建议在业务低谷期执行此类任务,避免对业务连续性产生影响。待抽取的数据表须确认包含主键,否则抽取任务会报错。

关系数据库实时入湖:可以实现RDS MySQL或PolarDB数据库表数据增量同步到数据湖,选择在数据源管理中配置好的数据源,将数据源对应数据库中选定表的数据抽取binlog的方式将数据库表数据实时同步回放到数据湖中。待同步的数据表需确认包含主键,否则抽取任务会报错。

SLS日志实时入湖:可以实现阿里云日志服务SLS数据实时同步到数据湖,您可以选择当前账号下的SLS Project,该Project下对应的Log Store,实时的将数据同步到数据湖中。

表格存储(TableStore)实时入湖:可以实现将阿里云表格存储TableStore(原OTS)数据同步到数据湖中,入湖任务通过实时读取binlog方式,实时的将TableStore指定表数据同步到数据湖中。

OSS数据格式转换:可以实现对阿里云对象存储OSS中已有数据进行格式转换,如CSV转Parquet、Parquet转Delta等。

Kafka实时入湖:可以实现将阿里云消息队列Kafka或EMR Kafka的数据实时同步到数据湖中,支持用户自定义预处理算子。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3