4 Star 14 Fork 270

DolphinScheduler / SeaTunnel

forked from Apache SeaTunnel / SeaTunnel 
加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README
Apache-2.0

seatunnel

seatunnel logo

Backend Workflow


更名通知:SeaTunnel 原名为 waterdrop,于 2021 年 10 月 12 日更名为 SeaTunnel。


SeaTunnel 是一个非常易用的支持海量数据实时同步的超高性能分布式数据集成平台,每天可以稳定高效同步数百亿数据,已在近百家公司生产上使用。

为什么我们需要 SeaTunnel

SeaTunnel 尽所能为您解决海量数据同步中可能遇到的问题:

  • 数据丢失与重复
  • 任务堆积与延迟
  • 吞吐量低
  • 应用到生产环境周期长
  • 缺少应用运行状态监控

SeaTunnel 使用场景

  • 海量数据同步
  • 海量数据集成
  • 海量数据的 ETL
  • 海量数据聚合
  • 多源数据处理

SeaTunnel 的特性

  • 简单易用,灵活配置,无需开发
  • 实时流式处理
  • 离线多源数据分析
  • 高性能、海量数据处理能力
  • 模块化和插件化,易于扩展
  • 支持利用 SQL 做数据处理和聚合
  • 支持 Spark Structured Streaming
  • 支持 Spark 2.x

SeaTunnel 的工作流程

seatunnel-workflow.svg

                         Input[数据源输入] -> Filter[数据处理] -> Output[结果输出]

多个 Filter 构建了数据处理的 Pipeline,满足各种各样的数据处理需求,如果您熟悉 SQL,也可以直接通过 SQL 构建数据处理的 Pipeline,简单高效。目前 seatunnel 支持的Filter列表, 仍然在不断扩充中。您也可以开发自己的数据处理插件,整个系统是易于扩展的。

SeaTunnel 支持的插件

  • Input plugin

Fake, File, Hdfs, Kafka, S3, Socket, 自行开发的 Input plugin

  • Filter plugin

Add, Checksum, Convert, Date, Drop, Grok, Json, Kv, Lowercase, Remove, Rename, Repartition, Replace, Sample, Split, Sql, Table, Truncate, Uppercase, Uuid, 自行开发的Filter plugin

  • Output plugin

Elasticsearch, File, Hdfs, Jdbc, Kafka, Mysql, S3, Stdout, 自行开发的 Output plugin

环境依赖

  1. java 运行环境,java >= 8

  2. 如果您要在集群环境中运行 seatunnel,那么需要以下 Spark 集群环境的任意一种:

  • Spark on Yarn
  • Spark Standalone

如果您的数据量较小或者只是做功能验证,也可以仅使用 local 模式启动,无需集群环境,seatunnel 支持单机运行。 注: seatunnel 2.0 支持 Spark 和 Flink 上运行

下载

可以直接运行的软件包下载地址:https://github.com/apache/incubator-seatunnel/releases

快速入门

快速入门:https://interestinglab.github.io/seatunnel-docs/#/zh-cn/v1/quick-start

关于 SeaTunnel 的详细文档

生产应用案例

  • 微博, 增值业务部数据平台 微博某业务有数百个实时流式计算任务使用内部定制版 SeaTunnel,以及其子项目Guardian 做 seatunnel On Yarn 的任务监控。

  • 新浪, 大数据运维分析平台 新浪运维数据分析平台使用 SeaTunnel 为新浪新闻,CDN 等服务做运维大数据的实时和离线分析,并写入 Clickhouse。

  • 搜狗 ,搜狗奇点系统 搜狗奇点系统使用 SeaTunnel 作为 ETL 工具, 帮助建立实时数仓体系

  • 趣头条 ,趣头条数据中心 趣头条数据中心,使用 SeaTunnel 支撑 mysql to hive 的离线 ETL 任务、实时 hive to clickhouse 的 backfill 技术支撑,很好的 cover 离线、实时大部分任务场景。

  • 一下科技, 一直播数据平台

  • 永辉超市子公司-永辉云创,会员电商数据分析平台 SeaTunnel 为永辉云创旗下新零售品牌永辉生活提供电商用户行为数据实时流式与离线 SQL 计算。

  • 水滴筹, 数据平台 水滴筹在 Yarn 上使用 SeaTunnel 做实时流式以及定时的离线批处理,每天处理 3~4T 的数据量,最终将数据写入 Clickhouse。

更多案例参见: https://interestinglab.github.io/seatunnel-docs/#/zh-cn/v1/case_study/

行为准则

SeaTunnel遵守贡献者公约code of conduct , 通过参与,我们期望大家可以一起维护这一准则,请遵循 REPORTING GUIDELINES来报告不当行为 .

开发者

感谢所有开发者

欢迎联系

  • 邮件列表: dev@seatunnel.apache.org. 发送任意内容至 dev-subscribe@seatunnel.apache.org, 按照回复订阅邮件列表。
  • Slack: 发送 Request to join SeaTunnel slack 邮件到邮件列表 (dev@seatunnel.apache.org), 我们会邀请你加入(在此之前请确认已经注册Slack).
  • bilibili B站 视频
# Licensed to Apache Software Foundation (ASF) under one or more contributor # license agreements. See the NOTICE file distributed with # this work for additional information regarding copyright # ownership. Apache Software Foundation (ASF) licenses this file to you under # the Apache License, Version 2.0 (the "License"); you may # not use this file except in compliance with the License. # You may obtain a copy of the License at # # http://www.apache.org/licenses/LICENSE-2.0 # # Unless required by applicable law or agreed to in writing, # software distributed under the License is distributed on an # "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY # KIND, either express or implied. See the License for the # specific language governing permissions and limitations # under the License. header: license: spdx-id: Apache-2.0 copyright-owner: Apache Software Foundation paths-ignore: - seatunnel-dist - NOTICE - LICENSE - DISCLAIMER - mvnw.cmd - .mvn - .gitattributes - '**/known-dependencies.txt' - '**/*.md' - '**/*.json' - '**/*.iml' - '**/*.ini' - '**/.gitignore' - '**/LICENSE' - '**/NOTICE' - '**/META-INF/services/**' - '**/.gitkeep' comment: on-failure

简介

SeaTunnel 是一个非常易用的支持海量数据实时同步的超高性能分布式数据集成平台,每天可以稳定高效同步万亿级数据,已在数百家公司生产上使用。 展开 收起
Java
Apache-2.0
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
Java
1
https://gitee.com/dolphinscheduler/SeaTunnel.git
git@gitee.com:dolphinscheduler/SeaTunnel.git
dolphinscheduler
SeaTunnel
SeaTunnel
dev

搜索帮助