人人都会用的数据集成产品,并提供一站式、开箱即用的 DataOps 数据中台,大幅提高ETL实时数仓构建效率
大数据学习文档、实战代码、源码解析、测试数据,包含python、mysql、shell、hadoop、hive、zookeeper、hbase、flume、kafka、spark、flink、dolphinscheduler、elasticsearch、sqoop、clickhouse
EData 是一个开源的大数据二次开发框架,其中封装了Spark与其他数据组件(目前有Postgresql,HDFS,MongoDB,MinIO,Kafka,Hbase,后续会持续新增优化)的交互方法,以及大量大数据算法,开箱即用。
基于spark编写的音乐推荐大数据作业,使用scala编程,使用python的flash框架作为可视化展示。Audioscrobbler数据集有趣地方在于仅仅记录播放的历史:“某某某 播放了 什么” 由这个网站公布的一个2005年的数据集合可以http://www-etud.iro.umontreal.ca/bergstrj/audioscrobbler_data.html上面下载。
RISC-V Linux 内核兴趣小组协作仓库;泰晓社区已推出专用 RISC-V 实验盘和实验箱,欢迎移步泰晓科技 B 站工房选购,https://space.bilibili.com/687228362
Fire框架是由中通大数据自主研发并开源的、专门用于进行Spark和Flink任务开发的大数据框架,可节约70%以上的代码量。首创基于注解进行Spark和Flink任务开发,具备实时血缘、根因诊断、动态调优、参数热调整等众多平台化功能。Fire框架在中通内部每天处理数据量高达数千亿,在外部已被数十家公司所使用。
商用产品开源,包括用户埋点数据采集、用户标签分群和画像、智慧运营、营销等。项目采用Nginx+Flume+kafka实现日志收集,Flink进行实时流处理,ClickHouse作为实时数仓,HDFS作为数据备份。
项目帮用户快速搭建CDP客户数据平台,实现对移动端数据分析、用户行为分析、用户标签画像和在线营销。完美兼容神策埋点SDK、友盟埋点SDK和其他终端埋点包。快速对接、快速应用。