为了获得准确的数据洞察,分析师们往往要将80%的精力放到数据预处理的工作上面。
DataSpring是一款基于最新流式架构的ETL工具,采用基于日志的增量数据获取技术( Log-based Change Data Capture ),支持异构数据之间丰富、自动化、准确的语义映射构建,同时满足实时与批量的数据处理。 支持各种主流数据库如 Oracle、MySQL、SQL Server、PostgreSQL 以及API数据的增量同步和转换。 可以私有化部署,简单,易操作。
传统架构中,需要读写远程事务型数据库;而在事件驱动应用中,数据和计算不分离,应用只需本地访问即可获取数据,具有更高的吞吐和更低的延时。
支持常用关系型数据库数据接入,也支持API数据接入
定时任务完成批处理任务
基于CDC技术的实时流式数据接入
可以通过预置公式,实现类似excel函数的数据转换
针对复杂的数据处理逻辑,也支持自定义基于python代码的UDF算子进行处理
配置好的任务流支持做成定时任务:间隔多久执行、指定时间执行、周期循环执行
ETL管理界面提供操作日志查询、用户管理等通用模块
做为DFC系列产品中的一员,支持DFC会员中心的单点登录功能,且与DFC联合部署后,可以实现无缝的产品使用体验
直播,传感器,双11活动数据的实时摄取,形成实时的监控大屏
将业务系统的数据经过抽取、清洗转换之后加载到数据仓库
从服务器上报的消息中将 CPU、MEM、LOAD 信息分离出来做分析,然后触发自定义的规则进行报警