清洗

2014-09-01 11:27:36

ETL(Extract-Transform-Load)的工具有很多,分为结构化和非结构化两大类别。



结构化的数据清洗

包括对原始数据的检验、归一化调整、去重、去异常、关联表、以及各种简单的统计和概念抽取等工作。 


以下是常见的工具:

-OWB(Oracle Warehouse Builder,目前归Oracle)
-ODI(Oracle Data Integrator,目前归Oracle)
-Informatic PowerCenter
-DataStage(目前归IBM)
-DecisionStream(Cognos产品系,目前归IBM)
-Data Integrator(BO产品系,目前归SAP)
-Beeload
-DataSpider
-Kettle
-KETL
-Clover ETL
-Enhydra Octopus

而很多时候,直接用SQL直接来完成清洗的工作,效率也足够好,不一定完全依赖ETL的工具。


非结构化的数据清洗

范围很广泛,包括关键字抽取、语义抽取、情绪抽取、归类、相关性计算、图片识别、语音识别、视频识别等等。这些是目前火热的人工智能(AI)的领域了。

以下是主要的AI玩家:

-Google

-IBM

-Apple

-Amazon

-Baidu


这个领域的工具冒出来很快,也很多,需要专门讨论。


地址:广州市天河区科韵路16号中国国际电子商务中心4楼

邮编:510610

电话:(020)85542208

咨询:askUs A_T botwave.com

简历:make-blood A_T botwave.com