清洗
2014-09-01 11:27:36
ETL(Extract-Transform-Load)的工具有很多,分为结构化和非结构化两大类别。
结构化的数据清洗 包括对原始数据的检验、归一化调整、去重、去异常、关联表、以及各种简单的统计和概念抽取等工作。
以下是常见的工具:
-OWB(Oracle Warehouse Builder,目前归Oracle) 而很多时候,直接用SQL直接来完成清洗的工作,效率也足够好,不一定完全依赖ETL的工具。
非结构化的数据清洗 范围很广泛,包括关键字抽取、语义抽取、情绪抽取、归类、相关性计算、图片识别、语音识别、视频识别等等。这些是目前火热的人工智能(AI)的领域了。 以下是主要的AI玩家: -IBM -Apple -Amazon -Baidu
这个领域的工具冒出来很快,也很多,需要专门讨论。
|
地址:广州市天河区科韵路16号中国国际电子商务中心4楼
邮编:510610
电话:(020)85542208
咨询:askUs A_T botwave.com
简历:make-blood A_T botwave.com