首页 > 代码库 > 如何选择适合的数据分析工具

如何选择适合的数据分析工具

 

选择一个好的数据分析工具,就要明白分析什么数据,大数据要分析的数据类型主要有四大类:

1、交易数据(TRANSACTION DATA)

大数据平台能够获取时间跨度更大、更海量的结构化交易数据,这样就可以对更广泛的交易数据类型进行分析,不仅仅包括POS或电子商务购物数据,还包括行为交易数据,例如Web服务器记录的互联网点击流数据日志。

2、人为数据(HUMAN-GENERATED DATA)

非结构数据广泛存在于电子邮件、文档、图片、音频、视频,以及通过博客、维基,尤其是社交媒体产生的数据流。这些数据为使用文本分析功能进行分析提供了丰富的数据源泉。

3、移动数据(MOBILE DATA)

能够上网的智能手机和平板越来越普遍。这些移动设备上的App都能够追踪和沟通无数事件,从App内的交易数据(如搜索产品的记录事件)到个人信息资料或状态报告事件(如地点变更即报告一个新的地理编码)。

4、机器和传感器数据(MACHINE AND SENSOR DATA)

这包括功能设备创建或生成的数据,例如智能电表、智能温度控制器、工厂机器和连接互联网的家用电器。这些设备可以配置为与互联网络中的其他节点通信,还可以自动向中央服务器传输数据,这样就可以对数据进行分析。机器和传感器数据是来自新兴的物联网(IoT)所产生的主要例子。来自物联网的数据可以用于构建分析模型,连续监测预测性行为(如当传感器值表示有问题时进行识别),提供规定的指令(如警示技术人员在真正出问题之前检查设备)。

然而,数据分析工具达到哪些要求和目的?能应用高级的分析算法和模型提供分析,以大数据平台为引擎,比如Hadoop或其他高性能分析系统,能够适用于多种数据源的结构化和非结构化数据,随着用于分析模型的数据的增加,能够实现扩展,分析模型可以,或者已经集成到数据可视化工具,能够和其他技术集成,另外,工具必须包含必备的一些功能,包括集成算法和支持数据挖掘技术,包括(但不限于):

(1)集群和细分:把一个大的实体分割拥有共同特征的小团体。比如分析收集来的客户,确定更细分的目标市场。

分类:把数据组织进预定类别。比如根据细分模型决定客户改如何进行分类。

(2)恢复:用于恢复从属变量和一个及一个以上独立变量之间的关系,帮助决定从属变量如何根据独立变量的变化而变化。比如使用地理数据、净收入、夏日平均温度和占地面积预测财产的未来走向。

(3)联合和项目集挖掘:在大数据集中寻找变量之间的相关关系。比如它可以帮助呼叫中心代表提供基于呼叫者客户细分、关系和投诉类型的更精准的信息。

(4)相似性和联系:用于非直接的集群算法。相似性积分算法可用于决定备用集群中实体的相似性。

(5)神经网络:用于机器学习的非直接分析。

如何选择适合的数据分析工具