开发手册 欢迎您!
软件开发者资料库

大数据分析 - 方法论

大数据分析方法 - 从概述,数据生命周期,方法论,核心可交付成果,关键利益相关者,数据分析师,科学家,问题定义,数据收集,清理,总结,探索,可视化,简单而简单的步骤学习大数据分析R简介,SQL简介,图表和图表,数据分析工具,统计方法,数据分析机器学习,朴素贝叶斯分类器,K均值聚类,关联规则,决策树,Logistic回归,时间序列分析,文本分析,在线学习。

在方法论方面,大数据分析与传统的实验设计统计方法有很大不同.分析从数据开始.通常我们以解释响应的方式对数据建模.此方法的目标是预测响应行为或了解输入变量与响应的关系.通常在统计实验设计中,开发实验并且因此检索数据.这允许以统计模型可以使用的方式生成数据,其中某些假设保持独立,正态和随机化.

在大数据分析中,我们被提供给数据.我们无法设计出满足我们最喜欢的统计模型的实验.在大规模的分析应用中,只需要清理数据就可以完成大量的工作(通常是80%的工作量),因此它可以被机器学习模型使用.

我们没有一种独特的方法可以在真正的大规模应用中使用.通常,一旦确定了业务问题,就需要一个研究阶段来设计要使用的方法.然而,一般指导原则是相关的,并且几乎适用于所有问题.

大数据分析中最重要的任务之一是统计建模,意思是监督和无监督分类或回归问题.一旦数据被清理和预处理,可用于建模,就应该注意评估具有合理损失度量的不同模型,然后在实施模型后,应报告进一步的评估和结果.预测建模的一个常见缺陷是仅实施模型而从不测量其性能.