大数据分析 -Problem Definition

大数据分析Problem Definition- 从概述，数据生命周期，方法论，核心可交付成果，关键利益相关者，数据分析师，科学家，问题定义，数据收集，清理，总结，探索，可视化开始，从简单而简单的步骤学习大数据分析，R简介，SQL简介，图表和图形，数据分析工具，统计方法，数据分析机器学习，朴素贝叶斯分类器，K均值聚类，关联规则，决策树，Logistic回归，时间序列分析，文本分析，在线学习。

通过本教程，我们将开发一个项目.本教程的每个后续章节都涉及迷你项目部分中较大项目的一部分.这被认为是一个应用教程部分，将提供一个现实世界的问题.在这种情况下，我们将从项目的问题定义开始.

项目描述

这个项目的目标是开发一台机器学习模型，用他们的简历(CV)文本作为输入来预测人们的小时工资.

使用上面定义的框架，定义问题很简单.我们可以定义 X = {x ₁，x ₂，...，x _n} 作为用户的CV其中每个特征可以以最简单的方式显示该单词出现的次数.那么回应是真正有价值的，我们试图用美元预测个人的小时工资.

这两个考虑足以得出结论所提出的问题可以用监督回归算法来解决.

问题定义

问题定义可能是大数据分析中最复杂，最被忽视的阶段之一管道.为了定义数据产品将解决的问题，经验是强制性的.大多数数据科学家在此阶段很少或根本没有经验.

大多数大数据问题可以通过以下方式分类和减去;

监督分类
监督回归
无监督学习
学习排名

现在让我们更多地了解这四个概念.

监督分类

给定一个特征矩阵 X = {x ₁，x ₂，...，x _n} 我们开发了一个模型M来预测定义为 y = {c ₁，c ₂，...，c _{n的不同类别}}的.例如:给定保险公司中客户的交易数据，可以开发一个模型来预测客户是否会流失.后者是一个二元分类问题，其中有两个类或目标变量:流失而不是流失.

其他问题涉及预测多个类，我们可能有兴趣进行数字识别因此，响应向量将被定义为: y = {0,1,2,3,4,5,6,7,8,9} ，a-state-of-art模型将是卷积神经网络，特征矩阵将被定义为图像的像素.

监督回归

在这种情况下，问题定义与前面的例子非常相似;差异取决于响应.在回归问题中，响应y∈ ℜ，这意味着回应是真正有价值的.例如，我们可以开发一个模型来预测个人的小时工资，给出他们简历的语料库.

无监督学习

管理层经常口渴获得新的见解.细分模型可以提供这种洞察力，以便营销部门为不同的细分市场开发产品.开发分段模型而不是考虑算法的好方法是选择与所需分段相关的特征.

例如，在电信公司中，它是有趣的是通过手机使用来细分客户.这将涉及忽略与分段目标无关的功能，并且仅包括那些功能.在这种情况下，这将选择功能，如一个月内使用的短信数量，入站和出站分钟数等.

学习排名

这个问题可以被视为回归问题，但它具有特殊的特征，值得单独处理.问题涉及给定一组文档，我们寻求在查询时找到最相关的排序.为了开发有监督的学习算法，需要在给定查询的情况下标记排序的相关性.

需要注意的是，为了开发有监督的学习算法，需要标记训练数据.这意味着为了训练一个模型，例如，识别图像中的数字，我们需要手工标记大量的例子.有些Web服务可以加速这个过程，并且通常用于此任务，例如亚马逊机械土耳其人.事实证明，学习算法在提供更多数据时可以提高其性能，因此在监督学习中实际上必须标记相当数量的示例.