开发手册 欢迎您!
软件开发者资料库

使用PySpark提取功能

敏捷数据科学使用PySpark提取功能 - 从简单和简单的步骤学习敏捷数据科学,从基本到高级概念,包括简介,方法概念,数据科学流程,敏捷工具和安装,敏捷数据处理,SQL与NoSQL,NoSQL和数据流编程,收集和显示,数据可视化,数据丰富,使用报告,预测的作用,使用PySpark提取功能,构建回归模型,部署预测系统,SparkML,修复预测问题,提高预测性能,创建更好的场景敏捷和数据科学,敏捷实施。

在本章中,我们将了解PySpark
在敏捷数据科学中的提取功能的应用.

Spark概述

Apache Spark可以定义为快速实时处理框架.它进行计算以实时分析数据. Apache Spark作为流处理系统实时引入,也可以处理批处理. Apache Spark支持交互式查询和迭代算法.

Spark是用"Scala编程语言"编写的.

PySpark可以看作是Python的组合与Spark. PySpark提供PySpark shell,它将Python API链接到Spark核心并初始化Spark上下文.大多数数据科学家使用PySpark跟踪功能,如前一章所述.

在这个例子中,我们将专注于转换来构建一个名为counts的数据集和
save它是一个特定的文件.

text_file = sc.textFile("hdfs://...")counts = text_file.flatMap(lambda line: line.split(" ")) \   .map(lambda word: (word, 1)) \   .reduceByKey(lambda a, b: a + b)counts.saveAsTextFile("hdfs://...")

使用PySpark,用户可以使用python编程语言处理RDD.内置库涵盖了数据驱动文档和组件的基础知识,有助于实现这一目标.