开发手册 欢迎您!
软件开发者资料库

敏捷数据科学 - 数据丰富

敏捷数据科学数据丰富 - 从简单和简单的步骤学习敏捷数据科学,从基本到高级概念,包括简介,方法概念,数据科学过程,敏捷工具和安装,敏捷数据处理,SQL与NoSQL,NoSQL和数据流编程,收集和显示,数据可视化,数据丰富,使用报告,预测的作用,使用PySpark提取功能,构建回归模型,部署预测系统,SparkML,修复预测问题,提高预测性能,使用敏捷创建更好的场景和数据科学,敏捷的实施。

数据丰富是指用于增强,改进和改进原始数据的一系列流程.它指的是有用的数据转换(原始数据到有用信息).数据丰富的过程着重于使数据成为现代企业或企业的宝贵数据资产.

最常见的数据丰富过程包括通过使用特定的方式纠正数据库中的拼写错误或印刷错误决策算法.数据丰富工具为简单的数据表添加了有用的信息.

考虑以下代码进行单词和减号的拼写纠正;

import refrom collections import Counterdef words(text): return re.findall(r'\w+', text.lower())WORDS = Counter(words(open('big.txt').read()))def P(word, N=sum(WORDS.values())):   "Probabilities of words"   return WORDS[word] / Ndef correction(word):   "Spelling correction of word"   return max(candidates(word), key=P)def candidates(word):   "Generate possible spelling corrections for word."   return (known([word]) or known(edits1(word)) or known(edits2(word)) or [word])def known(words):   "The subset of `words` that appear in the dictionary of WORDS."   return set(w for w in words if w in WORDS)def edits1(word):   "All edits that are one edit away from `word`."   letters = 'abcdefghijklmnopqrstuvwxyz'   splits = [(word[:i], word[i:]) for i in range(len(word) + 1)]   deletes = [L + R[1:] for L, R in splits if R]   transposes = [L + R[1] + R[0] + R[2:] for L, R in splits if len(R)>1]   replaces = [L + c + R[1:] for L, R in splits if R for c in letters]   inserts = [L + c + R for L, R in splits for c in letters]   return set(deletes + transposes + replaces + inserts)def edits2(word):   "All edits that are two edits away from `word`."   return (e2 for e1 in edits1(word) for e2 in edits1(e1))   print(correction('speling'))   print(correction('korrectud'))

在这个程序中,我们将匹配包含更正单词的"big.txt".单词与文本文件中包含的单词匹配
并相应地打印相应的结果.

输出

以上代码将生成以下输出 :

代码会生成