Biopython - 机器学习

Biopython机器学习 - 从简单和简单的步骤学习Biopython，从基本到高级概念，包括简介，安装，创建简单应用程序，序列，高级序列操作，序列I / O操作，序列比对，BLAST概述，Entrez数据库， PDB模块，Motif对象，BioSQL模块，群体遗传学，基因组分析，表型微阵列，绘图，聚类分析，机器学习，测试技术。

生物信息学是应用机器学习算法的绝佳领域.在这里，我们有大量生物的遗传信息，不可能手动分析所有这些信息.如果使用适当的机器学习算法，我们可以从这些数据中提取大量有用的信息. Biopython提供有用的算法来进行有监督的机器学习.

监督学习基于输入变量(X)和输出变量(Y).它使用算法来学习从输入到输出的映射函数.它的定义低于 :

  Y = f(X)

此方法的主要目标是近似映射函数，当您有新的输入数据(x)时，可以预测该数据的输出变量(Y).

Logistic回归模型

逻辑回归是一种受监督的机器学习算法.它用于使用预测变量的加权和来找出K类之间的差异.它计算事件发生的概率，可用于癌症检测.

Biopython提供Bio.LogisticRegression模块，根据Logistic回归算法预测变量.目前，Biopython仅针对两个类实现逻辑回归算法(K = 2).

k-Nearest Neighbors

k-最近邻也是监督机器学习算法.它的工作原理是根据最近邻居对数据进行分类. Biopython提供Bio.KNN模块来预测基于k近邻算法的变量.

朴素贝叶斯

朴素贝叶斯分类器是分类算法的集合基于贝叶斯定理.它不是单个算法而是一系列算法，其中所有算法都具有共同的原理，即被分类的每对特征彼此独立. Biopython提供Bio.NaiveBayes模块以使用朴素贝叶斯算法.

马尔可夫模型

马尔可夫模型是一个定义为随机集合的数学系统变量，根据某些概率规则经历从一种状态转换到另一种状态. Biopython提供 Bio.MarkovModel和Bio.HMM.MarkovModel模块与Markov模型一起使用.