Python pandas.DataFrame()函数方法的使用

Pandas是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。Pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现，它是使Python成为强大而高效的数据分析环境的重要因素之一。本文主要介绍一下Pandas中pandas.DataFrame()方法的使用。

class pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)

具有标记轴(行和列)的二维大小可变、可能异构的表格数据结构。算术运算在行和列标签上对齐。可以将其看作是系列对象的类似于dict的容器。主要的panda数据结构。

参数:

data : ndarray(结构化或同构)、Iterable、dict或DataFrame

Dict可以包含序列、数组、常量或类似列表的对象

在版本0.23.0中进行了更改:如果数据是dict，

则Python 3.6及更高版本将维护参数顺序

index :指数或类数组

用于生成frame的索引。如果输入数据中没有索引信息，

也没有提供索引，那么默认值为RangeIndex

columns : 指数或类数组

用于生成frame的列标签。如果没有提供列标签，

默认值为RangeIndex(0,1,2，…，n)

dtype : dtype,默认None

要强制执行的数据类型。只允许一个dtype。

如果None,则进行推断

copy : boolean, 默认 False

从输入复制数据。只影响DataFrame / 2d ndarray输入

例子，

从dictionary构造DataFrame

>>> d = {'col1': [1, 2], 'col2': [3, 4]}>>> df = pd.DataFrame(data=d)>>> df   col1  col20     1     31     2     4

推断的dtype是int64

>>> df.dtypescol1    int64col2    int64dtype: object

强制执行单个dtype

>>> df = pd.DataFrame(data=d, dtype=np.int8)>>> df.dtypescol1    int8col2    int8dtype: object

从numpy ndarray构造DataFrame

>>> df2 = pd.DataFrame(np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]),...                    columns=['a', 'b', 'c'])>>> df2   a  b  c0  1  2  31  4  5  62  7  8  9

官方文档：http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html#pandas.DataFrame