数据分析清洗使用pandas,numpy。 http://pandas.pydata.org/
Series 是带标签的一维数组,可存储整数、浮点数、字符串、Python 对象等类型的数据。轴标签统称为索引。调用 pd.Series 函数即可创建 Series
1 | s = pd.Series(data, index=index) |
上述代码中,data 支持以下数据类型:
- Python 字典
- 多维数组
- 标量值(如,5)
index 是轴标签列表。不同数据可分为以下几种情况:
多维数组
data 是多维数组时,index 长度必须与 data 长度一致。没有指定 index 参数时,创建数值型索引,即 [0, …, len(data) - 1]。
1 | In [3]: s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e']) |
字典
1 | In [7]: d = {'b': 1, 'a': 0, 'c': 2} |
标量值
data 是标量值时,必须提供索引。Series 按索引长度重复该标量值。
1 | In [12]: pd.Series(5., index=['a', 'b', 'c', 'd', 'e']) |
Series类似多维数组
1 | In [13]: s[0] |
矢量操作与对齐 Series 标签
名称属性
1 | In [32]: s = pd.Series(np.random.randn(5), name='something') |
DataFrame 是由多种类型的列构成的二维标签数据结构,类似于 Excel 、SQL 表,或 Series 对象构成的字典。DataFrame 是最常用的 Pandas 对象,与 Series 一样,DataFrame 支持多种类型的输入数据:
一维 ndarray、列表、字典、Series 字典
二维 numpy.ndarray
结构多维数组或记录多维数组
Series
DataFrame
除了数据,还可以有选择地传递 index(行标签)和 columns(列标签)参数。传递了索引或列,就可以确保生成的 DataFrame 里包含索引或列。Series 字典加上指定索引时,会丢弃与传递的索引不匹配的所有数据。
没有传递轴标签时,按常规依据输入数据进行构建。