※記事内に商品プロモーションを含むことがあります。
はじめに
PandasはPythonのデータ解析支援用ライブラリである。Pandasの基本データ構造であるSeriesとDataFrameの作成方法について述べる。
環境
ソフトウェア | バージョン |
---|---|
python | 3.6.2 |
pandas | 0.20.3 |
Pandas概要
Pandasではラベルを付与した配列を扱える。また、NumPyと異なり、1つのPandasオブジェクト内に異なるデータ型を保持できる。
扱える次元数とデータ構造の名称を下表に示す。
次元数 | データ構造 |
---|---|
1 | Series |
2 | DataFrame |
3 | Panel |
ただし、Pandas Ver. 0.20では、Panelの使用は非推奨である(DataFrameのMuiltiIndex で代替できるため)。
1次元データ構造Seriesの作成
1次元のデータ構造Seriesは、リスト、NumPy配列、辞書型いずれかから作成できる。ラベルはindexで指定する。
|
|
また、Seriesはnameと呼ばれる属性を持つことができる。
|
|
2次元データ構造DataFrameの作成
2次元のデータ構造DataFrameは、リスト、NumPy配列、辞書型、Pandas.Seriesから作成できる。行のラベルはindex, 列のラベルはcolumnsで指定する。
|
|
また、DataFrame自身はname属性を持たない代わりに、indexがname属性を持つ。
|
|
補足
欠落値を持つデータ
データの欠落箇所は、numpy.nanで補う。
|
|
要素を持たないデータ
引数をとらないことにより、要素を持たないSeries, DataFrameオブジェクトを作成できる。
|
|
データ型
Series, Dataframeのdtypeパラメータにより、データ型を設定できる。
|
|
参考
Pandasの公式ドキュメントを参考とした。
Intro to data structures — pandas 1.1.5 documentation
pandas.Series — pandas 1.1.5 documentation
pandas.DataFrame — pandas 1.1.5 documentation