プログラム言語pythonの数あるライブラリの中でデータ解析に用いられるのはpandasライブラリである。大量となるデータを統計・分析などを得意とした機能を多く有しています。その機能で何ができるかを操作方法を交えながら説明したいと思います。
目次
- pandasで出来ること
- pandasを利用準備
- pandasの基本的な利用方法
padasで出来ること
pandasは、プログラミング言語Pythonにおいて、データ解析を支援する機能を提供するライブラリである。特に、数表および時系列データを操作するためのデータ構造と演算を提供する。
公式ドキュメントは:http://pandas.pydata.org/pandas-docs/stable/
特にテキストファイルをメモリ内に取込、各種機能を利用して分析・解析・集計などを高速にデータ操作できる。私は、時系列の大量のテキストデータを処理する場合は、pandasを利用して一次処理を行ってから、データベースに取込を行うようなことを実践で行っています。
- メモリ内のデータファイルを読書き
- 高速なデータ操作を可能とするデータフレーム
- 高機能なデータマージ(結合)
- 高速で効率的なデータ抽出やデータ集計
ある程度、プログラミング知識はいるが、大量のテキストデータからデータ解析するには最適なライブラリだと思いますので、勉強してでも利用する価値はあると思います。
pandasの利用準備
pythonのライブラリであるため、既にpythonは利用出来る環境が整っているいることを前提に話を進めていきます。
pip install pandas
ライブラリのインストールは以上です。これで利用可能です。簡単ですね
pandasの基本的な利用方法
pandasライブラリの今回は以下の基本的な利用方法を紹介します。
- csvファイルの読み込み
- 読み込みデータの確認
- csvファイルの書き込み
csvファイルの読み込み
CSVファイル(test.csv)を、Pandasを利用してインポートします。
import pandas as pd
df = pd.read_csv(“test.csv”, index_col=0)
読込にはいくつかのオプション指定が可能であるが、よく使うのはいくつか紹介します。
- index_col=0は、インデックスの列名。0を指定すると、最初の列がインデックスとなります。未指定の場合は、Unnamed:0 という列が自動で付与されます。
- headerは、未指定の場合は、先頭行が列名になります。1行目からデータとして取り込む場合は、header=Noneを指定します。
読み込みデータの確認
それでは、取込したデータを見てみましょう。
df.head(20)
df.info()
df.columns
df.dtypes
csvファイルの書き込み
Pandasデータを、CSVファイル(output.csv)にエクスポートします
df.to_csv(“output.csv”,header=False)
ヘッダー(列名)、インデックスの出力は、オプション指定をする(デフォルトはTrue)
- header=True:出力、False:未出力
- index=True:出力、False:未出力