pandasライブラリのインストールと基本的な操作方法

blog-icatch-44

プログラム言語pythonの数あるライブラリの中でデータ解析に用いられるのはpandasライブラリである。大量となるデータを統計・分析などを得意とした機能を多く有しています。その機能で何ができるかを操作方法を交えながら説明したいと思います。

目次

  • pandasで出来ること
  • pandasを利用準備
  • pandasの基本的な利用方法

padasで出来ること

pandasは、プログラミング言語Pythonにおいて、データ解析を支援する機能を提供するライブラリである。特に、数表および時系列データを操作するためのデータ構造と演算を提供する。

公式ドキュメントは:http://pandas.pydata.org/pandas-docs/stable/

特にテキストファイルをメモリ内に取込、各種機能を利用して分析・解析・集計などを高速にデータ操作できる。私は、時系列の大量のテキストデータを処理する場合は、pandasを利用して一次処理を行ってから、データベースに取込を行うようなことを実践で行っています。

主なpandasの機能
  • メモリ内のデータファイルを読書き
  • 高速なデータ操作を可能とするデータフレーム
  • 高機能なデータマージ(結合)
  • 高速で効率的なデータ抽出やデータ集計

ある程度、プログラミング知識はいるが、大量のテキストデータからデータ解析するには最適なライブラリだと思いますので、勉強してでも利用する価値はあると思います。

https://amzn.to/2TQXylr

pandasの利用準備

pythonのライブラリであるため、既にpythonは利用出来る環境が整っているいることを前提に話を進めていきます。

pandasライブラリインストール

pip install pandas

ライブラリのインストールは以上です。これで利用可能です。簡単ですね

pandasの基本的な利用方法

pandasライブラリの今回は以下の基本的な利用方法を紹介します。

基本的な操作
  1. csvファイルの読み込み
  2. 読み込みデータの確認
  3. csvファイルの書き込み

csvファイルの読み込み

CSVファイル(test.csv)を、Pandasを利用してインポートします。

test.csv 読み込み

import pandas as pd
df = pd.read_csv(“test.csv”, index_col=0)

ポイント

読込にはいくつかのオプション指定が可能であるが、よく使うのはいくつか紹介します。

  • index_col=0は、インデックスの列名。0を指定すると、最初の列がインデックスとなります。未指定の場合は、Unnamed:0 という列が自動で付与されます。
  • headerは、未指定の場合は、先頭行が列名になります。1行目からデータとして取り込む場合は、header=Noneを指定します。

読み込みデータの確認

それでは、取込したデータを見てみましょう。

データの中身を確認(先頭から20行)

df.head(20)

データの個数を確認

df.info()

列名の確認

df.columns

各列の型を確認

df.dtypes

csvファイルの書き込み

Pandasデータを、CSVファイル(output.csv)にエクスポートします

output.csv に保存

df.to_csv(“output.csv”,header=False)

ポイント

ヘッダー(列名)、インデックスの出力は、オプション指定をする(デフォルトはTrue)

  • header=True:出力、False:未出力
  • index=True:出力、False:未出力

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


上の計算式の答えを入力してください

CAPTCHA