Pandas教程

1. Pandas教程

Pandas注意事項＆竅門

1. Pandas注意事項＆竅門

Pandas IO工具

1. Pandas IO工具

Pandas重建索引

1. Pandas重建索引

Pandas稀疏數據

1. Pandas稀疏數據

Pandas時間差（Timedelta）

1. Pandas時間差（Timedelta）

Pandas聚合

1. Pandas聚合

Pandas字符串和文本數據

1. Pandas字符串和文本數據

Pandas分類數據

1. Pandas分類數據

Pandas索引和選擇數據

1. Pandas索引和選擇數據

Pandas基本功能

1. Pandas基本功能

Pandas系列

1. Pandas系列

Pandas數據幀（DataFrame）

1. Pandas數據幀（DataFrame）

Pandas日期功能

1. Pandas日期功能

Pandas缺失數據

1. Pandas缺失數據

Pandas與SQL比較

1. Pandas與SQL比較

Pandas迭代

1. Pandas迭代

Pandas合并/連接

1. Pandas合并/連接

Pandas選項和自定義

1. Pandas選項和自定義

Pandas級聯

1. Pandas級聯

Pandas可視化

1. Pandas可視化

Pandas數據結構

1. Pandas數據結構

Pandas環(huán)境安裝配置

1. Pandas環(huán)境安裝配置

Pandas統計函數

1. Pandas統計函數

Pandas窗口函數

1. Pandas窗口函數

Pandas面板（Panel）

1. Pandas面板（Panel）

Pandas排序

1. Pandas排序

Pandas函數應用

1. Pandas函數應用

Pandas快速入門

1. Pandas快速入門

Pandas描述性統計

1. Pandas描述性統計

Pandas分組（GroupBy）

1. Pandas分組（GroupBy）

Pandas IO工具

Pandas I/O API是一套像pd.read_csv()一樣返回Pandas對象的頂級讀取器函數。

讀取文本文件(或平面文件)的兩個主要功能是read_csv()和read_table()。它們都使用相同的解析代碼來智能地將表格數據轉換為DataFrame對象 -

pandas.read_csv(filepath_or_buffer, sep=',', delimiter=None, header='infer',
names=None, index_col=None, usecols=None)

形式2-

pandas.read_csv(filepath_or_buffer, sep='\t', delimiter=None, header='infer',
names=None, index_col=None, usecols=None)

以下是csv文件數據的內容 -

S.No,Name,Age,City,Salary
1,Tom,28,Toronto,20000
2,Lee,32,HongKong,3000
3,Steven,43,Bay Area,8300
4,Ram,38,Hyderabad,3900

將這些數據保存為temp.csv并對其進行操作。

S.No,Name,Age,City,Salary
1,Tom,28,Toronto,20000
2,Lee,32,HongKong,3000
3,Steven,43,Bay Area,8300
4,Ram,38,Hyderabad,3900

read.csv

read.csv從csv文件中讀取數據并創(chuàng)建一個DataFrame對象。

import pandas as pd
df=pd.read_csv("temp.csv")
print (df)

執(zhí)行上面示例代碼，得到以下結果 -

   S.No    Name  Age       City  Salary
0     1     Tom   28    Toronto   20000
1     2     Lee   32   HongKong    3000
2     3  Steven   43   Bay Area    8300
3     4     Ram   38  Hyderabad    3900

自定義索引

可以指定csv文件中的一列來使用index_col定制索引。

import pandas as pd

df=pd.read_csv("temp.csv",index_col=['S.No'])
print (df)

執(zhí)行上面示例代碼，得到以下結果 -

        Name  Age       City  Salary
S.No                                
1        Tom   28    Toronto   20000
2        Lee   32   HongKong    3000
3     Steven   43   Bay Area    8300
4        Ram   38  Hyderabad    3900

轉換器
dtype的列可以作為字典傳遞。

import pandas as pd
import numpy as np
df = pd.read_csv("temp.csv", dtype={'Salary': np.float64})
print (df.dtypes)

執(zhí)行上面示例代碼，得到以下結果 -

S.No        int64
Name       object
Age         int64
City       object
Salary    float64
dtype: object

默認情況下，Salary列的dtype是int，但結果顯示為float，因為我們明確地轉換了類型。

因此，數據看起來像浮點數 -

  S.No   Name   Age      City    Salary
0   1     Tom   28    Toronto   20000.0
1   2     Lee   32   HongKong    3000.0
2   3  Steven   43   Bay Area    8300.0
3   4     Ram   38  Hyderabad    3900.0

header_names
使用names參數指定標題的名稱。

import pandas as pd
import numpy as np

df=pd.read_csv("temp.csv", names=['a', 'b', 'c','d','e'])
print (df)

執(zhí)行上面示例代碼，得到以下結果 -

      a       b    c          d       e
0  S.No    Name  Age       City  Salary
1     1     Tom   28    Toronto   20000
2     2     Lee   32   HongKong    3000
3     3  Steven   43   Bay Area    8300
4     4     Ram   38  Hyderabad    3900

觀察可以看到，標題名稱附加了自定義名稱，但文件中的標題還沒有被消除。現在，使用header參數來刪除它。

如果標題不是第一行，則將行號傳遞給標題。這將跳過前面的行。

import pandas as pd
import numpy as np

df=pd.read_csv("temp.csv",names=['a','b','c','d','e'],header=0)
print (df)

執(zhí)行上面示例代碼，得到以下結果 -

   a       b   c          d      e
0  1     Tom  28    Toronto  20000
1  2     Lee  32   HongKong   3000
2  3  Steven  43   Bay Area   8300
3  4     Ram  38  Hyderabad   3900

skiprows

skiprows跳過指定的行數。參考以下示例代碼 -

import pandas as pd
import numpy as np

df=pd.read_csv("temp.csv", skiprows=2)
print (df)

執(zhí)行上面示例代碼，得到以下結果 -

   2     Lee  32   HongKong  3000
0  3  Steven  43   Bay Area  8300
1  4     Ram  38  Hyderabad  3900

上一篇：Pandas聚合下一篇：Pandas數據幀（DataFrame）