python工具——Pandas详解编程语言

Pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能

安装

pip install Pandas

Pandas 的主要数据结构是 Series(一维数据)与 DataFrame(二维数据)

Series是一种类似于一维数组的对象,它由
一组数据(各种NumPy数据类型)以及一组与之相关的
数据标签(即索引)组成,即index和values两部分,可以通过索引的方式选取Series中的单个或一组值。
import numpy as np, pandas as pd 
arr1 = np.arange(10) 
s1 = pd.Series(arr1) 
print(s1)

python工具——Pandas详解编程语言

DataFrame是一个表格型的数据类型,每列值类型可以不同

import pandas as pd 
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'], 
        'year': [2014, 2015, 2016, 2017, 2018, 2019], 
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]} 
df= pd.DataFrame(data) 
print(df)

python工具——Pandas详解编程语言

Pandas基本操作

可视化——结合matplotlib API实现的

import pandas as pd 
import matplotlib.pyplot as plt 
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'], 
        'year': [2014, 2015, 2016, 2017, 2018, 2019], 
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]} 
df= pd.DataFrame(data) 
plt.figure(); 
df['pop'].diff().hist() 
plt.show()

python工具——Pandas详解编程语言

密度图

import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt 
ser = pd.Series(np.random.randn(1000)) 
ser.plot.kde() 
plt.show()

python工具——Pandas详解编程语言

创建散点图矩阵

import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt 
from pandas.plotting import scatter_matrix 
df = pd.DataFrame(np.random.randn(1000, 4), columns=['a', 'b', 'c', 'd']) 
scatter_matrix(df, alpha=0.2, figsize=(6, 6), diagonal='kde') 
plt.show()

python工具——Pandas详解编程语言

原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/20469.html

(0)
上一篇 2021年7月19日
下一篇 2021年7月19日

相关推荐

发表回复

登录后才能评论