pandas(三)汇总和计算描述统计详解大数据

pandas对象有一些常用的数学和统计的方法,大部分都属于约简或汇总统计。

SUM方法

DataFrame对象的sum方法,返回一个含有列小计的Series

>>> df = DataFrame([[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],index = ['a','b','c','d'],columns = ['one','two']) 
>>> 
>>> 
>>> df 
    one  two 
a  1.40  NaN 
b  7.10 -4.5 
c   NaN  NaN 
d  0.75 -1.3 
>>> df.sum() 
one    9.25 
two   -5.80 
dtype: float64 
>>> df.sum(axis=1) 
a    1.40 
b    2.60 
c    0.00 
d   -0.55 
dtype: float64

NA值会自动被踢除(新版本会自动转换为0)。可以通过skipna选项禁用此功能。

>>> df.sum(axis=1,skipna = False) 
a     NaN 
b    2.60 
c     NaN 
d   -0.55 
dtype: float64 
>>> df.sum(skipna =False) 
one   NaN 
two   NaN 
dtype: float64

 

常用的统计方法:

######################## ******************************************
count 非 NA 值的数量
describe 针对 Series 或 DF 的列计算汇总统计
min , max 最小值和最大值
argmin , argmax 最小值和最大值的索引位置(整数)
idxmin , idxmax 最小值和最大值的索引值
quantile 样本分位数(0 到 1)
sum 求和
mean 均值
median 中位数
mad 根据均值计算平均绝对离差
var 方差
std 标准差
skew 样本值的偏度(三阶矩)
kurt 样本值的峰度(四阶矩)
cumsum 样本值的累计和
cummin , cummax 样本值的累计最大值和累计最小值
cumprod 样本值的累计积
diff 计算一阶差分(对时间序列很有用)
pct_change 计算百分数变化

统计方法的常用选项

axis=None,skipna = True,level=None

原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/tech/bigdata/9219.html

(0)
上一篇 2021年7月19日 09:18
下一篇 2021年7月19日 09:18

相关推荐

发表回复

登录后才能评论