python预测多自变量数据(python实现离散型变量分组统计)
python预测多自变量数据(python实现离散型变量分组统计)43import numpy as np2import pandas as pd
实现功能:
按离散型变量进行分组统计,比如一个离散型变量A有1,2,3,4四种取值类型,另一个离散型变量B有0,1两种取值类型,统计A1B0,A1B1,A2B0,A2B1,A3B0,A3B1,A4B0,A4B1这八组其他变量的记录数。
实现代码:
1 |
import numpy as np |
2 |
import pandas as pd |
3 | |
4 |
def Read_data(file): |
5 |
dt = pd.read_csv(file) |
6 |
dt.columns = ['age' 'sex' 'chest_pain_type' 'resting_blood_pressure' 'cholesterol' |
7 |
'fasting_blood_sugar' 'rest_ecg' 'max_heart_rate_achieved' 'exercise_induced_angina' |
8 |
'st_depression' 'st_slope' 'num_major_vessels' 'thalassemia' 'target'] |
9 |
data =dt |
10 |
pd.set_option('display.max_rows' None) |
11 |
pd.set_option('display.max_columns' None) |
12 |
pd.set_option('display.width' None) |
13 |
pd.set_option('display.unicode.ambiguous_as_wide' True) |
14 |
pd.set_option('display.unicode.east_asian_width' True) |
15 |
print(data.head().append(dt.tail())) |
16 |
return data |
17 | |
18 |
def Segment_statistics(data): |
19 |
#=======离散型变量分组统计========================= |
20 |
tmp3 = data.groupby(['chest_pain_type' 'sex']) |
21 |
print(tmp3.count()) |
22 |
return |
23 | |
24 |
if __name__=="__main__": |
25 |
data1=Read_data("F:\数据杂坛\\0504\heartdisease\Heart-Disease-Data-Set-main\\UCI Heart Disease Dataset.csv") |
26 |
Segment_statistics(data1) |
实现效果:
一个离散型变量A有1,2,3,4四种取值类型,另一个离散型变量B有0,1两种取值类型,统计A1B0,A1B1,A2B0,A2B1,A3B0,A3B1,A4B0,A4B1这八组其他变量的记录数。
喜欢记得点赞,在看,收藏,
关注V订阅号:数据杂坛,获取完整代码和效果,将持续更新!