Feature_selection-hmchzb19-ChinaUnix博客

Linuxer

首页　| 　博文目录　| 　关于我

hmchzb19

博客访问： 1812990
博文数量： 297
博客积分： 285
博客等级：二等列兵
技术积分： 3006
用户组：普通用户
注册时间： 2010-03-06 22:04

个人简介

Linuxer, ex IBMer. GNU https://hmchzb19.github.io/

文章分类

全部博文（297）

machine_learning（16）
PYthon_Design_Pa（1）
数学（1）
Data Struct（1）
scheme（3）
Container（1）
sqlite3（1）
firefox（4）
Tor（1）
java（30）
生活（2）
测试生涯（1）
互联网（4）
algorithm（4）
ubuntu（4）
安全和kali （35）
windows（5）
cloud_manage（3）
tcp/ip（1）
security（5）
Linux（74）
python（70）
C（9）
postgresql（5）
shell（3）
db2（3）
oracle（3）
Power-VM虚拟化（7）
未分配的博文（0）

文章存档

2020年（11）

2019年（15）

2018年（43）

2017年（79）

2016年（79）

2015年（58）

2014年（1）

2013年（8）

2012年（3）

我的朋友

相关博文

Feature_selection

分类：大数据

2020-04-07 14:13:55

记录下最近在看的两个博客
刘建平Pinard

参考了

数据文件仍然使用了上一篇中的才有了我这篇文章，在他的４种method之外，我多加了一个RandomForestClassifier, 但是RandomForestClassifier和ExtraTreesClassifier结果非常接近.

代码如下：

点击(此处)折叠或打开

# coding: utf-8
import pandas as pd, numpy as np
import statsmodels.api as sm
import statsmodels.formula.api as smf
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import (accuracy_score, f1_score, confusion_matrix)
from sklearn.ensemble import (RandomForestClassifier, ExtraTreesClassifier)
sns.set()
#Handle data
col_names=['preg','plas','pres','skin','insu','mass','pedi','age','class']
data=pd.read_csv('data/pima-indians-diabetes.csv',header=None,names=col_names)
X=data.drop('class', axis=1)
y=data['class']
#pring X.shape and y.shape
print(X.shape, y.shape,'\n')
#using PCA -- Principal Component Analysis
def pca_select():
from sklearn.decomposition import PCA
pca=PCA()
pca.fit(X)
#sum of this list almost == 1
print(sum(pca.explained_variance_ratio_))
#print the features according to their importance
print("Print the feature importance from biggest to smallest")
for i in pca.explained_variance_ratio_:
print('{:.6f}'.format(i))
#or use map
'''
for i in map('{:.6f}'.format , pca.explained_variance_ratio_):
print(i,end='\t')
'''
print()
pca_select()
from sklearn.feature_selection import (f_classif,SelectKBest)
def univariate_select():
test=SelectKBest(score_func=f_classif, k=4)
fit=test.fit(X, y)
print("feature scores: {}".format(fit.scores_))
#a higher score means higher importance
for score, feature in sorted(zip(fit.scores_, list(X))):
print('score {:<20} of feature {}'.format(score, feature))
features=fit.transform(X)
#print first 5 line of these 4 features
print(features[0:5, :])
#confirm the 4 features being selected are "preg", "plas", "mass", "age",
assert np.array_equal(features, np.array(X[["preg", "plas", "mass", "age", ]]))
univariate_select()
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression
def RFE_select():
model = LogisticRegression(solver='lbfgs')
rfe=RFE(model, 4)
fit=rfe.fit(X, y)
print('\n')
print("Num Features: {}".format(fit.n_features_))
print("Selected Features: {}".format(fit.support_))
print("Feature ranking, those with rank 1 will be choosen:\n{}".format(fit.ranking_))
#print the 4 feature names to be choosen
print("The 4 features to be choosen:")
for idx,value in enumerate(fit.ranking_):
if value==1:
print(list(X)[idx], end='\t')
RFE_select()
def rlf_select():
rnd_clf = RandomForestClassifier(random_state=0, n_estimators=100)
rnd_clf.fit(X, y)
rnd_name=rnd_clf.__class__.__name__
feature_importances = rnd_clf.feature_importances_
importance = sorted(zip(feature_importances, list(X)), reverse=True)
print('\n\n{} most important features ( {} )'.format(4, rnd_name))
print("The 4 features to be choosen:")
[print(row) for i, row in enumerate(importance) if i < 4]
rlf_select()
def et_select():
et_clf = ExtraTreesClassifier(random_state=0, n_estimators=100)
et_clf.fit(X, y)
et_name=et_clf.__class__.__name__
feature_importances = et_clf.feature_importances_
importance = sorted(zip(feature_importances, list(X)), reverse=True)
print('\n\n{} most important features ( {} )'.format(4, et_name))
print("The 4 features to be choosen:")
[print(row) for i, row in enumerate(importance) if i < 4]
et_select()

阅读(950) | 评论(0) | 转发(0) |

上一篇：Standardization_example

下一篇：logistic_regression

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6