SVC

d8c3a408 · Mychajlo Chodorev · e12f9012 · d8c3a408
Commit d8c3a408 authored 5 years ago by Mychajlo Chodorev
--- a/model_builder.py
+++ b/model_builder.py
+import numpy as np
+import pandas as pd
+from sklearn import metrics
+from sklearn import preprocessing
+from sklearn import svm
+#from sklearn.linear_model import LogisticRegression
+from sklearn.model_selection import train_test_split
+#from sklearn.naive_bayes import BernoulliNB
+from progressbar import progressbar
+import joblib
+
+def get_model():
+    print("Reading data...")
+    df_data = pd.read_csv('data/data_cleansed.csv').drop(columns=['Unnamed: 0', 'Unnamed: 0.1', 'data_type'])
+
+    selected_features = pd.read_csv('data/selected_features.csv').iloc[:, 0]
+    #df_data = df_data.set_index("intClinicalTrialID")
+    #df_data = df_data.join(pd.DataFrame(columns = selected_features), rsuffix = '_right')
+    y = df_data['approved']
+    df_data = df_data[selected_features]
+
+    print("Normalizing data...")
+    X = preprocessing.StandardScaler().fit(df_data).transform(df_data.astype(float))
+
+    print("Creating train and test sets...")
+    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 4)
+
+    # BernoulliNB
+    # print("Training BernoulliNB model...")
+    # nb = BernoulliNB().fit(X_train, y_train)
+    # y_hat = nb.predict(X_test)
+    # print("Accuracy: {}".format(metrics.accuracy_score(y_test, y_hat)))
+
+
+    # SVM
+    print("Training SVM...")
+    svc_rbf = svm.SVC(kernel = 'rbf', C = 100, probability = True).fit(X_train, y_train)
+    #print("RBF accuracy: {}".format(metrics.accuracy_score(y_test, svc_rbf.predict(X_test))))
+    return svc_rbf
+
+    #Logistic regression
+    #lr = LogisticRegression(C = 0.01).fit(X_train, y_train)
+    #print("Logistic regression accuracy: {}".format(metrics.accuracy_score(y_test, lr.predict(X_test))))
+    
+if __name__ == "__main__":
+    joblib.dump(get_model(), 'data/model.svc')