Skip to content

Instantly share code, notes, and snippets.

@evrenarslan
Created May 19, 2020 14:04
Show Gist options
  • Save evrenarslan/0043e5422823e82b33c25d1fb58f64f3 to your computer and use it in GitHub Desktop.
Save evrenarslan/0043e5422823e82b33c25d1fb58f64f3 to your computer and use it in GitHub Desktop.

Revisions

  1. evrenarslan created this gist May 19, 2020.
    650 changes: 650 additions & 0 deletions KNN Algoritması.ipynb
    Original file line number Diff line number Diff line change
    @@ -0,0 +1,650 @@
    {
    "cells": [
    {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
    "# K-Nearest Neighbors (KNN) Algoritması"
    ]
    },
    {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
    "KNN sınıflandırma algoritmalarından biridir. KNN içerisinde tahmin edilecek değerin bağımsız değişkenlerinin oluşturduğu vektörün en yakın komşularının hangi sınıfta yoğun olduğu bilgisi üzerinden sınıfını tahmin etmeye dayanır. \n",
    "\n",
    "Sınıflandırma yapmak için iki değer kullanırılır:\n",
    "* Distance (Uzaklık): Tahmin edilecek vektörürün diğer noktalara uzaklığı hesaplanır. Bunun için Minkowski uzaklık hesaplama fonksiyonu kullanılır. \n",
    "* K (komuşuluk sayısı): En yakın kaç komşu üzerinden hesaplama yapılacağını söyleriz. K değeri sonucu direkt etkileceyecektir. K 1 olursa overfit etme olasılığı çok yüksek olacaktır. Çok büyük olursada çok genel sonuçlar verecektir. Bu sebeple optimum K değerini tahmin etmek problemin asıl konusu olarak karşımızda durmaktadır. K değerinin önemini aşağıdaki grafik çok güzel bir şekilde göstermektedir. Eğer K=3 seçersek yıldız ile gösterilen nokta Class B olarak sınıflandırılır. Fakat K=6 seçersek sınıflandırma algoritması yıldız noktasını Class A olarak tanımlayacaktır.\n",
    "\n",
    "<img src=\"https://ibm.box.com/shared/static/mgkn92xck0z05v7yjq8pqziukxvc2461.png\">\n",
    "\n",
    "KNN ile yaratılmış bir modelin başarımını ölçmek için 3 adet Indikatör vardır.\n",
    "\n",
    "* Jaccard Index: Doğru tahmin kümesi ile gerçek değer kümesinin kesişim kümesinin bunların birleşim kümesine oranıdır.1 ile 0 arası değer alır. ***Büyük*** değer daha iyi başarım anlamına gelir. \n",
    "* F1-Score: Confusion Matriks üzerinden hesaplanan Precission ve Recall değerlerinden hesaplanır. Pre=TP/(TP+FP) Rec=TP/(TP+FN) F1-Score= 2*((Pre*Rec)/(Pre+Rec)) 1 ile 0 arası değer alır. ***Büyük*** değer daha iyi başarım anlamına gelir.\n",
    "* LogLoss: Logistic Regresyon sonunda tahminlerin olasılıkları üzerinden LogLoss değeri hesaplanır. 1 ile 0 arası değer alır. ***Küçük*** değer daha iyi başarım anlamına gelir. "
    ]
    },
    {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
    "## KNN ile Müşteri Segmantasyonu"
    ]
    },
    {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
    "Örnek olarak bir telefon şirketinin örnek verileri üzerinden müşteri kategorisini tahmin eden bir model inşa etmeye çalışacağız. Tahmin etmeye çalışacağımız veri \"custcat\" kolonunda bulunuyor. Her bir sayısala değerin karşılığı aşağıdaki gibidir;\n",
    "* 1- Basic Service \n",
    "* 2- E-Service \n",
    "* 3- Plus Service \n",
    "* 4- Total Service"
    ]
    },
    {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
    "## Verinin yüklenmesi ve incelenmesi"
    ]
    },
    {
    "cell_type": "code",
    "execution_count": 1,
    "metadata": {},
    "outputs": [],
    "source": [
    "import itertools\n",
    "import numpy as np\n",
    "import matplotlib.pyplot as plt\n",
    "from matplotlib.ticker import NullFormatter\n",
    "import pandas as pd\n",
    "import numpy as np\n",
    "import matplotlib.ticker as ticker\n",
    "from sklearn import preprocessing\n",
    "%matplotlib inline"
    ]
    },
    {
    "cell_type": "code",
    "execution_count": 2,
    "metadata": {
    "scrolled": true
    },
    "outputs": [
    {
    "data": {
    "text/html": [
    "<div>\n",
    "<style scoped>\n",
    " .dataframe tbody tr th:only-of-type {\n",
    " vertical-align: middle;\n",
    " }\n",
    "\n",
    " .dataframe tbody tr th {\n",
    " vertical-align: top;\n",
    " }\n",
    "\n",
    " .dataframe thead th {\n",
    " text-align: right;\n",
    " }\n",
    "</style>\n",
    "<table border=\"1\" class=\"dataframe\">\n",
    " <thead>\n",
    " <tr style=\"text-align: right;\">\n",
    " <th></th>\n",
    " <th>region</th>\n",
    " <th>tenure</th>\n",
    " <th>age</th>\n",
    " <th>marital</th>\n",
    " <th>address</th>\n",
    " <th>income</th>\n",
    " <th>ed</th>\n",
    " <th>employ</th>\n",
    " <th>retire</th>\n",
    " <th>gender</th>\n",
    " <th>reside</th>\n",
    " <th>custcat</th>\n",
    " </tr>\n",
    " </thead>\n",
    " <tbody>\n",
    " <tr>\n",
    " <th>0</th>\n",
    " <td>2</td>\n",
    " <td>13</td>\n",
    " <td>44</td>\n",
    " <td>1</td>\n",
    " <td>9</td>\n",
    " <td>64.0</td>\n",
    " <td>4</td>\n",
    " <td>5</td>\n",
    " <td>0.0</td>\n",
    " <td>0</td>\n",
    " <td>2</td>\n",
    " <td>1</td>\n",
    " </tr>\n",
    " <tr>\n",
    " <th>1</th>\n",
    " <td>3</td>\n",
    " <td>11</td>\n",
    " <td>33</td>\n",
    " <td>1</td>\n",
    " <td>7</td>\n",
    " <td>136.0</td>\n",
    " <td>5</td>\n",
    " <td>5</td>\n",
    " <td>0.0</td>\n",
    " <td>0</td>\n",
    " <td>6</td>\n",
    " <td>4</td>\n",
    " </tr>\n",
    " <tr>\n",
    " <th>2</th>\n",
    " <td>3</td>\n",
    " <td>68</td>\n",
    " <td>52</td>\n",
    " <td>1</td>\n",
    " <td>24</td>\n",
    " <td>116.0</td>\n",
    " <td>1</td>\n",
    " <td>29</td>\n",
    " <td>0.0</td>\n",
    " <td>1</td>\n",
    " <td>2</td>\n",
    " <td>3</td>\n",
    " </tr>\n",
    " <tr>\n",
    " <th>3</th>\n",
    " <td>2</td>\n",
    " <td>33</td>\n",
    " <td>33</td>\n",
    " <td>0</td>\n",
    " <td>12</td>\n",
    " <td>33.0</td>\n",
    " <td>2</td>\n",
    " <td>0</td>\n",
    " <td>0.0</td>\n",
    " <td>1</td>\n",
    " <td>1</td>\n",
    " <td>1</td>\n",
    " </tr>\n",
    " <tr>\n",
    " <th>4</th>\n",
    " <td>2</td>\n",
    " <td>23</td>\n",
    " <td>30</td>\n",
    " <td>1</td>\n",
    " <td>9</td>\n",
    " <td>30.0</td>\n",
    " <td>1</td>\n",
    " <td>2</td>\n",
    " <td>0.0</td>\n",
    " <td>0</td>\n",
    " <td>4</td>\n",
    " <td>3</td>\n",
    " </tr>\n",
    " </tbody>\n",
    "</table>\n",
    "</div>"
    ],
    "text/plain": [
    " region tenure age marital address income ed employ retire gender \\\n",
    "0 2 13 44 1 9 64.0 4 5 0.0 0 \n",
    "1 3 11 33 1 7 136.0 5 5 0.0 0 \n",
    "2 3 68 52 1 24 116.0 1 29 0.0 1 \n",
    "3 2 33 33 0 12 33.0 2 0 0.0 1 \n",
    "4 2 23 30 1 9 30.0 1 2 0.0 0 \n",
    "\n",
    " reside custcat \n",
    "0 2 1 \n",
    "1 6 4 \n",
    "2 2 3 \n",
    "3 1 1 \n",
    "4 4 3 "
    ]
    },
    "execution_count": 2,
    "metadata": {},
    "output_type": "execute_result"
    }
    ],
    "source": [
    "df = pd.read_csv('teleCust1000t.csv')\n",
    "df.head()"
    ]
    },
    {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
    "Hangi sınıfta kaç tane müşteri olduğuna bakalım. Bu inceleme ele aldığımız verinin model oluşturmak için uygunluğu konusunda bize fikir verecektir. Eğer sınıflara göre dağılımı düzgün olmayan bir veri setimiz var ise doğru bir model geliştirmemiz mümkün olmayacaktır."
    ]
    },
    {
    "cell_type": "code",
    "execution_count": 3,
    "metadata": {},
    "outputs": [
    {
    "data": {
    "text/plain": [
    "3 281\n",
    "1 266\n",
    "4 236\n",
    "2 217\n",
    "Name: custcat, dtype: int64"
    ]
    },
    "execution_count": 3,
    "metadata": {},
    "output_type": "execute_result"
    }
    ],
    "source": [
    "df['custcat'].value_counts()"
    ]
    },
    {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
    "### Feature Set\n",
    "\n",
    "Öncelikli olarak verimizi analiz için hazırlamak gerekiyor. Scikit-learn ile çalışabilmek için bağımlı değişken ve bağımsız değişkenlerimizi ayrı ayrı numpy array tipine dönüştürmemiz gerekiyor."
    ]
    },
    {
    "cell_type": "code",
    "execution_count": 4,
    "metadata": {},
    "outputs": [
    {
    "data": {
    "text/plain": [
    "Index(['region', 'tenure', 'age', 'marital', 'address', 'income', 'ed',\n",
    " 'employ', 'retire', 'gender', 'reside', 'custcat'],\n",
    " dtype='object')"
    ]
    },
    "execution_count": 4,
    "metadata": {},
    "output_type": "execute_result"
    }
    ],
    "source": [
    "df.columns # Bir sonraki kod satırında kullanmak için kolon isimlerini yazdırıyorum. "
    ]
    },
    {
    "cell_type": "code",
    "execution_count": 5,
    "metadata": {},
    "outputs": [
    {
    "data": {
    "text/plain": [
    "array([[ 2., 13., 44., 1., 9., 64., 4., 5., 0., 0., 2.],\n",
    " [ 3., 11., 33., 1., 7., 136., 5., 5., 0., 0., 6.],\n",
    " [ 3., 68., 52., 1., 24., 116., 1., 29., 0., 1., 2.],\n",
    " [ 2., 33., 33., 0., 12., 33., 2., 0., 0., 1., 1.],\n",
    " [ 2., 23., 30., 1., 9., 30., 1., 2., 0., 0., 4.]])"
    ]
    },
    "execution_count": 5,
    "metadata": {},
    "output_type": "execute_result"
    }
    ],
    "source": [
    "# custcat kolonu hariç diğer kolonlardan bağımısız değişkenlerden oluşan bir numpy array yarattım.\n",
    "X = df[['region', 'tenure','age', 'marital', 'address', 'income', 'ed', 'employ','retire', 'gender', 'reside']] .values\n",
    "X[0:5]"
    ]
    },
    {
    "cell_type": "code",
    "execution_count": 6,
    "metadata": {},
    "outputs": [
    {
    "data": {
    "text/plain": [
    "array([1, 4, 3, 1, 3], dtype=int64)"
    ]
    },
    "execution_count": 6,
    "metadata": {},
    "output_type": "execute_result"
    }
    ],
    "source": [
    "# custcat feature kullanarak numpy array yarattım.\n",
    "y = df['custcat'].values\n",
    "y[0:5]"
    ]
    },
    {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
    "### Normalized Data\n",
    "\n",
    "Verinin KNN gibi noktalar arası mesafe temelli algoritmalarda daha başarılı sonuç elde etmek için veriler normalize edilir. "
    ]
    },
    {
    "cell_type": "code",
    "execution_count": 7,
    "metadata": {},
    "outputs": [
    {
    "data": {
    "text/plain": [
    "array([[-0.02696767, -1.055125 , 0.18450456, 1.0100505 , -0.25303431,\n",
    " -0.12650641, 1.0877526 , -0.5941226 , -0.22207644, -1.03459817,\n",
    " -0.23065004],\n",
    " [ 1.19883553, -1.14880563, -0.69181243, 1.0100505 , -0.4514148 ,\n",
    " 0.54644972, 1.9062271 , -0.5941226 , -0.22207644, -1.03459817,\n",
    " 2.55666158],\n",
    " [ 1.19883553, 1.52109247, 0.82182601, 1.0100505 , 1.23481934,\n",
    " 0.35951747, -1.36767088, 1.78752803, -0.22207644, 0.96655883,\n",
    " -0.23065004],\n",
    " [-0.02696767, -0.11831864, -0.69181243, -0.9900495 , 0.04453642,\n",
    " -0.41625141, -0.54919639, -1.09029981, -0.22207644, 0.96655883,\n",
    " -0.92747794],\n",
    " [-0.02696767, -0.58672182, -0.93080797, 1.0100505 , -0.25303431,\n",
    " -0.44429125, -1.36767088, -0.89182893, -0.22207644, -1.03459817,\n",
    " 1.16300577]])"
    ]
    },
    "execution_count": 7,
    "metadata": {},
    "output_type": "execute_result"
    }
    ],
    "source": [
    "X=preprocessing.StandardScaler().fit(X).transform(X.astype(float))\n",
    "X[0:5]"
    ]
    },
    {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
    "### Train/Test Split - Eğitim ve Test verilerin hazırlanması\n",
    "\n",
    "Bir model geliştirdikten sonra sonuçlarını bildiğimiz veriler ile modelin test edilmesi oldukça önemlidir. Bu testin ise eğitim yaparken kullanılan veri seti dışında bir veri seti olması, bize gerçek hayatta modelimizin nasıl bir performans göstereceğini söyleyecektir. Bu amaçla elimizdeki toplam veri setini train/test (eğitim/test) olarak ikiye ayıracağız."
    ]
    },
    {
    "cell_type": "code",
    "execution_count": 8,
    "metadata": {
    "scrolled": true
    },
    "outputs": [
    {
    "name": "stdout",
    "output_type": "stream",
    "text": [
    "Train set: (800, 11) (800,)\n",
    "Test set: (200, 11) (200,)\n"
    ]
    }
    ],
    "source": [
    "from sklearn.model_selection import train_test_split\n",
    "X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2, random_state=4)\n",
    "print(\"Train set:\", X_train.shape, y_train.shape)\n",
    "print(\"Test set:\",X_test.shape,y_test.shape)"
    ]
    },
    {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
    "### Modelin oluşturulması\n",
    "\n",
    "KNN algoritmasını kullanarak sınıflandırma işlemine başlayacağız. İlk olarak ***k=4 (En yakın 4 komşu içerisindeki yoğunluğa göre karar verecek)*** olarak modelimizi eğitelim "
    ]
    },
    {
    "cell_type": "code",
    "execution_count": 9,
    "metadata": {},
    "outputs": [
    {
    "data": {
    "text/plain": [
    "KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',\n",
    " metric_params=None, n_jobs=None, n_neighbors=4, p=2,\n",
    " weights='uniform')"
    ]
    },
    "execution_count": 9,
    "metadata": {},
    "output_type": "execute_result"
    }
    ],
    "source": [
    "from sklearn.neighbors import KNeighborsClassifier\n",
    "\n",
    "k=4\n",
    "neigh=KNeighborsClassifier(n_neighbors=k).fit(X_train,y_train)\n",
    "neigh"
    ]
    },
    {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
    "### Tahmin yapılması\n",
    "***neigh*** ismini verdiğimiz modelimizi eğittik. Şimdi bu model ile prediction yapalım ve sonuçların performansına bakalım."
    ]
    },
    {
    "cell_type": "code",
    "execution_count": 10,
    "metadata": {},
    "outputs": [
    {
    "data": {
    "text/plain": [
    "array([1, 1, 3, 2, 4], dtype=int64)"
    ]
    },
    "execution_count": 10,
    "metadata": {},
    "output_type": "execute_result"
    }
    ],
    "source": [
    "y_hat=neigh.predict(X_test)\n",
    "y_hat[0:5]"
    ]
    },
    {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
    "### Tahminin değerlendirilmesi\n",
    "\n",
    "Multilabel (Çoklu sonuç) tahmin yapılması durumunda bunun accuracy (doğruluğu) değerlendirmesi için ***accuracy classification score*** fonksiyonu kullanılabilir. Bu fonksiyon ***jaccard index*** benzeri bir sonuç verir."
    ]
    },
    {
    "cell_type": "code",
    "execution_count": 11,
    "metadata": {},
    "outputs": [
    {
    "name": "stdout",
    "output_type": "stream",
    "text": [
    "Eğitim verisi doğruluğu: 0.5475\n",
    "Test verisi doğruluğu: 0.32\n"
    ]
    }
    ],
    "source": [
    "from sklearn import metrics\n",
    "print(\"Eğitim verisi doğruluğu:\", metrics.accuracy_score(y_train,neigh.predict(X_train)))\n",
    "print(\"Test verisi doğruluğu:\", metrics.accuracy_score(y_test,y_hat))"
    ]
    },
    {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
    "Çok iyi bir sonuç değil. ***k=6*** için modeli tekrar eğitip sonuç karşılaştırması yapalım."
    ]
    },
    {
    "cell_type": "code",
    "execution_count": 12,
    "metadata": {},
    "outputs": [
    {
    "name": "stdout",
    "output_type": "stream",
    "text": [
    "Eğitim verisi doğruluğu: 0.51625\n",
    "Test verisi doğruluğu: 0.31\n"
    ]
    }
    ],
    "source": [
    "k=6\n",
    "neigh_6=KNeighborsClassifier(n_neighbors=k).fit(X_train,y_train)\n",
    "print(\"Eğitim verisi doğruluğu:\", metrics.accuracy_score(y_train,neigh_6.predict(X_train)))\n",
    "print(\"Test verisi doğruluğu:\", metrics.accuracy_score(y_test,neigh_6.predict(X_test)))"
    ]
    },
    {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
    "Sonuç daha iyi olmadı. Peki doğru k değerini seçtiğimizden nasıl emin olabiliriz. Daha iyi bir soru ile optimum k değerini nasıl bulabiliriz. Bunun için bir aralık için tüm k değerleri için modelimizi eğitim accuracy score üzerinden bir karşılaştırma yapıp olası en iyi k değeri bulunabilir.\n",
    "\n",
    "Örnek olsun diye k değerinin 1-10 arasındaki durumlarını inceleyelim."
    ]
    },
    {
    "cell_type": "code",
    "execution_count": 13,
    "metadata": {},
    "outputs": [
    {
    "data": {
    "text/plain": [
    "array([0.3 , 0.29 , 0.315, 0.32 , 0.315, 0.31 , 0.335, 0.325, 0.34 ])"
    ]
    },
    "execution_count": 13,
    "metadata": {},
    "output_type": "execute_result"
    }
    ],
    "source": [
    "Ks = 10\n",
    "mean_acc = np.zeros((Ks-1))\n",
    "std_acc = np.zeros((Ks-1))\n",
    "ConfustionMx = [];\n",
    "for n in range(1,Ks):\n",
    " \n",
    " #Train Model and Predict \n",
    " neigh = KNeighborsClassifier(n_neighbors = n).fit(X_train,y_train)\n",
    " yhat=neigh.predict(X_test)\n",
    " mean_acc[n-1] = metrics.accuracy_score(y_test, yhat)\n",
    "\n",
    " \n",
    " std_acc[n-1]=np.std(yhat==y_test)/np.sqrt(yhat.shape[0])\n",
    "\n",
    "mean_acc"
    ]
    },
    {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
    "***Accuracy ile K değeri arasındaki ilişkinin grafiğini çizelim***"
    ]
    },
    {
    "cell_type": "code",
    "execution_count": 14,
    "metadata": {},
    "outputs": [
    {
    "data": {
    "image/png": "\n",
    "text/plain": [
    "<Figure size 432x288 with 1 Axes>"
    ]
    },
    "metadata": {
    "needs_background": "light"
    },
    "output_type": "display_data"
    }
    ],
    "source": [
    "plt.plot(range(1,Ks),mean_acc,'g')\n",
    "plt.fill_between(range(1,Ks),mean_acc - 1 * std_acc,mean_acc + 1 * std_acc, alpha=0.10)\n",
    "plt.legend(('Accuracy ', '+/- 3xstd'))\n",
    "plt.ylabel('Accuracy ')\n",
    "plt.xlabel('Number of Nabors (K)')\n",
    "plt.tight_layout()\n",
    "plt.show()"
    ]
    },
    {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
    "Yukarıdaki grafikten gözle gördüğümüzü sonucu direkt array içerisinden seçebiliriz."
    ]
    },
    {
    "cell_type": "code",
    "execution_count": 15,
    "metadata": {},
    "outputs": [
    {
    "name": "stdout",
    "output_type": "stream",
    "text": [
    "En yüksek Doğruluk= 0.34 K= 9 olduğunda gerçekleşti.\n"
    ]
    }
    ],
    "source": [
    "print( \"En yüksek Doğruluk=\", mean_acc.max(), \"K=\", mean_acc.argmax()+1,\"olduğunda gerçekleşti.\") "
    ]
    }
    ],
    "metadata": {
    "kernelspec": {
    "display_name": "Python 3",
    "language": "python",
    "name": "python3"
    },
    "language_info": {
    "codemirror_mode": {
    "name": "ipython",
    "version": 3
    },
    "file_extension": ".py",
    "mimetype": "text/x-python",
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
    "version": "3.8.2"
    }
    },
    "nbformat": 4,
    "nbformat_minor": 4
    }