Skip to content

Instantly share code, notes, and snippets.

@evrenarslan
Created April 15, 2020 19:22
Show Gist options
  • Select an option

  • Save evrenarslan/be8645a9f222435c98884e66a157a4b3 to your computer and use it in GitHub Desktop.

Select an option

Save evrenarslan/be8645a9f222435c98884e66a157a4b3 to your computer and use it in GitHub Desktop.
Display the source blob
Display the rendered blob
Raw
{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# Box Plot (Kutu Grafiği)\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Box Plot (Kutu Grafiği) bize tek bir şekilde 5 adet istatistiki veriyi görselleştirmemizi sağlar. Bunlar:\n",
"\n",
"* ***Minumum:*** Veri seti içerisindeki en küçük değer\n",
"* ***First Quartile (ilk çeyrek):*** En küçük değer ile median'ın tam orta noktadadır. Q1\n",
"* ***Median (medyan):*** Veri setindeki orta noktadır. Önce veri seti küçükten büyüğe sıralanır. Eleman sayının tam orta noktasındaki değerdir. Bu değer aritmetik ortalama değildir.\n",
"* ***Third Quartile (üçüncü çeyrek):*** Median ile en büyük değerin tam orta noktadır. Q3\n",
"* ***Maximum:*** En büyük değer.\n",
"\n",
"Bu grafik bu değerlerin grafik olarak görünmesi dışında outlier olan değerlerin tespitini daha kolay sağlar. Normal dağılımda maximum ve minumum değer ***(maximum=Q3 + 1,5*IQR , minumum=Q1-1,5*IQR)*** değerleri olarak kabul edilir ve bunun dışında kalan değerler outlier olarak kabul edilir. \n",
"\n",
"***IQR= Q1 ile Q3 arasındaki mesafe***\n",
"\n",
"\n",
"Box plot çizmek için <code>df.plot(kind=\"box\")</code> parametresi kullanılır."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Örnekte kullandığımız veri setine ulaşmak için:\n",
"\n",
"https://www.un.org/en/development/desa/population/migration/data/empirical2/migrationflows.asp"
]
},
{
"cell_type": "code",
"execution_count": 1,
"metadata": {},
"outputs": [],
"source": [
"import numpy as np\n",
"import pandas as pd"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Datanın oluşturulması"
]
},
{
"cell_type": "code",
"execution_count": 2,
"metadata": {},
"outputs": [],
"source": [
"# Grafikte kullanacağımız datayı yükleyelim.\n",
"df_can = pd.read_excel('Canada.xlsx',\n",
" sheet_name='Canada by Citizenship',\n",
" skiprows=range(20),\n",
" skipfooter=2\n",
" )\n",
"# Bize gerekli olmayan kolonları silelim\n",
"df_can.drop(['AREA', 'REG', 'DEV', 'Type', 'Coverage'], axis=1, inplace=True)\n",
"# Kolon isimlerini değiştirelim\n",
"df_can.rename(columns={'OdName':'Country', 'AreaName':'Continent','RegName':'Region'}, inplace=True)\n",
"# Kolon isimlerini string yapalım\n",
"df_can.columns = list(map(str, df_can.columns))\n",
"# Country kolonunu index yapalım\n",
"df_can.set_index('Country', inplace=True)\n",
"# Index adını silelim\n",
"df_can.index.name=None\n",
"# Göçmen sayısın toplamını gösteren Total isimli bir kolon ekleyelim\n",
"df_can['Total'] = df_can.sum(axis=1)\n",
"# Grafik çizerken kullanmak üzere years adınsa bir dizi oluşturalım\n",
"years = list(map(str, range(1980, 2014)))"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Grafiğin oluşturulması"
]
},
{
"cell_type": "code",
"execution_count": 3,
"metadata": {},
"outputs": [],
"source": [
"%matplotlib inline\n",
"\n",
"import matplotlib as mlp\n",
"import matplotlib.pyplot as plt\n",
"\n",
"mlp.style.use(\"ggplot\")"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Box Plot örneği için Japonya'dan gelen göçmenlerin durumunu inceleyelim."
]
},
{
"cell_type": "code",
"execution_count": 5,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>Japan</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>1980</th>\n",
" <td>701</td>\n",
" </tr>\n",
" <tr>\n",
" <th>1981</th>\n",
" <td>756</td>\n",
" </tr>\n",
" <tr>\n",
" <th>1982</th>\n",
" <td>598</td>\n",
" </tr>\n",
" <tr>\n",
" <th>1983</th>\n",
" <td>309</td>\n",
" </tr>\n",
" <tr>\n",
" <th>1984</th>\n",
" <td>246</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
],
"text/plain": [
" Japan\n",
"1980 701\n",
"1981 756\n",
"1982 598\n",
"1983 309\n",
"1984 246"
]
},
"execution_count": 5,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df_japan=df_can.loc[[\"Japan\"],years].transpose()\n",
"df_japan.head()"
]
},
{
"cell_type": "code",
"execution_count": 9,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
"<Figure size 576x432 with 1 Axes>"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"df_japan.plot(kind=\"box\",figsize=(8,6))\n",
"\n",
"plt.title(\"Japon Göçmen Sayısı 1980-2013 Arası\")\n",
"plt.ylabel(\"Göçmen sayısı\")\n",
"\n",
"plt.show()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Yukarıdaki grafiği yorumlayalım.\n",
"* En düşük göçmen sayısının 200 olduğunu, en yükseğinin ~1300 olduğunu görüyoruz.\n",
"* Bu yıllar arasında, yılların %25'inde göçmen sayısının ~500'den küçük olduğunu.\n",
"* Yine bu yıllar arasında, yılların %75'inde göçmen sayısını ~1100'den küçük olduğunu \n",
"* Yılların yarısında göçmen sayısının ~900'den büyük olduğunu \n",
"\n",
"görüyoruz."
]
},
{
"cell_type": "code",
"execution_count": 10,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>Japan</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>count</th>\n",
" <td>34.000000</td>\n",
" </tr>\n",
" <tr>\n",
" <th>mean</th>\n",
" <td>814.911765</td>\n",
" </tr>\n",
" <tr>\n",
" <th>std</th>\n",
" <td>337.219771</td>\n",
" </tr>\n",
" <tr>\n",
" <th>min</th>\n",
" <td>198.000000</td>\n",
" </tr>\n",
" <tr>\n",
" <th>25%</th>\n",
" <td>529.000000</td>\n",
" </tr>\n",
" <tr>\n",
" <th>50%</th>\n",
" <td>902.000000</td>\n",
" </tr>\n",
" <tr>\n",
" <th>75%</th>\n",
" <td>1079.000000</td>\n",
" </tr>\n",
" <tr>\n",
" <th>max</th>\n",
" <td>1284.000000</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
],
"text/plain": [
" Japan\n",
"count 34.000000\n",
"mean 814.911765\n",
"std 337.219771\n",
"min 198.000000\n",
"25% 529.000000\n",
"50% 902.000000\n",
"75% 1079.000000\n",
"max 1284.000000"
]
},
"execution_count": 10,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# Yukarıda grafikten yorumlayarak tahmin ettiğimiz değerlerin gerçekte ne olduğunu aşağıdaki gibi görebiliriz.\n",
"df_japan.describe()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Birden fazla ülke için durumu inceleyeceğimizi bir örnek yapalım. Bunun için China ve India örneklerine bakalım."
]
},
{
"cell_type": "code",
"execution_count": 11,
"metadata": {},
"outputs": [],
"source": [
"df_CI=df_can.loc[[\"China\",\"India\"],years].transpose()"
]
},
{
"cell_type": "code",
"execution_count": 12,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>China</th>\n",
" <th>India</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>1980</th>\n",
" <td>5123</td>\n",
" <td>8880</td>\n",
" </tr>\n",
" <tr>\n",
" <th>1981</th>\n",
" <td>6682</td>\n",
" <td>8670</td>\n",
" </tr>\n",
" <tr>\n",
" <th>1982</th>\n",
" <td>3308</td>\n",
" <td>8147</td>\n",
" </tr>\n",
" <tr>\n",
" <th>1983</th>\n",
" <td>1863</td>\n",
" <td>7338</td>\n",
" </tr>\n",
" <tr>\n",
" <th>1984</th>\n",
" <td>1527</td>\n",
" <td>5704</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
],
"text/plain": [
" China India\n",
"1980 5123 8880\n",
"1981 6682 8670\n",
"1982 3308 8147\n",
"1983 1863 7338\n",
"1984 1527 5704"
]
},
"execution_count": 12,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df_CI.head()"
]
},
{
"cell_type": "code",
"execution_count": 16,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
"<Figure size 720x504 with 1 Axes>"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"df_CI.plot(kind=\"box\",figsize=(10,7))\n",
"\n",
"plt.title(\"Çin ve Hindistan Göçmen Sayısı 1980-2013 Arası\")\n",
"plt.ylabel(\"Göçmen sayısı\")\n",
"\n",
"plt.show()\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"China ve India için median değerleri yaklaşık olarak oaynı olmakla birlikte diğer değerlerde China daha yüksek değerler ulaşmış.\n",
"\n",
"***Grafiği yatay olarak çizdirebiliriz***"
]
},
{
"cell_type": "code",
"execution_count": 17,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
"<Figure size 720x504 with 1 Axes>"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"df_CI.plot(kind=\"box\",figsize=(10,7),color=\"blue\",vert=False) # Renk değiştirdim ve yatay olarak çizdim. \n",
"\n",
"plt.title(\"Çin ve Hindistan Göçmen Sayısı 1980-2013 Arası\")\n",
"plt.ylabel(\"Göçmen sayısı\")\n",
"\n",
"plt.show()"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": []
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.7.4"
}
},
"nbformat": 4,
"nbformat_minor": 2
}
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment