Имате два начина да ги подкарате:\n", + "\n", + "* `pip install`\n", + "* Anaconda (" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "skip" + } + }, + "source": [ + "Ние предпочитаме първия подход, понеже сме относително уверени в Python и ни е по-прозрачно така.\n", + "Бихме ви предложили да направите същото. Разбира се, може да пробвате и Anaconda.\n", + "Няма голямо значение кое от двете ще изберете, стига да ви е комфортно." + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "slide" + } + }, + "source": [ + "# `pip install`\n", + "\n", + "За да начало са ви нужни следните неща:\n", + "\n", + "```\n", + "pip install numpy scipy matplotlib ipython scikit-learn pandas pillow mglearn jupyter\n", + "```" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "fragment" + } + }, + "source": [ + "Конкретно:\n", + "\n", + "* numpy, scipy – библиотеки за \"работа с числа\"\n", + "* matplotlib, pillow – чертане на графики\n", + "* scikit-learn – machine learning, тук се случва магията\n", + "* ipython – по-шантава интерактивна конзола\n", + "* jupyter – система за notebooks за Python (и други)\n", + "* pandas – библиотека за анализ на данни\n", + "* mglearn – библиотеката на [Machine Learning with Python](, има полезни функции за чертане" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "subslide" + } + }, + "source": [ + "Веднъж като сте качили всичко това, просто изпълнете в терминала:\n", + "\n", + "```\n", + "jupyter notebook\n", + "```\n", + "\n", + "Това ще ви отвори браузър, където може да започнете работа." + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "slide" + } + }, + "source": [ + "# Anaconda\n", + "\n", + "Идете на сайта и си го изтеглете. Нататък сте вие самите.\n", + "\n", + "" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "slide" + } + }, + "source": [ + "# Jupyter\n", + "\n", + "За начало, нека разгледаме Jupyter.\n", + "\n", + "* Интерактивна среда в notebook формат\n", + "* Позволява ви да изпълнявате код и да чертаете диаграми на едно място\n", + "* Експериментално ще го ползваме за слайдове и материали (като тази лекция, например)\n", + "\n", + "Demo!" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "skip" + } + }, + "source": [ + "Jupyter е интерактивна среда, която ви позволява да изпълявате код и да чертаете диаграми в notebook формат. Тя е много подходяща за експериментиране с модели. Допълнително, може да споделите изследванията с някой като му пратите готов notebook. Например, тази лекция е един голям jupyter notebook, който ползваме едновремено за примери и слайдове. Части от нея (като този параграф) няма да бъдат достъпни в слайдовете, но ще може да разгледате впоследствие." + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "slide" + } + }, + "source": [ + "# Python" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "skip" + } + }, + "source": [ + "Python е относително прост език за програмиране. Ще ви го разкажем в по-късна лекция – засега примерите ще бъдат частично разбираеми, частично черна магия. Не се притеснявайте ако нещо не ви е ясно. Избрали сме го, защото той има най-добрите библиотеки за machine learning. Авторите на тези библиотеки пък са го избрали, защото е много лесен за научаване.\n", + "\n", + "Стефан го мрази със страст. Може да го разпитате в някое междучасие. Нека това да не ви обезсърчава – обективно погледнато е добър език, особено за този тип проблеми." + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "subslide" + } + }, + "source": [ + "Долното парче код ще ви е нужно в повечето jupyter notebooks" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": { + "collapsed": true, + "slideshow": { + "slide_type": "-" + } + }, + "outputs": [], + "source": [ + "import numpy as np\n", + "import matplotlib.pyplot as plt\n", + "import pandas as pd\n", + "import mglearn\n", + "from IPython.display import display\n", + "\n", + "%matplotlib notebook" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "slide" + } + }, + "source": [ + "# Machine Learning\n", + "\n", + "Проблемите, подходящи за \"машинно самообучение\", имат следните качества:\n", + "\n", + "* Големи масиви от данни\n", + "* \"Нагаждаме\" различни алгоритми към проблема, докато постигнем резултат\n", + "* Тренираме модел, който ни позволява да отговорим на въпроси за нови данни\n", + "* Rule of thumb: ако човек може да реши проблема за около 2 секунди, вероятно може да направим ML решение" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "subslide" + } + }, + "source": [ + "Някои интересности:\n", + "\n", + "* Повече данни могат да ни помогнат да постигнем по-добър резлутат (до един момент)\n", + "* При коренно различни данни може да се наложи да ползваме друг алгоритъм\n", + "* Всичко е проба и грешка – трябва да пробваме различни алгоритми и да разбираме какво се случва\n", + "* Има много пинизи и дребни детайли" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "slide" + } + }, + "source": [ + "# Математика\n", + "\n", + "Каква математика ще ви е нужна? Кратката версия:\n", + "\n", + "$$ y = ax + b $$\n", + "\n", + "(където $y$ и $b$ са вектори, а $a$ и $x$ са матрици)\n", + "\n", + "Дългата версия е по-сложна." + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "skip" + } + }, + "source": [ + "Малко по-детайлно:\n", + "\n", + "Задължително ще ви трябва да разбирате от поне малко линейна алгебра. Като начало, трябва да разбирате от умножение на матрици и да ви е относително комфортно да го правите. Това е едно добро начало.\n", + "\n", + "В подробности – всеки алгоритъм си има особеностите и математиката, свързана с него. Линейната регресия е напълно разбираема с познания от първи семестър, първи курс. Други алгоритмни като Support Vector Machines или Principal Component Analysis са по-сложни и искат повече познания. На практика, може да стигнете доста далеч с повърхностно разбиране на тези алгоритми. На теория, колкото повече математика знаете, толкова по-добре ще се оправите.\n", + "\n", + "За целите на курса ще се нуждаем единствено от уравнението по-горе." + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "slide" + } + }, + "source": [ + "# Входни данни\n", + "\n", + "Обикновено работим с таблица от входни данни:\n", + "\n", + "* Всеки ред е определена инстанция (например различен човек)\n", + "* Всяка колона е характерискита на този човек (възраст, брой деца, т.н.)\n", + "* Характеристиките още се наричат (на чист български) feature-и\n", + "* Опционално към всеки ред може да има отговор на въпроса, за който правим модел (още се нарича label)\n", + "* Засега нека приемем, че клетки съдържат числа (текста може да се сведе до много feature-и)\n", + "* Обикновено разглеждаме данните като матрица $X$, а етикетите (label-ите) като вектор $y$" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "subslide" + } + }, + "source": [ + "| Възраст | Коли | Къща | Деца | Женен? | Куче? | Купува лодка? |\n", + "|---------|------|------|------|----------|-------|:-------------:|\n", + "| 66 | 1 | да | 2 | вдовец | не | **да** |\n", + "| 52 | 2 | не | 3 | женен | не | **да** |\n", + "| 22 | 0 | не | 0 | женен | да | **не** |\n", + "| 25 | 1 | не | 1 | неженен | не | **не** |\n", + "| 44 | 0 | не | 2 | разведен | не | **не** |\n", + "| 39 | 1 | да | 2 | женен | да | **не** |\n", + "| 26 | 1 | не | 2 | неженен | не | **не** |\n", + "| 40 | 3 | да | 1 | женен | да | **не** |\n", + "| 53 | 2 | да | 2 | разведен | не | **да** |\n", + "| 64 | 2 | да | 3 | разведен | не | **да** |\n", + "| 58 | 2 | да | 2 | женен | да | **да** |\n", + "| 33 | 1 | не | 1 | неженен | не | **не** |\n" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "skip" + } + }, + "source": [ + "На първите 6 колони от предната таблица може да гледате като матрицата $X$, докато на последната колона като вектора $y$.\n", + "\n", + "Булевите данни могат да се кодират като числата 0 и 1, а енумерациите (женен?) като серия от числа. Различни репрезентации може да са подходящи за различни алгоритми.\n", + "\n", + "Конвенцията $X$ и $y$ ще се ползва постоянно, така че е добре да свикнете с нея. Когато се опитваме да отговаряме на въпроси (тези хора биха ли си купили лодка?), ще подаваме хората като матрица $X$ и ще очакваме да получим вектор $y$, където всеки елемент от вектора ще съдържа отговор дали този човек би си купил лодка.\n", + "\n", + "Работата с текст обикновено се свежда до извличане на скаларни feature-и от данните (например колоните могат да съответстват на уникални думи в документа, докато клетките – на брой срещания). Това е по-дълбока вода, която ще покрием по-натам." + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "slide" + } + }, + "source": [ + "# Примерни набори от данни\n", + "\n", + "scikit-learn предлага няколко набора от примерни данни с които може да работите.\n", + "\n", + "* boston\n", + "* iris\n", + "* diabetes\n", + "* digits\n", + "* linnerud\n", + "* wine\n", + "* breast_cancer\n", + "\n", + "Всички те могат да се ползват за прости експерименти и илюстрация на моделите. Дори ще ползваме някои." + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "subslide" + } + }, + "source": [ + "Ако искате да ползвате определен dataset:" + ] + }, + { + "cell_type": "code", + "execution_count": 2, + "metadata": { + "slideshow": { + "slide_type": "-" + } + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "(506, 13)\n" + ] + } + ], + "source": [ + "from sklearn.datasets import load_boston\n", + "boston = load_boston()\n", + "print(" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "subslide" + } + }, + "source": [ + "# boston demo" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "skip" + } + }, + "source": [ + "Ето описание на boston dataset-а:" + ] + }, + { + "cell_type": "code", + "execution_count": 3, + "metadata": { + "slideshow": { + "slide_type": "skip" + } + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Boston House Prices dataset\n", + "===========================\n", + "\n", + "Notes\n", + "------\n", + "Data Set Characteristics: \n", + "\n", + " :Number of Instances: 506 \n", + "\n", + " :Number of Attributes: 13 numeric/categorical predictive\n", + " \n", + " :Median Value (attribute 14) is usually the target\n", + "\n", + " :Attribute Information (in order):\n", + " - CRIM per capita crime rate by town\n", + " - ZN proportion of residential land zoned for lots over 25,000 sq.ft.\n", + " - INDUS proportion of non-retail business acres per town\n", + " - CHAS Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)\n", + " - NOX nitric oxides concentration (parts per 10 million)\n", + " - RM average number of rooms per dwelling\n", + " - AGE proportion of owner-occupied units built prior to 1940\n", + " - DIS weighted distances to five Boston employment centres\n", + " - RAD index of accessibility to radial highways\n", + " - TAX full-value property-tax rate per $10,000\n", + " - PTRATIO pupil-teacher ratio by town\n", + " - B 1000(Bk - 0.63)^2 where Bk is the proportion of blacks by town\n", + " - LSTAT % lower status of the population\n", + " - MEDV Median value of owner-occupied homes in $1000's\n", + "\n", + " :Missing Attribute Values: None\n", + "\n", + " :Creator: Harrison, D. and Rubinfeld, D.L.\n", + "\n", + "This is a copy of UCI ML housing dataset.\n", + "\n", + "\n", + "\n", + "This dataset was taken from the StatLib library which is maintained at Carnegie Mellon University.\n", + "\n", + "The Boston house-price data of Harrison, D. and Rubinfeld, D.L. 'Hedonic\n", + "prices and the demand for clean air', J. Environ. Economics & Management,\n", + "vol.5, 81-102, 1978. Used in Belsley, Kuh & Welsch, 'Regression diagnostics\n", + "...', Wiley, 1980. N.B. Various transformations are used in the table on\n", + "pages 244-261 of the latter.\n", + "\n", + "The Boston house-price data has been used in many machine learning papers that address regression\n", + "problems. \n", + " \n", + "**References**\n", + "\n", + " - Belsley, Kuh & Welsch, 'Regression diagnostics: Identifying Influential Data and Sources of Collinearity', Wiley, 1980. 244-261.\n", + " - Quinlan,R. (1993). Combining Instance-Based and Model-Based Learning. In Proceedings on the Tenth International Conference of Machine Learning, 236-243, University of Massachusetts, Amherst. Morgan Kaufmann.\n", + " - many more! (see\n", + "\n" + ] + } + ], + "source": [ + "print(boston.DESCR)" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "skip" + } + }, + "source": [ + "Данните са в ``, имената на feature-ите са в `boston.feature_names` (съответстват не тези кратки съкращения по-горе), а очакваната цел е в ``." + ] + }, + { + "cell_type": "code", + "execution_count": 4, + "metadata": { + "slideshow": { + "slide_type": "skip" + } + }, + "outputs": [ + { + "data": { + "text/plain": [ + "array([[ 6.32000000e-03, 1.80000000e+01, 2.31000000e+00, ...,\n", + " 1.53000000e+01, 3.96900000e+02, 4.98000000e+00],\n", + " [ 2.73100000e-02, 0.00000000e+00, 7.07000000e+00, ...,\n", + " 1.78000000e+01, 3.96900000e+02, 9.14000000e+00],\n", + " [ 2.72900000e-02, 0.00000000e+00, 7.07000000e+00, ...,\n", + " 1.78000000e+01, 3.92830000e+02, 4.03000000e+00],\n", + " ..., \n", + " [ 6.07600000e-02, 0.00000000e+00, 1.19300000e+01, ...,\n", + " 2.10000000e+01, 3.96900000e+02, 5.64000000e+00],\n", + " [ 1.09590000e-01, 0.00000000e+00, 1.19300000e+01, ...,\n", + " 2.10000000e+01, 3.93450000e+02, 6.48000000e+00],\n", + " [ 4.74100000e-02, 0.00000000e+00, 1.19300000e+01, ...,\n", + " 2.10000000e+01, 3.96900000e+02, 7.88000000e+00]])" + ] + }, + "execution_count": 4, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "" + ] + }, + { + "cell_type": "code", + "execution_count": 5, + "metadata": { + "slideshow": { + "slide_type": "skip" + } + }, + "outputs": [ + { + "data": { + "text/plain": [ + "array(['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD',\n", + " 'TAX', 'PTRATIO', 'B', 'LSTAT'], \n", + " dtype='');\n", + " this._root_extra_style(this.root)\n", + " this.root.attr('style', 'display: inline-block');\n", + "\n", + " $(parent_element).append(this.root);\n", + "\n", + " this._init_header(this);\n", + " this._init_canvas(this);\n", + " this._init_toolbar(this);\n", + "\n", + " var fig = this;\n", + "\n", + " this.waiting = false;\n", + "\n", + " = function () {\n", + " fig.send_message(\"supports_binary\", {value: fig.supports_binary});\n", + " fig.send_message(\"send_image_mode\", {});\n", + " if (mpl.ratio != 1) {\n", + " fig.send_message(\"set_dpi_ratio\", {'dpi_ratio': mpl.ratio});\n", + " }\n", + " fig.send_message(\"refresh\", {});\n", + " }\n", + "\n", + " this.imageObj.onload = function() {\n", + " if (fig.image_mode == 'full') {\n", + " // Full images could contain transparency (where diff images\n", + " // almost always do), so we need to clear the canvas so that\n", + " // there is no ghosting.\n", + " fig.context.clearRect(0, 0, fig.canvas.width, fig.canvas.height);\n", + " }\n", + " fig.context.drawImage(fig.imageObj, 0, 0);\n", + " };\n", + "\n", + " this.imageObj.onunload = function() {\n", + ";\n", + " }\n", + "\n", + " = this._make_on_message_function(this);\n", + "\n", + " this.ondownload = ondownload;\n", + "}\n", + "\n", + "mpl.figure.prototype._init_header = function() {\n", + " var titlebar = $(\n", + " '
Засега просто искаме да ви покажем малко графики, не да разберем как работят невронните мрежи (което е дълъг и сложен въпрос)." + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "slide" + } + }, + "source": [ + "# Повече за sklearn.datasets\n", + "\n", + "Повече информация за наборите от данни в scikit-learn може да намерите в документацията:\n", + "\n", + "" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "slide" + } + }, + "source": [ + "# Supervised vs. unsupervised learning\n", + "\n", + "Алгоритмите могат да се разделят на два видя:\n", + "\n", + "* Supervised learning – такива, които разполагат с labelled данни и генерализират (да отговарят на въпроси за нови данни)\n", + "* Unsupervised learning – такива, които нямат label-и и трябва да открият статистически зависимости в данните" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "subslide" + } + }, + "source": [ + "# Supervised learning\n", + "\n", + "Примери за supervised learning са:\n", + "\n", + "* При набор от данни с цени и параметри на апартаменти да определим колко би струвал друг апартамент с определени апартаменти.\n", + "* При набор от данни за тумори да определим дали един е доброкачествен или злокачествен" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "subslide" + } + }, + "source": [ + "# Unsupervised learning\n", + "\n", + "Тези алгоритми са по-разнородни и приложими в определени сфери. Например:\n", + "\n", + "* При набор от потребители и техните филмови рейтинги да създадем групи от видове предпочитания\n", + "* При набор от многомерни данни данни да сведем броя измерения до по-малък такъв запазвайки повечето информация" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "subslide" + } + }, + "source": [ + "# Регресия vs. Класификация\n", + "\n", + "Бихме могли да разделим supervised learning на два вида:\n", + "\n", + "* Регресия – опитваме се да сведем данните до непрекъсната стойност (цена на апартамент)\n", + "* Класификация – опитваме се да определим данните дали попадат в една от две категории (доброкачествен или злокачествен тумор)\n", + "\n", + "Стандартен подход за класификация с 3+ класа е one-vs-many – създаваме по един класификатор за всяка категория, прекарваме данните през тях и избираме най-вероятната." + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "slide" + } + }, + "source": [ + "# Няколко алгоритъма\n", + "\n", + "Сега ще разгледаме няколко алгоритъма отгоре-отгоре. Целта е да разберем как работят концептуално. Ще разгледаме всеки от тях в детайли в следващи лекции." + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "subslide" + } + }, + "source": [ + "# Disclaimer\n", + "\n", + "Ще гледаме набори от данни с едно или две измерения. Те са доста лесни за визуализация, но рядко реалистични – обикновено работим със десетки, стотици или дори хиляди feature-а (т.е. измерения). Това е далеч по-трудно за визуализация, откъдето идва и голяма част от предизвикателството." + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "slide" + } + }, + "source": [ + "# k-Nearest Neighbours (kNN)\n", + "\n", + "### Supervised, класификация\n", + "\n", + "Възможно най-простия алгоритъм.\n", + "\n", + "Запазва целия dataset. За да класифицира нов елемнт намира най-близкия (линейно, в евклидово пространство) до него и отговаря със същия клас:" + ] + }, + { + "cell_type": "code", + "execution_count": 11, + "metadata": { + "slideshow": { + "slide_type": "subslide" + } + }, + "outputs": [ + { + "data": { + "application/javascript": [ + "/* Put everything inside the global mpl namespace */\n", + "window.mpl = {};\n", + "\n", + "\n", + "mpl.get_websocket_type = function() {\n", + " if (typeof(WebSocket) !== 'undefined') {\n", + " return WebSocket;\n", + " } else if (typeof(MozWebSocket) !== 'undefined') {\n", + " return MozWebSocket;\n", + " } else {\n", + " alert('Your browser does not have WebSocket support.' +\n", + " 'Please try Chrome, Safari or Firefox ≥ 6. В горния е трудно да се направи по-точен линеен модел, тъй като данните имат голяма вариация за едни и същи входни стойности. При наличието на повече измерения обикновено може да се постигне по-добър резултат." + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "slide" + } + }, + "source": [ + "# Principal Component Analysis\n", + "### Unsupervised, dimensionality reduction\n", + "\n", + "Можете да сведете многомерно пространство до такова с по-малко измерения, които запазват (почти напълно) същата информация.\n", + "\n", + "Може да се ползва за feature selection – да намалите броя характеристики с които тренирате модел, свеждайки ги до по-малко." + ] + }, + { + "cell_type": "code", + "execution_count": 16, + "metadata": { + "slideshow": { + "slide_type": "subslide" + } + }, + "outputs": [ + { + "data": { + "application/javascript": [ + "/* Put everything inside the global mpl namespace */\n", + "window.mpl = {};\n", + "\n", + "\n", + "mpl.get_websocket_type = function() {\n", + " if (typeof(WebSocket) !== 'undefined') {\n", + " return WebSocket;\n", + " } else if (typeof(MozWebSocket) !== 'undefined') {\n", + " return MozWebSocket;\n", + " } else {\n", + " alert('Your browser does not have WebSocket support.' +\n", + " 'Please try Chrome, Safari or Firefox ≥ 6. Работи по следния начин:\n", + "\n", + "1. Избира три произволни точки.\n", + "2. За всяка точка оцветява данните, за които тя е най-близка.\n", + "3. Преизчислява центъра на всеки клъстър от точки от един цвят и мести точката там.\n", + "4. Връща се на стъпка 2 и повтаря докато се стабилизира.\n", + "\n", + "Този алгоритъм е недетерминистичен – различен избор на първоначални точки може да произведе различни резултати. По тази причина на практика се изпълнява няколко пъти и се взема добър резултат.\n", + "\n", + "Това също е мотив, който се среща често." + ] + }, + { + "cell_type": "markdown", + "metadata": { + "collapsed": true, + "slideshow": { + "slide_type": "slide" + } + }, + "source": [ + "# Обобщение\n", + "\n", + "* Матрица от данни $X$ и резултат $y$\n", + "* Supervised vs. unsupervised learning\n", + "* Регресия и класификация" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "slide" + } + }, + "source": [ + "# Ресурси\n", + "\n", + "* [Introduction to Machine Learning](\n", + "* [Machine Learning course by Andrew Ng](" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "slide" + } + }, + "source": [ + "# Въпроси\n", + "\n", + "*\n", + "*" + ] + } + ], + "metadata": { + "celltoolbar": "Slideshow", + "kernelspec": { + "display_name": "Python 3", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.6.1" + } + }, + "nbformat": 4, + "nbformat_minor": 2 +} diff --git a/lectures/02-linear-and-logistic-regression.ipynb b/lectures/02-linear-and-logistic-regression.ipynb new file mode 100644 index 0000000..fbba7a7 --- /dev/null +++ b/lectures/02-linear-and-logistic-regression.ipynb @@ -0,0 +1,11230 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "slide" + } + }, + "source": [ + "# Линейна и логистична регресия" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "slide" + } + }, + "source": [ + "Целите днес:\n", + "\n", + "* Линейна регресия\n", + "* Логистична регресия\n", + "* Overfitting и underfitting\n", + "* Регуляризация" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "fragment" + } + }, + "source": [ + "Преди това, нека си припомним неща от миналия път." + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "subslide" + } + }, + "source": [ + "## Какво са $X$ и $y$?" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "$X$ и $y$ са входните данни на нашия machine learning алгоритъм. $X$ е матрица (таблица) от данни, където всеки ред е инстанция на данните, а всяка колона е различна тяхна характеристика. $y$ пък е отговора на въпроса който търсим (labels).\n", + "\n", + "Ако се опитваме да оценим цената на апартаменти в град, всеки ред в $X$ е апартамент (чиято цена знаем), а всяка колона е различна характеристика на апартамента (площ, оценка на квартала, близост до метро, престъпност наоколо и т.н.). $y$ съдържа цените, като първия ред на $X$ съотвества на цената на първия ред от $y$, втория ред на $X$ съответства на втория ред от $y$ и т.н." + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "subslide" + } + }, + "source": [ + "## Какво са feature-и (характеристики)?" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Набора от характеристики, които знаем за данните. Алгоритмите търсят статистическа зависимост между тях и търсения отговор (напр. връзка между площ и цена)." + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "subslide" + } + }, + "source": [ + "## Каква е разликата между supervised и unsupervised learning?" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "При supervised learning имаме данни с label-и (вектора $y$) и търсим зависимости между $X$ и $y$. При unsupervised learning нямаме label-и и се опитваме да намерим генерални характеристики на dataset-а." + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "subslide" + } + }, + "source": [ + "## Каква е разликата между регресия и класификация?" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Регресията търси отговор в непрекъснато пространство (цена на апартамент), докато класификацията търси отговор, който обикновено е една от две стойности (дали даден имейл е спам или не).\n", + "\n", + "Бележка: класификацията може да работи с няколко категории, като има различни похвати за това (напр. one-vs-all)." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Малко код, който ни трябва:" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": { + "collapsed": true, + "slideshow": { + "slide_type": "skip" + } + }, + "outputs": [], + "source": [ + "import numpy as np\n", + "import matplotlib.pyplot as plt\n", + "import pandas as pd\n", + "import mglearn\n", + "from IPython.display import display\n", + "\n", + "%matplotlib notebook\n", + "\n", + "import warnings\n", + "warnings.filterwarnings(action=\"ignore\", module=\"scipy\", message=\"^internal gelsd\")\n", + "warnings.filterwarnings(action=\"ignore\", module=\"sklearn\", message=\"^Objective did not\")" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "slide" + } + }, + "source": [ + "# Линейна регресия\n", + "\n", + "Линейната регресия е алгоритъм, който се опитва да намери линейна функция (в линейно пространство), която приближава входните данни най-точно. Пространството има толкова измерения, колкото feature-и има в набора от данни.\n", + "\n", + "Например:" + ] + }, + { + "cell_type": "code", + "execution_count": 2, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "w[0]: 0.393906 b: -0.031804\n" + ] + }, + { + "data": { + "application/javascript": [ + "/* Put everything inside the global mpl namespace */\n", + "window.mpl = {};\n", + "\n", + "\n", + "mpl.get_websocket_type = function() {\n", + " if (typeof(WebSocket) !== 'undefined') {\n", + " return WebSocket;\n", + " } else if (typeof(MozWebSocket) !== 'undefined') {\n", + " return MozWebSocket;\n", + " } else {\n", + " alert('Your browser does not have WebSocket support.' +\n", + " 'Please try Chrome, Safari or Firefox ≥ 6. На око, нейната функция е $y = 0.25x + 1$.\n", + "\n", + "При $x = 5$ очакваме нещо около $y = (0.25)(5) + 1 = 2.25$:" + ] + }, + { + "cell_type": "code", + "execution_count": 8, + "metadata": { + "slideshow": { + "slide_type": "fragment" + } + }, + "outputs": [ + { + "data": { + "application/javascript": [ + "/* Put everything inside the global mpl namespace */\n", + "window.mpl = {};\n", + "\n", + "\n", + "mpl.get_websocket_type = function() {\n", + " if (typeof(WebSocket) !== 'undefined') {\n", + " return WebSocket;\n", + " } else if (typeof(MozWebSocket) !== 'undefined') {\n", + " return MozWebSocket;\n", + " } else {\n", + " alert('Your browser does not have WebSocket support.' +\n", + " 'Please try Chrome, Safari or Firefox ≥ 6. Бихме могли да направим предвиждане за няколко точки:" + ] + }, + { + "cell_type": "code", + "execution_count": 13, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "array([ 2.31980198, 3.07054455, 4.07153465])" + ] + }, + "execution_count": 13, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "model.predict(np.array([[5], [8], [12]]))" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "slide" + } + }, + "source": [ + "# Генерализация\n", + "\n", + "\"Генарализация\" наричаме способността на модела да прави вярни предвиждания върху нови данни. Ако един модел се справя добре с това, казваме че генерализира добре.\n", + "\n", + "`scikit-learn` ни дава механизъм да оценим генерализацията:" + ] + }, + { + "cell_type": "code", + "execution_count": 14, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "0.97532863348015619" + ] + }, + "execution_count": 14, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "model.score(X, y)" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "fragment" + } + }, + "source": [ + "Резултата от `score` е реално число.\n", + "\n", + "При класификация, тази оценка би била процент от случаите, в които алгоритъма предвижда отговора правилно. Например, ако $X$ бяха имейли, а $y$ е категория дали конкретен имейл е спам, `score = 0` би значело, че винаги даваме грешен отговор, а `score = 1` – винаги правилен.\n", + "\n", + "При регресия е малко по-сложно, защото малки грешки в отговора не са проблем на практика - няма значение дали алгоритъма ще предвици цена на апартамент $200,000лв$ или $200,375лв$. Формулата е по-сложна е не толкова интересна на този етап ([детайли в документацията на scikit-learn]( Най-добрият резултат би бил 1, но числото може и да е отрицателно." + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "slide" + } + }, + "source": [ + "# Линейна регресия за нелинейни функции" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Бихме могли да предвидим и нелинеен dataset. Например, нека пробваме с експоненциална функция: $2^x$\n", + "\n", + "Имаме следния набор от данни:" + ] + }, + { + "cell_type": "code", + "execution_count": 15, + "metadata": { + "slideshow": { + "slide_type": "subslide" + } + }, + "outputs": [ + { + "data": { + "application/javascript": [ + "/* Put everything inside the global mpl namespace */\n", + "window.mpl = {};\n", + "\n", + "\n", + "mpl.get_websocket_type = function() {\n", + " if (typeof(WebSocket) !== 'undefined') {\n", + " return WebSocket;\n", + " } else if (typeof(MozWebSocket) !== 'undefined') {\n", + " return MozWebSocket;\n", + " } else {\n", + " alert('Your browser does not have WebSocket support.' +\n", + " 'Please try Chrome, Safari or Firefox ≥ 6. Така входните данни ще бъдат вектори с 8 елемента, като всеки feature съответства на степен на оригиналната стойност." + ] + }, + { + "cell_type": "code", + "execution_count": 20, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "array([[ 0.00000000e+00, 0.00000000e+00, 0.00000000e+00,\n", + " 0.00000000e+00, 0.00000000e+00, 0.00000000e+00,\n", + " 0.00000000e+00, 0.00000000e+00],\n", + " [ 2.00000000e+00, 4.00000000e+00, 8.00000000e+00,\n", + " 1.60000000e+01, 3.20000000e+01, 6.40000000e+01,\n", + " 1.28000000e+02, 2.56000000e+02],\n", + " [ 8.00000000e+00, 6.40000000e+01, 5.12000000e+02,\n", + " 4.09600000e+03, 3.27680000e+04, 2.62144000e+05,\n", + " 2.09715200e+06, 1.67772160e+07],\n", + " [ 9.00000000e+00, 8.10000000e+01, 7.29000000e+02,\n", + " 6.56100000e+03, 5.90490000e+04, 5.31441000e+05,\n", + " 4.78296900e+06, 4.30467210e+07],\n", + " [ 1.00000000e+01, 1.00000000e+02, 1.00000000e+03,\n", + " 1.00000000e+04, 1.00000000e+05, 1.00000000e+06,\n", + " 1.00000000e+07, 1.00000000e+08]])" + ] + }, + "execution_count": 20, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "X_poly = np.concatenate((X, X ** 2, X ** 3, X ** 4, X ** 5, X ** 6, X ** 7, X ** 8), axis=1)\n", + "X_poly" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "subslide" + } + }, + "source": [ + "Нека да пробваме да тренираме модел:" + ] + }, + { + "cell_type": "code", + "execution_count": 21, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)" + ] + }, + "execution_count": 21, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "model = LinearRegression()\n", + ", y)" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "fragment" + } + }, + "source": [ + "Този модел има следните коефициенти:" + ] + }, + { + "cell_type": "code", + "execution_count": 22, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "[1.0000000000045661,\n", + " array([ 3.28311028e-03, 6.43300826e-03, 1.20812072e-02,\n", + " 2.00031944e-02, 2.17184447e-02, -8.86906561e-03,\n", + " 1.04515266e-03, -3.96429474e-05])]" + ] + }, + "execution_count": 22, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "[model.intercept_, model.coef_]" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "subslide" + } + }, + "source": [ + "Ако начертаем полинома с тези компоненти, получаваме следното:" + ] + }, + { + "cell_type": "code", + "execution_count": 23, + "metadata": { + "slideshow": { + "slide_type": "skip" + } + }, + "outputs": [ + { + "data": { + "application/javascript": [ + "/* Put everything inside the global mpl namespace */\n", + "window.mpl = {};\n", + "\n", + "\n", + "mpl.get_websocket_type = function() {\n", + " if (typeof(WebSocket) !== 'undefined') {\n", + " return WebSocket;\n", + " } else if (typeof(MozWebSocket) !== 'undefined') {\n", + " return MozWebSocket;\n", + " } else {\n", + " alert('Your browser does not have WebSocket support.' +\n", + " 'Please try Chrome, Safari or Firefox ≥ 6. Например, ако предвиждаме дали даден имейл е спам, 0 може да значи \"не\" и 1 може да значи \"да\"." + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "subslide" + } + }, + "source": [ + "Може да я ползваме да класифицираме любимия на всички dataset:" + ] + }, + { + "cell_type": "code", + "execution_count": 40, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Training set score: 0.953\n", + "Test set score: 0.958\n" + ] + } + ], + "source": [ + "from sklearn.linear_model import LogisticRegression\n", + "from sklearn.datasets import load_breast_cancer\n", + "\n", + "cancer = load_breast_cancer()\n", + "X_train, X_test, y_train, y_test = train_test_split(,,, random_state=42)\n", + "\n", + "regression = LogisticRegression().fit(X_train, y_train)\n", + "print(\"Training set score: {:.3f}\".format(regression.score(X_train, y_train)))\n", + "print(\"Test set score: {:.3f}\".format(regression.score(X_test, y_test)))" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "slideshow": { + "slide_type": "subslide" + } + }, + "source": [ + "С регуляризация може да постигнем и по-добри резултати:" + ] + }, + { + "cell_type": "code", + "execution_count": 41, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Training set score: 0.974\n", + "Test set score: 0.965\n" + ] + } + ], + "source": [ + "regression = LogisticRegression(C=100).fit(X_train, y_train)\n", + "print(\"Training set score: {:.3f}\".format(regression.score(X_train, y_train)))\n", + "print(\"Test set score: {:.3f}\".format(regression.score(X_test, y_test)))" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Няма нищо сложно и магическо в логистичната регресия – единствената разлика е, че линейната функция минава през сигмоид." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Малка статистическа бележка:\n", + "\n", + "Горния алгоритъм дава верен отговор в 95% от ситуациите. Това е информативно, когато двата класа са приблизително равномерно представени. Но ако единия е малък процент от другия, имаме проблем.\n", + "\n", + "Нека да си представим алгоритъм, който предвижда дали даден човек има рядко заболяване, налично в само 1% от хората. Ако 99% от dataset-а са хора без заболяването и 1% го има, тогава е много лесно да направим алгоритъм с 99% точност, като винаги отговаряме с \"не\". В такива случаи е важно да вземем предвид по-редкия случай и да го разгледаме отделно – по-важен въпрос е колко хора със заболяване биват правилно идентифицирани. Може да има и значение, ако различният вид грешка има различна цена – неправилно класифициран \"болен\" може да резултира в излишни (но безобидни) изследвания, но неправилно класифициран \"здрав\" рискува да пропусне лечение.\n", + "\n", + "Има малко математика, коияо може да са ни е полезна в такива случаи, но ще я разгледаме по-натам." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "# Въпроси\n", + "\n", + "*\n", + "*" + ] + } + ], + "metadata": { + "celltoolbar": "Slideshow", + "kernelspec": { + "display_name": "Python 3", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.6.2" + } + }, + "nbformat": 4, + "nbformat_minor": 2 +} diff --git a/lectures/index.yml b/lectures/index.yml new file mode 100644 index 0000000..059fa28 --- /dev/null +++ b/lectures/index.yml @@ -0,0 +1,8 @@ +1: + title: 01. Въведение в Machine Learning + date: 2018-10-08 + slug: 01-intro +2: + title: 02. Линейна и логистична регресия + date: 2018-10-15 + slug: 02-linear-and-logistic-regression