В этом репозитории хранятся истории версий менее объемных, но не менее значимых для меня работ, чем в репозитории номинально основных проектов.
№ | Название (ссылка) | Описание | Комментарий |
---|---|---|---|
1 | Прогноз страховых расходов | EDA/ML-проект по предсказанию индивидуальных медицинских расходов по общим биосоциальным данным. Задача из Kaggle. | Работа с привычным инструментарием sklearn: полиномиальные регрессии и их регуляризированные модификации. |
2 | Прогнозирование оттока клиентов банка | ML-проект по созданию классификатора, позволяющего своевременно определять уходящих клиентов банка. | Работа с привычным инструментарием sklearn: логистическая регрессия, дерево решений и случайный лес. |
3 | Кластеризация покупателей | ML-проект по поиску оптимальной группировки клиентов некоторого торгового центра. | Использовались: DBSCAN и алгоритм агломеративной кластеризации. |
4 | Понижение размерности данных, основанных на рукописном начертании цифр | ML-проект по понижению размерности данных с использованием методов PCA и t-SNE. | Короткая работа-набросок с претензией на уклон в сторону CV. |
5 | Валидация данных и оценка модели на примере датасета о качестве воды | ML-проект по сравнению методов валидации и обзору методов борьбы с переобучением. Разбор задачи из Kaggle. | Работа-экскурс в технические особенности организации работы с ml. |
6 | Предсказание покупательских намерений клиентов онлайн магазина | ML-проект по классификации покупательских сессий. Задача из Kaggle. | Работа с несбалансированными классами объектов. Алгоритм случайного леса. |
7 | Обработка признаков на примере датасета продаж автомобилей Ford | ML-проект по исследованию методов предобработки данных: предсказание пропущенных данных с помощью ml, рекурсивное исключение признаков, исключение на основе статистических фильтров. | Исследовательский проект-набросок. Работа-экскурс в технические особенности организации работы с ml. |
8 | Подбор гиперпараметров модели на примере прогнозирования биологического ответа молекул | ML-проект по классификации молекул. Задача из Kaggle. | Сравнение методов оптимизации гиперпараметров логистической функции и алгоритма случайного леса: GridSearchCV, RandomizedSearchCV, hyperopt, optuna. |
9 | Прогнозирование выработки газа на скважинах | ML-проект по предсказанию объемов добычи газа на скважинах по ряду их параметров. | Работа с линейными регрессиями и ее модификациями. Создание собственной модели линейной регрессии по методу наименьших квадратов без sklearn. |
10 | Исследование зависимости продаж от релкамы | ML-проект по предсказанию объемов продаж в зависимости от затрат на рекламу | Решение регрессионной задачи методом градиентного спуска. Создание собственных моделей градиентного, координатного и стохастически градиентного спусков. |
11 | Наивный Байесовский Классификатор для классификации спам-сообщений | ML-проект по классификации спам-сообщений с помощью самописного алгоритма наивного байесовского классификатора. | Работа с теорией. |
12 | Классификация текстов с использованием Наивного Байесовского Классификатора | ML-проект по классификации спам-сообщений с помощью алгоритма наивного байесовского классификатора. | Оптимизация классификатора. |
13 | Модель определения пола по голосу на алгоритме решающего дерева | ML-проект по созданию модели на алгоритме решающего дерева | Маленький проект со своими тонкостями. Оптимизация на GridSearchCV. |
14 | Прогноз дождя на завтра | ML-проект по созданию модели прогнозирования дождя на следующий день. | В работе рассмотрены 22 модели, построенных на 15 различных алгоримах (включая простой нейросетевой алгоритм MLPClassifier), шести их оптимизированных вариантах (optuna) и на стэкинге из десяти моделей. |
15 | Предсказание удовлетворенности полетом | ML-проект по созданию модели прогнозирования удовлетворенности полетом пассажиров авиарейсов. | В работе рассматриваются модели, основанные на бустинг-алгоритмах. |
16 | Классификация лягушек по песням | ML-проект по созданию модели для определения вида лягушки по аккустическим параметрам ее песни. | Решается задача мультиклассовой классификации. |
17 | Кластеризация подростков | ML-проект по сегментации молодых пользователей социальной сети на основании частот употребляемых ими слов. | k-means и EM-алгоритм. |
18 | Сегментация клиентов банка | ML-проект по кластеризации держателей кредитных карт одного из банков Нью-Йорка. | Рассматриваются KMeans, GaussianMixture, DBSCAN, AgglomerativeClustering. |
19 | Исследование данных Samsung. Кластеризация физической активности пользователей | ML-проект по созданию модели для кластеризации типа активноти пользователей смартфонов с использованием данных акселерометра и гироскопа. | Рассматриваются те же алгоритмы, что и в 17-й работе. |
20 | Кластеризация стран для гуманитарной миссии | ML-проект по кластериазации стран для выявления наиболее бедствующей с целью оказания гуманитарной помощи. | Ничего особенного: PCA и KMeans. |
21 | Исследование данных Samsung. Классификация физической активности пользователей | ML-проект по созданию модели для классификации типа активноти пользователей смартфонов с использованием данных акселерометра и гироскопа. | Альтернатива проекту №18. Рассматриваются линейные алгоритмы, алгоритмы опорных векторов, ансамблевые методы (включая Catbosst и XGB), а также классификатор многослойного перцептрона. |
22 | Прогнозирование ВВП Ганы по временному ряду | Решение классической задачи прогнозирования временного ряда. | ARIMA и ARCH-модели. |
23 | Классификация сигналов оптомиографических датчиков | Решение задачи классификации непрерывных команд от пользователя на основе данных, полученных от оптомиографических датчиков. | Соревнование Kaggle. |
24 | Анализ эффективности двух вариантов посадочной страницы | Анализ данных, полученных при A/B-тестировании. | Статистическая оценка конверсии и среднего чека. |
25 | Классификация клиентов микрофинансовой организации | Используем генерацию синтетических данных для решения проблемы дисбаланса классов. | SMOTE, ADASYN. |