Самостоятельные проекты, выполненные в ходе прохождения курса «Специалист по Data Science» платформы Яндекс Практикум:
-
Спринт «Выпускной проект», проект «Прогнозирование оттока клиентов оператора связи». Разработка модели классификации для прогноза оттока клиентов оператора связи «ТелеДом». Входные данные — персональные данные о некоторых клиентах, информацию об их тарифах и услугах. Теги:
python,pandas,matplotlib,seaborn,GridSearchCV,StratifiedKFold,LogisticRegression,SVC,CatBoostClassifier,LGBMClassifier,градиентный бустинг. -
Спринт «Компьютерное зрение», проект «Определение возраста покупателей для сетевого супермаркета». Построение свёрточной нейронной сети для определения приблизительного возраста человека по фотографии, которая позволит сетевому супермаркету «Хлеб-Соль» разделять покупателей на возрастные группы для предложения им определённых товаров, а также для контроля кассиров при продаже алкоголя. Теги:
python,pandas,matplotlib,seaborn,tensorflow.keras,ResNet50,InceptionResNetV2,компьютерное зрение,нейронная сеть,свёрточная сеть. -
Спринт «Машинное обучение для текстов», проект «Классификация комментариев для интернет-магазина». Разработка модели для классификации комментариев пользователей интернет-магазина «Викишоп» на позитивные и негативные. Векторизация комментариев с использованием нескольких подходов: на основе частотности TF-IDF, а также с помощью предобученной языковой модели BERT. Теги:
python,pandas,matplotlib,seaborn,torch,spacy,wordcloud,TfidfVectorizer,GridSearchCV,StratifiedKFold,LogisticRegression,векторизация текстов,лемматизация текстов,TF-IDF,эмбеддинги,DeepPavlov,BERT. -
Спринт «Временные ряды», проект «Прогнозирование заказов такси». Построение модели для предсказания количества заказов такси на следующий час, которая позволит компании «Чётенькое такси» привлекать больше водителей в период пиковой нагрузки. Теги:
python,pandas,matplotlib,seaborn,statsmodels.tsa.seasonal,GridSearchCV,TimeSeriesSplit,SelectKBest,LinearRegression,KNeighborsRegressor,SVR,DecisionTreeRegressor,CatBoostRegressor,LGBMRegressor,перестановочная важность,градиентный бустинг,временной ряд,тренд,сезонность. -
Спринт «Численные методы», проект «Определение стоимости автомобилей для сервиса объявлений». Разработка модели для определения рыночной стоимости автомобилей. Входные данные от сервиса по продаже автомобилей с пробегом «Не бит, не крашен» — технические характеристики, комплектации и цены автомобилей. Теги:
python,pandas,matplotlib,seaborn,GridSearchCV,LinearRegression,DecisionTreeRegressor,CatBoostRegressor,LGBMRegressor,градиентный бустинг. -
Спринт «Базовый SQL», проект «Запросы к базе данных». Работа с базой данных, которая хранит информацию о венчурных фондах и инвестициях: получение срезов данных и составление подзапросов, применение агрегирующих и оконных функций, объединение таблиц. Теги:
PostgreSQL,группировка данных,агрегирующие функции,подзапросы,табличные выражения,оконные функции. -
Спринт «Машинное обучение в бизнесе», проект «Выбор локации для разработки скважин для добывающей компании». Разработка модели регрессии для определения регионов, где добыча принесёт наибольшую прибыль. Анализ возможной прибыли и рисков добывающей компании техникой Bootstrap. Теги:
python,pandas,matplotlib,seaborn,LinearRegression,bootstrap. -
Спринт «Сборный Проект — 2», проект «ML-решения для HR-отдела компании». Разработка моделей регрессии и классификации для HR-отдела компании «Работа с заботой»: предсказание уровня удовлетворённости сотрудников и предсказание внезапных увольнений работников компании. Теги:
python,pandas,matplotlib,seaborn,scipy.stats,t-тест,p-value,GridSearchCV,SelectKBest,make_scorer,LinearRegression,LogisticRegression,DecisionTreeClassifier,DecisionTreeRegressor,KNeighborsClassifier,SVC,перестановочная важность,значение Шепли. -
Спринт «Обучение с учителем: качество модели», проект «Прогноз покупательской активности клиентов интернет-магазина». Построение модели, предсказывающей вероятность снижения покупательской активности клиентов интернет-магазина «В один клик». Сегментация покупателей на основе данных финансового департамента о прибыльности клиентов. Теги:
python,pandas,matplotlib,seaborn,GridSearchCV,LogisticRegression,KNeighborsClassifier,SVC,DecisionTreeClassifier,перестановочная важность,значение Шепли. -
Спринт «Линейные модели в машинном обучении», проект «Прогнозные модели для молочного хозяйства». Разработка моделей регрессии и классификации для молочного хозяйства «Вольный луг»: прогнозирование возможного удоя коров и определение вкусовых качеств молока. Теги:
python,pandas,matplotlib,seaborn,LinearRegression,LogisticRegression. -
Спринт «Сборный проект — 1», проект «Анализ продаж компьютерных игр». Анализ исторических данных о продажах и оценках игр на различных платформах. Проверка некоторых гипотез, которые могут помочь интернет-магазину «Стримчик» при планировании рекламных кампаний. Теги:
python,pandas,matplotlib,scipy.stats,t-тест,p-value. -
Спринт «Статистический анализ данных», проект «Исследование данных сервиса аренды самокатов». Анализ данных популярного сервиса аренды самокатов GoFast и проверка некоторых гипотез, которые могут помочь бизнесу вырасти. Теги:
python,pandas,matplotlib,scipy.stats,t-тест,p-value. -
Спринт «Исследовательский анализ данных», проект «Исследование объявлений о продаже квартир». Исследовательский анализ данных для поиска параметров, влияющих на рыночную стоимость объектов недвижимости. Входные данные от сервиса Яндекс Недвижимость — архив объявлений о продаже квартир за несколько лет. Теги:
python,pandas,matplotlib. -
Спринт «Предобработка данных», проект «Исследование надёжности заёмщиков для кредитного отдела банка». Исследование влияния семейного положения и количества детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов. Теги:
python,pandas. -
Спринт «Базовый Python», проект «Базовые знания Python и библиотеки pandas». Проверка гипотез и сравнение поведения пользователей двух столиц на реальных данных Яндекс Музыки. Применение операторов и методов языка Python (и его библиотеки pandas) на разных стадиях анализа данных. Теги:
python,pandas.