Rocket logo

Введение в науки о данных

24 занятия / 2 занятия в неделю онлайн, 3 - 5 человек 7200 рублей в месяц

Науки о данных - это область на стыке математики и программирования, одним из практических применений которой является разработка искусственного интеллекта.

Эксперты в этой области занимаются машинным обучением: разработкой алгоритмов, которые обучаясь на больших объемах данных (Big Data), способны предсказывать курсы акций, диагностировать заболевания, собирать интересные материалы в "умную ленту" или рекомендовать вам интересные сериалы.

На этом курсе, я за три месяца научу Вас использовать язык программирования Python 3 и стэк scipy для анализа данных, предсказания будущего и обучения собственных моделей машинного обучения.


План действий:

  • Сбор и визуализация данных

    Знакомимся с Collab и Jupyter, парсим веб-сайты, собираем и анализируем собственный датасет в Pandas и Matplotlib.

  • Классификация и регрессия

    Предсказываем стоимости кроссовок и результаты киберспортивных матчей.

    Задачи машинного обучения (с учителем, без учителя): классификация, регрессия, кластеризация. Обучающая и тестовые выборки, модель, обобщающая способность, обучение, недообучение, переобучение, сложность. Предобработка данных, шкалирование признаков, разбиение категориальные признаки, работа с пропущенными значениями, конструирование и отбор признаков, решетчатый поиск.

    kNN, линейные модели (линейная, гребневая и логистическая регрессия), деревья, ансамбли (случайный лес, xgboost, catboost), SVM.

  • Обработка текстовых данных

    Лемматизация, стемминг, n-граммы, векторизация мешком слов, TF/IDF и word2vec.

  • Кластеризация

    Автоматически находим похожие анекдоты в большом датасете.

    PCA, kmeans, иерахическая кластеризация, DBSCAN.

  • Рекомендательные системы

    Используем SVD для поиска новых сериалов.


На курсе вы изучите математические и технологические подходы к разработке искусственного интеллекта. Но под искусственным интеллектом здесь подразумевается не симуляция человеческого разума, а программы, способные самостоятельно обучаться и изменяться в процессе собственной работы.

К таким программам, например, относятся рекламные системы, которые запоминают ваши предпочтения, самоуправляемые автомобили, голосовые ассистенты (Siri, Алиса), программы, автоматически подбирающие план лечения для сложных заболеваний, ИИ, обыгрывающие самых крутых кибер-спортсменов и роботы, предсказывающие курсы акций. Такие алгоритмы сначала "обучаются" на больших объемах данных и автоматически "запоминают" закономерности, а затем используют эти данные для будущих "предсказаний".

Курс предназначен для школьников 8 класса и старше, хорошо знакомых с языком Python 3.

Курс состоит из 24 онлайн занятий (включая промежуточный и итоговый зачеты) длительностью в два академических часа. Помимо них вам в обязательном порядке потребуется около 4 часов в неделю на выполнение домашних заданий и самоподготовку.

Основой курса станет работа с наиболее популярными библиотеками для анализа, визуализации и машинного обучения: Pandas, Matplotlib и SciKit-learn. В процессе курса будут рассмотрены типовые подходы к задачам машинного обучения, процессы сбора, предобработки данных, подбора, настройки и обучения различных моделей машинного обучения. Будут рассмотрены как классические линейные модели, так и супер-современные алгоритмы ансамблевой классификации.

Интересно?