Яндекс мфти машинное обучение
Яндекс мфти машинное обучение
Машинное обучение и анализ данных — обзор Специализации от Яндекcа & МФТИ (5 курсов + финальный проект), предложенной на образовательной платформе Coursera.
Вам может быть полезна данная статья если:
- Вы хотите “попробовать на вкус” программирование на Python и понять для себя основные принципы работы моделей машинного обучения, использующихся для работы с данными
- Вы рассматриваете для себя возможность пройти какой-либо обучающий курс по данной тематике и Вам интересно оценить, насколько Специализация от Яндекса & МФТИ подходит для этого
Почему после прохождения всех пяти курсов Специализации появилось желание написать данную статью: если бы я “тот”, который только начинал первый курс данной Специализации, использовал советы, данные в этой статье, эффективность и скорость обучения была бы в разы выше. И плюс до начала обучения я представлял собой чистый лист: ни строчки кода в жизни, только базовые знания теории вероятности, статистики и линейной алгебры, а значит проходил путь с нуля и застревал на каждом шагу, где от студента ждали больше в плане программирования, чем было положено! Тем самым, я представляю собой репрезентативного подопытного 🙂
Почему формат Специализации — это лучшее, что можно выбрать в начале пути? В целом, для обучения на русском языке есть широкий перечень возможностей: аналогичные по форме, но иные по содержанию онлайн-программы (от Вышки и Яндекса на Coursera, курсы по теме на Stepik’e и т.д.), лекции профессора Воронцова, платные курсы типа New Professions Lab, Нетологии и многое другое. Но, на мой взгляд, именно сочетания теории, видео-лекций и контролируемых/проверяемых (. ) практических работ без необходимости подчиняться какому-то расписанию — лучшее по форме самообразование с наивысшим соотношением цена/качество/удобство . Структура Специализации построена таким образом, что концепция “методов работы с данным” раскрывается постепенно, и ты успеваешь за темпом обучения, даже если ничего не знаешь до начала курсов (за исключением исключений :)). Если стараться просто “впитывать” теорию или неструктурированно браться за какие-то практические задачи есть риск не сдвинуться с места в общем понимании предмета!
Всего в данной Специализации курсов пять:
- Математика и Python для анализа данных — вводный курс, наполненный повторением основ мат. анализа и линейной алгебры, жизненно необходимых для прохождения пути
- Обучение на размеченных данных (обучение с учителем) — курс, посвященный моделям типа линейной/логистической регрессии, введенению в работу с решающими деревьями и другими моделями, обучение которых возможно только при наличии тех самых “размеченных” данных
- Поиск структуры в данных (обучение без учителя) — это про изучение и обучение моделей классификации/кластеризации, используемых в отсутствии размеченных данных
- Построение выводов по данным — несмотря на название, этот курс не про визуализацию данных… Он про статистику, про принципы проверки гипотез, в т.ч. множественных, про построение доверительных интервалов и так далее, т.е. про то, как из полученных результатов вашей модели ПРАВИЛЬНО сделать выводы (правильные или нет уже зависит от самой модели и исходных данных))
- Прикладные задачи анализа данных
Какое самое важное препятствие Вас ждет, если также как и я, Вы не писали ни строчки кода до начала обучения?)) Полное непонимание структуры языка Python, с которым предстоит очень много работать в процессе обучения. К сожалению, формат Специализации не подразумевает длинного вводного курса и подготовка идет “на бегу” в ходе первого курса. Быстрое повторение основ линейной алгебры, статистики и краткий обзор Python — вот и вся подготовительная работа. Этого очень мало. Несмотря на то, что в требованиях к курсу указано базовое знание основ программирования, презентуется эта программа везде как шанс пройти путь программирования на Python c нуля. Что я хотел бы знать до начала обучения? Необходимость изучения основ Python применительно к анализу данных и только потом — прохождение курсов специализации. Очень важно понимать структуры и типы данных, основные методы работы с числовыми данными, таблицами и основными библиотеками — numpy & pandas. Понимать, уметь работать с кодом (элементарные преобразования, работа с табличными данными и так далее) и знать источники (!) информации, когда чего-то не знаешь (stock overflow, форумы, блоги, каналы в слаке и так далее). Как получить весь базовый набор на русском языке я не знаю, т.к. не ставил цели именно на русском учиться, поэтому в качестве ориентира на данном этапе считаю данную книгу, написанную создателем библиотеки Pandas: Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython ©. Если бы всех студентов Специализации заставляли бы ее прочесть и освоить материал до начала учебы — КПД вырос бы минимум вдвое потом 🙂
Отдельно хочется попросить оторвать руки создателям первого курса за задание с работой с текстом — я сейчас делаю финальный проект по итогам пяти курсов и с ужасом вспоминаю, как пришлось тратить часы и дни поиском по форумам, чтобы не имея ни малейшего представления Python, токенизировать тексты и рассчитывать их сходство, используя примитивные циклы, потому что ничего лучше тогда ты не знаешь… Это очень жестоко, я думаю немало людей бросили всю учебу на этом моменте!
Идем дальше. Проходя второй курс Специализации, снова и снова придется возвращаться к основам — до понимания и разбора реальных моделей обучения на размеченных данных (другое название — обучение с учителем) порой просто не доходило! Сидишь и тратишь по 2–3 часа на преобразования и очистку числовой информации, подготовку таблиц и так далее, потому что нет навыка писать на Python, с трудом в голове откладывается его семантика, когда сразу бросают на работу с моделями линейной регресии и другими. В целом, курс очень насыщенный и требует много практической работы — в ходе видео-лекций дается теория по моделям линейной и логистической регрессий, объясняется принцип работы алгоритма градиентного бустинга и других ключевых для работы с данными темами (метрики, оптимизация и прочее). Общее впечатление — идеальное сочетание теории и практики, за исключением сегмента про нейронные сети — очень скомкано и ничего не понятно было тогда..)
Относительно третьего курса могу сказать, что он получился хуже остальных (исключительно мое мнение). Вам предстоит попробовать строить модели для работы с данными в ситуации, когда даже в целях обучения нет тестовых ответов (то есть нет разметки в данных). Но, судя по моему представлению по итогам завершения Специализации и дальнейшего обучения, тема обучения без учителя настолько сложная и глубокая, что реально в рамках третьего курса вы, можно сказать, успеете прочесть “определения из википедии” и сделать пару-тройку элементарных примеров, то есть ощущения того, что хоть чуть “знаешь” не возникнет, а если возникнет — это самообман 🙂
По мере движения вперед и изучения основ Python, вы будете все чаще сталкиваться с пробелами в знаниях теории вероятностей, статистики и линейной алгебры. И сильнее всего это будет чувствоваться на четвертом курсе, который по сути полностью посвящен концепциям из тер. вера и статистики в части тестирования гипотез, построения доверительных интервалов, оценки корреляций и так далее. И это вторая главная проблема всей Специализации — вроде как от студентов ждут “базовых знаний” в начале, но по мере прохождения курсов все отчетливей становится ясно — вы либо ХОРОШО знаете мат. часть, либо будет очень ПЛОХО….)) Реально не отделаться общими словами и “общим” пониманием — чтобы суметь разобраться как “под капотом” работают те или иные модели, на основании каких теорем/аксиом/концепций они строятся и почему результат именно такой, потребуется нечто большее, чем “базовые знания”. Отсюда вывод — если вы собираетесь погружаться в DS в общем и в Специализацию в частности, будьте готовы взяться за повторение мат. аппарата и вспомнить университетские годы — на коленке “попитонить и видосики посмотреть” не получится…)
Вот и все! Дальше идет практика (5 курс и отдельно 7-ми недельный финальный проект), а критически оценить насколько задания сложные или легкие я не могу: у меня опыт в инвестициях и работе на финансовых рынках, а не DS, так что мое мнение в этом вопросе не имеет “веса” …) Одно могу сказать — организовано все очень достойно, в плане разъяснения информации, разнообразия заданий и ощущения эффективности обучения по мере их самостоятельного решения! Плюс, конечно, огромную роль играет определенное community в slack’е — поток студентов на Специализации большой и всегда есть с кем обсудить любой вопрос.
Отвечая на вопрос “порекомендовал бы или нет” данную обучающую программу, отвечу однозначным да! Хотя у меня ушло на нее больше года при постоянной full-time занятости, самое важное — что пришло детальное представление о методах работы с данными с использованием моделей машинного обучения, Python теперь свободно вертится в голове (как когда изучаешь иностранный язык, после определенного уровня уже можешь на нем думать и как-то структурированно изъясняться )) и понятно, куда развивать свое хобби дальше — в работу с временными рядами, но это уже совсем другая история!)
Надеюсь, данный обзор будет вам полезен и позволит сэкономить немного времени / денег или повысит скорость обучения по данной тематике! Успехов!
16 бесплатных онлайн-курсов по машинному обучению
Популярная тенденция в сфере онлайн-образования — массовые открытые онлайн-курсы (Massive open online-courses, MOOC). Появились бесплатные курсы по машинному обучению и data science. Они доступны каждому и основаны на образовательных программах от ведущих университетов, например, МФТИ.
Большинство MOOC по машинному обучению доступны на английском языке и представлены на известных платформах онлайн-образования, таких как Coursera, Udacity, World Education University и edX.
Отдельно стоит отметить, что курсы Coursera доступны бесплатно только для прослушивания лекций. Для того, чтобы выполнять задания или получить сертификат по окончании курса, нужно оформить подписку или оплатить курс.
Видео-материалы и лекции курса можно получить бесплатно, для этого на странице курса внизу нужно нажать кнопку «прослушать курс», как показано на картинке:
Как бесплатно прослушать курсы по машинному обучению
В этой статье собраны бесплатные курсы по машинному обучению и Data Science на русском языке или с русскими субтитрами.
Введение в машинное обучение
Авторы: ВШЭ и Яндекс
Платформа: Coursera
Язык: русский
На курсе Константина Воронцова Введение в машинное обучение рассматриваются популярные задачи, решаемые с помощью машинного обучения — классификация, регрессия, кластеризация. Слушателю нужно знать об основных понятиях математики: функциях, производных, векторах, матрицах, желательно иметь базовые навыки программирования и быть знакомым с python.
Продолжительность: 35 часов
Машинное обучение и анализ данных
Авторы: МФТИ и Яндекс
Платформа: Coursera
Язык: русский
Специализация Машинное обучение и анализ данных включает 6 курсов. Осваиваются основные инструменты, необходимые в работе с большим массивом данных: современные методы классификации и регрессии, поиск структуры в данных, проведение экспериментов, построение выводов, фундаментальная математика, основы программирования на python.
Продолжительность: 8 месяцев (7 часов в неделю)
Python для анализа данных
Авторы: МФТИ, ФРОО, Mail.ru Group
Платформа: Coursera
Язык: русский
Курс Python для анализа данных ориентирован на решение практических задач. Студенты будут применять свои навыки программирования для построения предиктивных моделей, визуализации данных и работы с нейросетями.
Продолжительность: 25 часов
Введение в науку о данных
Автор: СПбГУ
Платформа: Coursera
Язык: русский
Курс Введение в науку о данных рассматривает постановку и решение типичных задач, с которыми может столкнуться в своей работе data scientist, подходы к сбору, анализу, обработке и визуализации массивов данных.
Продолжительность: 17 часов
Глубокое обучение в творчестве с TensorFlow
Автор: Google Magenta
Платформа: Kadenze
Язык: английский, русские субтитры
MOOC Использование глубокого обучения в творчестве с помощью TensorFlow расскажет о том, как строить алгоритмы глубокого обучения на основе сверточных, рекуррентных, генеративных нейросетей и применять их для создания творческих приложений.
Продолжительность: 60 часов
Data Science
Автор: Johns Hopkins University
Платформа: Courserа
Язык: английский, русские субтитры
В специализацию Data Science университета John Hopkins входят 10 курсов, включая сбор и сортировку данных, программирование на языке R, регрессионные модели, разработку продуктов для обработки данных и другие.
Продолжительность: 8 месяцев (5 часов в неделю)
Data science для руководителей
Автор: Johns Hopkins University
Платформа: Courserа
Язык: английский, русские субтитры
Data Science для руководителей — это ускоренная обучающая программа — 5 курсов, которые дают базовое понимание о том, что такое data science и как работать с проектами в этой сфере, собирать и развивать команду и даже лидерские качества.
Продолжительность: 40 часов
Нейронные сети
Автор: Институт биоинформатики
Платформа: Stepic
Язык: русский
Бесплатный курс Нейронные сети дает основы теории нейронных сетей и практики применения. Детальный разбор процесса создания и применения нейронных сетей. Алгоритмы, лежащие в основе нейросетей и множество практических задач.
Продолжительность: 33 часа
Программирование на Python
Автор: Институт биоинформатики
Платформа: Stepic
Язык: русский
На курсе Программирование на Python представлены базовые понятия программирования на python и большое количество практических задач. Решения будут проверяться автоматической системой.
Продолжительность: 22 часа
Алгоритмы: теория и практика. Методы
Автор: Computer Science Center
Платформа: Stepic
Язык: русский
Рассматриваются теоретические основы создания алгоритмов и особенности реализации на языках C++, Java и Python.
Продолжительность: 35 часов
Основы программирования на R
Автор: Институт биоинформатики
Платформа: Stepic
Язык: русский
На курсе Основы программирования на R изучаются основные типы данных и семантические правила, анализ и обработка данных.
Продолжительность: 19 часов
Анализ данных в R
Автор: Институт биоинформатики
Платформа: Stepic
Язык: русский
На курсе рассматриваются этапы статистического анализа на R — предварительная обработка данных, применение статистических методов анализа и визуализация данных.
Продолжительность: 21 час
Базы данных
Автор: СПбГУ
Платформа: Coursera
Язык: русский
В основе курса Базы данных изучение и применение языка SQL для создания, модификации объектов и управления данными в реляционных базах данных. Рассматриваются сферы применения NoSQL баз данных и современные подходы к обработке big data.
Продолжительность: 20 часов
От Excel до MySQL: способы анализа бизнес-данных
Автор: Duke University
Платформа: Coursera
Язык: английский, русские субтитры
В специализацию входят 5 курсов, которые демонстрируют, как использовать Excel, Tableau и MySQL для анализа данных, прогнозирования, создания моделей и визуализации данных для решения задач и улучшения бизнес-процессов.
Продолжительность: 8 месяцев (5 часов в неделю)
Линейная регрессия
Автор: СПбГУ
Платформа: Coursera
Язык: русский
В курсе Линейная регрессия разбираются основные методы описания взаимосвязей между количественными признаками, регрессионный анализ и построение моделей. Специальное место отводится операциям с матрицами. Курс ориентирован на людей, которые уже знакомы с базовыми понятиями анализа данных.
Продолжительность: 22 часа
Анализ данных
Автор: НГУ
Платформа: Coursera
Язык: русский
В специализацию Анализ данных Новосибирского государственного Университета входят 4 курса. Курсы содержат материалы по основам теории вероятностей и математической статистики, исследованию связей между признаками, построению прогнозов на основе регрессионных моделей, кластерному и статистическому анализу. Курсы разработаны совместно с 2GIS.
Продолжительность: 4 месяца (3 часа в неделю)
Контекстная реклама и аналитика
Уже почти год я занимаюсь машинным обучением и анализом данных, а не контекстной рекламой. Почему — это тема отдельной статьи, которую я, пожалуй, оставлю на потом В основном, делюсь своими успехами в FB. Там же, в комментариях я пообещал написать небольшой обзор курсов, которые прошел, чтобы войти в профессию специалиста по машинному обучению и анализа данных. Собственно, вот этот обзор.
Войти в профессию в моем понимании — это начать зарабатывать этим деньги, если что.
С наскока не получится. Будет сложно
Перед тем, как я влез во все это, я думал: раз умею работать с трафиком, google certified trainer, разбираюсь в аналитике, пишу на JavaScript, PHP, когда-то писал на Java и вообще весь из себя такой крутой, то и с машинным обучением быстро разберусь. Месяц-два и я в теме. Редко я так сильно заблуждался
Машинное обучение и анализ данных тянет за собой целый хвост дисциплин, в которых стоит разбираться хотя бы на уровне «могу примерно понять, что здесь происходит»:
- статистика
- линейная алгебра
- математический анализ
- комбинаторика
- теория вероятности
- алгоритмы и структуры данных
- методы численной оптимизации
- … список неполный, если что
Ну и само собой, придется писать код. Скорее всего, это будет Python или R. А если собираетесь стать хардкорным ML-инженером — то еще и на C++.
В общем, если вы, в отличие от меня, олимпиадник и PhD по математике, то все просто.
1. Специализация «Машинное обучение и анализ данных» от Яндекса и МФТИ на Coursera
Не зря это называется «специализация». 5 полноценных курсов + последний — финальный проект. Рассчитана на 8 месяцев, хотя я довольно спокойно прошел за 5, проходя параллельно другие курсы и добирая знаний там, где их было недостаточно.
По каждой теме курса — отличные конспекты и довольно интересные задания. В чатике курса — на момент написания статьи 5754 человека. Мне помогали даже глубокой ночью в пятницу
Единственное, что может смутить кого-то — это то, что видео курса записан для Python 2. Но задания уже переделали под 3-й питон. Реальная разница в коде в 99% случаев — это наличие или отсутствие скобочек у оператора print. Поэтому я забил на это и спокойно проходил. Актуальность в порядке.
Пройдемся по каждому курсу по отдельности:
1. Математика и Python для анализа данных
Супрекомпактный курс, в котором всего по чуть-чуть: основы Pandas, Numpy, Matplotlib, немного про матрицы и линейную алгебру, оптимизацию функций в scipy, градиентный спуск и другие методы оптимизации, основные понятия статистики и центральную предельную теорему.
Что такое производная и как писать на Python «Hello World», никто объяснять не будет, поэтому будьте готовы к тому, что придется вспомнить что-то из программы математики старших классов и посмотреть самую бузе про то, как писать на Python. Что-то вроде «Python с нуля за 20 секунд» вполне сойдет.
2. Обучение на размеченных данных
Здесь уже начинается само машинное обучение: будете обучать алгоритмы на размеченных данных и потом ими что-то предсказывать Будет про линейные модели, деревья и ансамбли алгоритмов. Ну и конечно, про то, как оценивать качество моделей.
После этого курса уже будете знать, как, к примеру, обучить алгоритм на данных о квартирах (площадь, адрес, этаж и т.д.) и их стоимости. И потом предсказывать цену на новую квартиру, которой еще нет в базе данных.
3. Поиск структуры в данных
Если в предыдущем курсе говорили о данных с «ответами» (ценой), то здесь речь о том, что можно сделать с данными, у которых «ответа» нет. К примеру, как разбить всех клиентов клиентской базы на 8 сегментов (кластеров), каждый из которых обладает какими-то своими особенностями. Или найти клиентов из базы, выбивающихся из общей массы (поиск аномалий). Или научить алгоритм выделять в куче разных текстов темы и разделять тексты по этим темам (тематическое моделирование).
4. Построение выводов по данным
Здесь о статистике. Я полюбил и возненавидел этот курс одновременно Полюбил за интересные задания. А возненавидел за то, как сухо и без объяснений «почему именно так» подается теория. Про проверку статистических гипотез, различные статистические критерии, АБ-тестирование и т.д. Мне с нуля было сложно. В общем, это нужно просто пережить
5. Прикладные задачи анализа данных
Курс очень кратко по верхам про 4 больших раздела в машинном обучении: прогнозирование временных рядов (продажи, погода, курс биткойна), компьютерное зрение (это о том, как, к примеру, научить алгоритм отделять фоточки енотов от своих селфи), анализ текстов (к примеру, как научить алгоритм отличать позитивный отзыв в соцсетях от негативного) и рекомендательные системы. Лента в фейсбучке, рекомендации в яндекс.музыке, рекомендации фильмов в Netflix — это все работа рекомендательных систем.
6. Финальный проект
Берете на выбор один из 4-х проектов и доводите его по шагам до точки, в которой проект можно положить к себе в портфолио. Можно сделать и все 4, если к этому моменту у вас еще будет на это время
Если резюмировать, то именно эти 6 курсов помогли мне разобраться в основах классического машинного обучения. С одной стороны, здесь не совсем детская сложность подачи и заданий. С другой, в курсах и конспектах есть все, чтобы эти задания решить.
И да, к каждой неделе есть конспект. И эти конспекты шикарны: все кратко и в одном месте. Я до сих пор в них иногда заглядываю.
2. «Линейная алгебра» от Высшей школы экономики на Coursera
Наверное, не самый лучший курс по линейной алгебре в мире У меня осталось впечатление излишнего формализма: очень правильно и точно рассказывают и доказывают формулы, но не объясняют, почему так и откуда эти формулы взялись. Т.е. понятно, что рассказали, но не понятно, для чего это и почему так. Но для вводной подойдет.
По содержанию — разбирают самые азы: как найти определитель, собственные векторы и собственные значения матрицы, решить СЛАУ, решить уравнение в матричном виде, отличать отображение от ядра и т.д. Для того, чтобы без особого ужаса читать формулы и не пугаться фраз типа «матрица плохо обусловлена» более чем достаточно.
Проходить стоит, потому что линейной алгебры в машинном обучении много.
3. «Основы статистики» на Stepik
Шикарный вводный курс от института биоинформатики. Ведет Анатолий Карпов, и ведет просто замечательно.
Чаще всего я встречал случаи, когда даже простые вещи на курсах преподаватели объясняют сложно. Почему так — большой вопрос. Может, стараются так поднять свой авторитет. Или следуют принципу «я страдал — и ты будешь». Это не преподавание, а способ потешить свое эго. Сам через это проходил и представляю, соблазн велик
Здесь же обратная ситуация: объясняют для того, чтобы мы поняли. Получается просто, понятно и интересно. Прошел курс быстро и с огромным удовольствием. Пока что, по мне, лучший курс по основам статистики. Если быть точным, там 3 части курса, со 2-й части начинаются задания на R.
Просто настоятельно рекомендую этот курс пройти. Хотя бы 1-ю часть. Я его начал проходить вместе с курсом «Построение выводов по данным» специализации Яндекса и МФТИ, ибо хотел понимать, что происходит Это секретная техника «пройти курс, чтобы пройти курс.»
Проходить стоит, потому что в машинном обучении и анализе данных статистика нужна.
4. «Комбинаторика для начинающих» на Coursera
Еще один отличный курс как по содержанию, так и по преподавателю. Мистер Райдогорский преподает и в ШАД, и в МФТИ и где-то еще, и делает это хорошо. Очень последовательно, от очевидных вещей до не очень, постепенно наслаивая за каждый урок ровно по одному слою новых знаний и объясняя все с азов.
Обычно, комбинаторные задачи отвечают на вопрос «сколько всего существует комбинаций чего-то». Пример простейшей комбинаторной задачи: сколькими способами могут рассесться 30 учеников в классе.
Проходить рекомендую по 3-м причинам:
- Решение многих задач по теории вероятности (в машинном обучении это встречается) часто сводится к комбинаторным задачам.
- Комбинаторные задачи вполне могут попасться на собеседовании или при поступлении в условный ШАД / MADE / Ozon Masters.
- Это просто забавно и интересно
5. «Algorithmic Toolbox» на Coursera [EN] («Алгоритмы: теория и практика. Методы» на stepik [RU])
Обычно, этот предмет называется «Алгоритмы и структуры данных». Так вот в курсе — про первую часть, алгоритмы.
Курс для тех, кто любит «пожестче». Здесь не про то, как писать код. Здесь именно про сами алгоритмы: сортировки, расстояние Левенштейна, жадные алгоритмы, динамическое программирование и т.д. То, что обычно спрашивают на собеседованиях в условный Яндекс и Google, но в реальной работе применяется редко.
Подразумевается, что вы уже знаете любой популярный язык программирования, от Python и Ruby до C и C++, хотя бы на самом базовом уровне (даже без ООП, просто функции, переменные и т.д.). А большего здесь и не понадобится. Сложность будет не в том, как писать код, а в том, что же писать
Крус «Algorithmic Toolbox» на английском, но в его делали и русскоязычные ребята, которые еще запустили аналог этого курса на stepik: «Алгоритмы: теория и практика. Методы».
В каком случае рекомендую проходить:
- Если будете поступать куда-то, где нужны базовые знания алгоритмов
- Если собираетесь ходить по собеседованиям в большие компании
6. «Алгоритмы: теория и практика. Структуры данных» на stepik
Продолжение курса алгоритмов. Здесь про стеки, очереди, кучи, хэш-таблицы, самобалансирующиеся деревья. После него становится понятно, что же «под капотом», к примеру, list и dict в Python и почему до Python 3.6 dict не сохранял порядок элементов, а теперь сохраняет, и чем за это приходится платить.
Для тех, кто хочет «пожестче», проходите на C++. Так получится ощутить на себе все нюансы по работе с памятью, про которые рассказывают в курсе.
Именно этот курс я проходил уже после того, как поступил в MADE. Без него бы было сложнее сдавать там алгоритмы.
У обоих курсов по алгоритмам есть пробел: к сожалению, в них нет ничего про алгоритмы на графах. Но, если что, под это есть отдельный курс специализации, из которой курс «Algorithmic Toolbox» на Coursera. Я сам его не проходил, но слышал, люди хвалили.
7. «Нейронные сети и компьютерное зрение» от Samsung Research Center на stepik
Отличный базовый курс про нейронки: как они устроенны, что такое нейрон, как нейроны складываются в слои, какие слои бывают, какие бывают функции активации, как нейросети учатся, как работает backprop и т.д.
Все на PyTorch, что очень здорово и наглядно.
Создатели курса поступили довольно мудро: тем, кто хочет попроще, сделали основной курс. В конце обучить нейросеть, которая сможет отличать фотки мытых тарелок от грязных, уже сможете
А тем, кому нужно «пожестче», добавили в каждую неделю блоки теоретических заданий. Там будет и про матричное дифференцирование, и ручками производные сложных функций для алгоритма обратного распространения ошибки придется считать, и много еще всего. Лично я исписал далеко не одну страницу блокнота
И это все?
Нет, нет, еще раз нет и даже близко нет. Это только начало. Есть еще куча интересных и полезных курсов так или иначе связанных с машинным обучением и анализом данных.
От «Яндекса» до МГИМО: топ образовательных программ по ИИ, блокчейну и цифровой экономике
«Яндекс. Практикум»
В феврале этого года «Яндекс» запустил образовательный сервис «Яндекс.Практикум» , где каждый желающий может обучиться различным IT-профессиям.
На сегодняшний день сервис предлагает обучение профессиям «фронтенд-разработчик», «веб-разработчик» и «аналитик данных». В ближайшее время в списке появится еще несколько специальностей, в том числе «дата-инженер», «специалист по машинному обучению» и «дизайнер интерфейсов».
Процесс обучения, который включает теорию и практику, полностью проходит онлайн. К концу учебы у каждого специалиста будет собственное портфолио проектов.
Длительность обучения — от 6 до 9 месяцев (зависит от выбранной специальности).
Стоимость обучения: первые 20 академических часов — бесплатно, затем от 60 тыс. рублей за курс. Студенты, успешно сдавшие итоговую аттестацию, получат сертификаты «Яндекса».
“Яндекс” и МФТИ
Еще один образовательный проект «Яндекса» — совместная с Московским физико-технологическим институтом (МФТИ) программа «Машинное обучение и анализ данных» .
Как отмечается на сайте программы, она хорошо подходит для тех, кто не знаком с анализом данных. Специализированных знаний не требуется, всему обучают с нуля. Однако авторы программы обращают внимание, что знание основ программирования на Python и математической статистики на уровне программы старших классов (теория вероятности, линейные уравнения) значительно облегчат процесс обучения.
Обучение проходит полностью онлайн и рассчитано на 8 месяцев. Стоимость (вместе с итоговой аттестацией) — 69 600 руб.
По окончанию обучения выдается удостоверение о повышении квалификации МФТИ.
“Школа данных”
Проект «Школа данных» предлагает практические курсы по блокчейну и большим данным.
Курс «Big Data подготовительный» включает в себя шесть занятий об основах больших данных, машинном обучении и искусственном интеллекте, а также о методах и инструментах внедрения этих технологий в бизнес-процессы.
Важно! Необходимо знание языка программирования Python.
Формат обучения — интерактивные семинары один день в неделю. Стоимость обучения — 30 тыс. руб. Старт курса — 6 марта.
Для продвинутых пользователей Python и тех, кто мечтает стать “дата-сайентистом”, предусмотрен интенсивный курс по изучению машинного обучения и анализа данных.
Кроме того, совместно с компанией S7 TechLab (дочернее предприятие S7 Group) «Школа данных» набирает слушателей на курс «Практический блокчейн» . В программе курса: основы блокчейна и смарт-контрактов, особенности и ограничения блокчейна, свойства и характеристики криптовалют, разбор успешных кейсов применения блокчейна и процессов внедрения технологии распределенных реестров в бизнес.
Продолжительность курса — 4 недели (8 занятий по 2 часа). Доступен как онлайн- так и офлайн-курс в главном офисе S7 в Москве. Стоимость — 80 тыс. руб.
Старт обучения — 16 марта.
Школа бизнеса и международных компетенций МГИМО
Школа бизнеса и международных компетенций МГИМО объявила о наборе на образовательную программу «Правовые основы регулирования новых цифровых технологий» .
Программа стартует 25 марта и будет длиться всего 1 неделю. За это время студенты узнают о:
- юридических моделях внедрения блокчейн-решений, технологий искусственного интеллекта и больших данных
- токенизации ресурсов в компании
- развитии бизнеса в рамках регулятивных песочниц
- финансовом и налоговом контроле за оборотом криптовалют и многом другом.
Научный руководитель программы — глава рабочей группы Госдумы по оценкам рисков оборота криптовалюты Элина Сидоренко.
Стоимость обучения — 110 тыс. руб.
Высшая Школа Экономики
НИУ ВШЭ предлагает более 80 программ дополнительного образования, часть из которых можно пройти дистанционно. В 2019 году в списке появились программы по анализу данных, машинному обучению и цифровой экономике.
Сроки обучения в зависимости от выбранной программы — от 2 дней (программа «Юрист Цифровой Экономики» ) до 1 года (программа «Дизайн в цифровой среде» )
Стоимость — от 40 до 220 тыс руб.
Тем, кто уже имеет опыт программирования, стоит присмотреться к программе «Практический анализ данных и машинное обучение» . Студенты узнают об основах и продвинутых методах машинного обучения, нейронных сетях и глубоком обучении (deep learning). Также каждый слушатель курса должен подготовить индивидуальный проект по анализу данных. Продолжительность обучения — 5 месяцев, старт — 11 марта. Стоимость — 130 тыс. руб.
По итогам обучения все слушатели получают удостоверения о повышении квалификации НИУ ВШЭ.
Binary District
Международная образовательная платформа Binary District предлагает интенсивный курс по искусственному интеллекту, машинному обучению и нейронным сетям. Куратор курса — евангелист Microsoft и член российской ассоциации искусственного интеллекта Дмитрий Сошников.
В ходе курса студенты научатся применять нейросети для решения задач по распознаванию изображений и текста, создавать чат-ботов, а также использовать различные инструменты для анализа больших данных.
Продолжительность обучения: со 2 марта по 6 апреля. Занятия будут проходить три раза в неделю на площадке Digital October в Москве ( Берсеневская набережная, 6).
Стоимость курса — 42 тыс. руб.
Sber Graduate
На проекте Сбербанка Sber Graduate открыт прием заявок на оплачиваемые стажировки Sberseasons в Москве и регионах. Набирают только студентов очных отделений бакалавриата, специалитета и магистратуры. Если вы уже не студент, листайте дальше.
Стажировки пройдут в городах: Москва, Санкт-Петербург, Екатеринбург, Новосибирск, Нижний Новгород, Самара, Воронеж.
На выбор доступны IT-направления (UX/UI design,Data Engineering, Java Script, Cyber security, Python development, Data science и др), а также графический дизайн, экономические модели, бизнес-анализ и др.
Студенты будут принимать участие в реализации текущих проектов банка. В Москве участникам программы обещают платить до 40 тыс. руб, в регионах — до 30 тыс. рус. Гибкий график должен позволить студентам совмещать стажировку с учебой и работой.
Подать заявку можно до 5 марта, начало стажировок — апрель этого года.
Newprolab
Образовательный проект New Professional Lab предлагает практический курс «Специалист по большим данным» .
Программа состоит из трех блоков — алгоритмы, технологии и бизнес. Студенты научатся обрабатывать данные, решать аналитические задачи и применять полученные знания на практике. Курс сфокусирован именно на практической части: за три месяца обучения студенты сдадут 10 лабораторных работ и выполнят 2 групповых проекта.
Обучение будет проходить в Москве три дня в неделю с 26 марта по 27 июня. Стоимость — 170 тыс. руб.
Важно! Необходимо иметь базовые знания Linux и линейной алгебры, а также уметь программировать на Python и SQL.
Также на NewProLab открыт набор на курс «Анализ данных на Scala» , ориентированный на дата-сайентистов, дата-инженеров и scala-разработчиков.
SkillFactory
В школе digital-профессий SkillFactory открыт набор на онлайн-курсы по машинному обучению, нейронным сетям, разработке на Python и информационной безопасности.
Продолжительность курсов — от 11 недель до 1 года. Одни курсы рассчитаны на новичков ( Практический Machine Learning , Специализация Data Scientist ), где основам профессии обучают с нуля. Другие требуют профессиональной подготовки ( Deep Learning и нейронные сети ). Последний курс организован в партнерстве с Nvidia Corporation.
Стоимость обучения в зависимости от курса — от 34 тыс. руб.
“Нетология”
Ранее мы уже писали об онлайн-университете «Нетологии», в котором сейчас открыт набор на курс по Big Data . Продолжительность обучения — 1,5 месяца (с 28 февраля по 15 апреля). Можно записаться на курс сейчас, а обучение пройти вместе со следующим набором студентов. Стоимость — 27 900 руб.
В программе курса — изучение характеристик и источников больших данных, их монетизация, обзор облачных платформ (AWS, EMR, Azure), основы работы в Hadoop и MapReduce. В качестве аттестации слушатели курса под руководством экспертов реализуют дипломный проект, где применят полученные знания на практике.
Еще на «Нетологии» можно обучиться маркетингу, управлению проектами, дизайну и программированию. Предусмотрены платные и бесплатные курсы, а также готовые видеоуроки.
Бонус: как получить магистерскую степень онлайн
Получить новые знания или повысить свою квалификацию можно на образовательных онлайн-площадках Skillbox и Coursera , о которых мы писали ранее.
На Skillbox собрана большая база курсов и бесплатных вебинаров по дизайну, программированию, маркетингу и управлению. Продолжительность курсов — от 3 месяцев.
На Coursera выбор значительно шире: на площадке даже можно получить магистерскую степень от ведущих университетов мира. Из интересного — курс по криптографии , блокчейн для профессионалов и машинное обучение от Стэнфордского университета.
Лучшие Курсы по машинному обучению и нейронным сетям. Платные + бесплатные, актуально на 2020
В нашей статье мы рассмотрим самые лучшие курсы по машинному обучению и нейронным сетям в 2020 году. Всем, кто хочет знать, как работают такие популярные системы как Гугл и Яндекс, как сотрудники крупных IT –компаний обучают системы и с чего вообще начать путь в области машинного обучения и нейронным сетям, стопроцентно будет полезно почитать обзор специально подобранных курсов.
В данной статье подскажем, как выбирать курс для себя, нужен ли сертификат или нет, а также в каком курсе интереснее всего практические задачи для вас.
Короче говоря, алгоритмы машинного обучения – это алгоритмы, которые изучают (часто прогнозирующие) модели на основе данных. Т.е. вместо формулирования «правил» вручную алгоритм машинного обучения обучит модель за вас.
Итак, позвольте мне привести вам пример, чтобы проиллюстрировать, что это значит! Скажем, вы заинтересованы в реализации спам-фильтра. Вероятно, наиболее консервативный подход – позволить человеку сортировать эти письма вручную. Теперь, «традиционный» подход к программированию будет состоять в том, чтобы посмотреть на некоторые примеры электронных писем (и/или использовать ваши «знания предметной области»), чтобы придумать цепочку правил, таких как «Если это письмо содержит слово X, пометьте его как спам, иначе, если письмо содержит…» .
Теперь алгоритмы машинного обучения помогут вам сформулировать эти правила. Или, другими словами, (контролируемые) алгоритмы машинного обучения будут смотреть на набор данных с помеченными электронными письмами (спам и не спам) и выводить оттуда правила для разделения двух классов.
И, прежде, чем приступать к выбору определенной дисциплины, посмотрите на содержание курса и объем требуемых усилий. Определитесь, какая цель обучения наиболее важна для вас.
Например, если вам интересны методы машинного обучения, то у вас должны иметься определенные знания. В частности, нужно разбираться в таких предметах, как алгебра, матанализ. А также в методах оптимизации.
Также стоит освежить в памяти навыки программирования. В идеале человек, поступивший на курс по машинному обучению, также должен разбираться в: R, Python, Matlab.
Одним из наиболее известных и популярных курсов по машинному обучению является разработка от Яндекс и МФТИ. С него и начнем наш обзор.
Курс по машинному обучению и анализу данных от Яндекса и МФТИ
? Стоимость курса: стоимость курса составляет 5396 рублей. Есть возможность бесплатного обучения, достаточно запросить финансовую помощь. По окончании данного курса обязательно выдается сертификат установленного образца.
Особенность курса, его уникальность
Главной его особенностью является исключительная практическая направленность, причём обширный багаж математических знаний в данном курсе абсолютно не обязателен.
Мотивировать его изучение можно следующим образом: посмотрите учебный план. Если вы просмотрите все лекции и решите все задания, то вы гарантированно сможете применять все эти вещи на практике. В частности, вы освоите следующие навыки:
- Анализ данных и машинное обучение. Они базируются на знание математического анализа, линейной алгебры, а также методов оптимизации, теории вероятностей.
- Слушатели курса научатся пользоваться современными аналитическими инструментами и адаптировать их под особенности конкретных задач.
Есть несколько направлений данного курса:
- Математика и Python для анализа данных
- Обучение на размеченных данных
- Поиск структуры в данных
- Построение выводов по данным
Для кого этот курс?
Приглашаем продвинутых в математике студентов и профессионалов! Всех желающих на практике освоить базовые алгоритмы машинного обучения.
Курс рассчитан на слушателей, которые делают первые шаги в области машинного обучения.
Что нужно, чтобы приступить к курсу?
- Иметь базовые знания в области математической статистики;
- Быть готовым программировать на Python.
Машинное обучение (курс лекций, К.В.Воронцов)
? Стоимость курса: курс является бесплатным и читается студентам старших курсов технических вузов в течение двух семестров.
Особенность курса
Данный курс посвящен теории и методике обучения машин. Машинное обучение формировалось последние сорок лет, в наше время появились новые направления внутри этой дисциплины. Одна из наиболее перспективных – интеллектуальный анализ данных.
Особенность курса заключается в том, что все лекции направлены на более глубокое понимание основ высшей математики и методов машинного обучения.
Знания и навыки, необходимые для понимания курса
От студентов требуются знания курсов линейной алгебры, математического анализа, теории вероятностей. Знание математической статистики, методов оптимизации и какого-либо языка программирования желательно, но не обязательно.
Структура курса:
курс разбит на лекции, которые читаются в течение двух семестров. Для желающих самостоятельно изучить такую дисциплину как машинное обучение будут полезны видеолекции от ШАД Яндекс, которые дополняют данный учебный курс.
Natural Language Processing (NLP):
Стоимость курса: условно бесплатный. Курс можно и не оплачивать, но, чтобы стать обладателем сертификата, надо заплатить сто долларов.
В чем особенность курса?
Обработка естественного языка (НЛП) – одна из важнейших технологий информационного века. Понимание сложных языковых высказываний также является важной частью искусственного интеллекта.
В этом курсе вам будет дан подробный обзор обработки естественного языка и как использовать классические методы машинного обучения.
Вы узнаете о статистическом машинном переводе, а также о моделях глубокого семантического подобия (DSSM) и их приложениях. будете понимать методы глубокого подкрепляющего обучения, применяемые в НЛП и мультимодальном интеллекте языка.
Чему можно научиться?
- Применять модели глубокого обучения для решения задач машинного перевода и общения.
- Применять глубинно структурированные семантические модели для поиска информации и приложений на естественном языке.
- Использовать модели глубокого подкрепления для обучения в приложениях на естественном языке.
- Применять модели глубокого обучения для субтитров к изображениям и визуального ответа на вопросы.
Кто может пройти этот курс?
Существуют ограничения политического характера для желающих пройти данный курс. Жителям таких стран, как Куба, Иран и также гражданам, проживающим на территории Крыма, будет отказано в обучении из-за санкций.
Создатели курса стараются выразить ноту протеста против созданных санкций, но пока не получили разрешения на лицензированное обучение в упомянутых выше странах.