Обработка больших данных

Go to class
Write Review

Free Online Course: Обработка больших данных provided by Coursera is a comprehensive online course, which lasts for 5 weeks long, 42 hours worth of material. The course is taught in Russian and is free of charge. Upon completion of the course, you can receive an e-certificate from Coursera. Обработка больших данных is taught by Andrei Zimovnov.

Overview
  • Ключ к успешному развитию любой компании в современном мире — это умение делать быстрые и правильные решения, основываясь на данных. С каждым годом этих данных становится всё больше, при этом старые методы анализа перестают адекватно работать на таких объемах.

    На этом онлайн-курсе НИУ ВШЭ мы изучим основные технологии и приемы, позволяющие эффективно хранить и обрабатывать огромные массивы информации. Мы также обсудим, откуда данные вообще возникают, как их собирать и какая инженерная подготовка требуется для безболезненной работы с этими технологиями.

Syllabus
    • Базовые подходы к хранению и извлечению информации
      • На этой неделе мы познакомимся с SQL и NoSQL базами данных и извлечением информации из Интернета. Ведь большие данные откуда-то нужно брать.
    • Bash для инженера данных
      • На этой неделе мы научимся работать с командной строкой в bash. Это очень полезное умение, которое пригодится на протяжении всего курса.
    • Начало работы с большим объемом данных: Hadoop, MapReduce
      • В этом модуле разберемся, как устроены два важных компонента экосистемы Hadoop: файловая система HDFS и API для вычислений MapReduce. Посмотрим, почему они устроены именно так и почему горизонтальная масштабируемость – это хорошо.
    • Знакомство со Spark
      • На этой неделе разберем фреймворк для распределенных вычислений Spark. С ним сильно проще работать из Python и он умеет много всего.
    • Продвинутое использование Spark
      • На этой неделе на примере задачи классификации текстов посмотрим, что еще умеет Spark и как это помогает решать задачи машинного обучения.