На этом тренинге вы научитесь представлять большие данные в MATLAB®, настраивать существующий код для эффективной работы с ним и масштабировать анализ, чтобы использовать преимущества собственных вычислительных ресурсов или облака. Темы включают в себя:

  • Создание хранилищ данных для чтения из источников данных;
  • Представление и обработка больших данных с помощью tall array;
  • Импорт пользовательских форматов данных и применение пользовательских функций к типу tall array;
  • Работа с кластерами  и облачными средами.

Предварительная подготовка: прохождение курса: «MATLAB для обработки данных и визуализации» или эквивалентный опыт использования MATLAB.

Продолжительность курса: 1 день

Используемые инструменты:

  • MATLAB;
  • Parallel Computing Toolbox;
  • MATLAB Parallel Server.


Программа: 

Прототипирование алгоритмов больших данных (2.5 часа)

Цель: Применение существующих алгоритмов к данных, которые не помещаются в память

  • Импорт данных с использованием datastores
  • Создание tall arrays
  • Запуск алгоритмов с tall arrays
  • Оптимизация кода для tall arrays
  • Чтение данных из облачных среда

Обработка пользовательских данных и алгоритмов (2.5 часа)

Цель: Импорт пользовательских форматов данных и применение алгоритмов, которые на разработаны для tall arrays

  • Импорт пользовательских форматированных данных с использованием с использованием файлов datastores и пользовательских datastores
  • Частичный импорт отдельных файлов
  • Применение преобразований, сжатия и скользящего окна для tall array

Работа с кластерами и облаками (1.5 часа)

Цель: Запуск алгоритмов больших данных на кластере или облачной среде

  • Локальные и удаленные кластеры
  • Обнаружение и подключение кластерам
  • Настройка кластера в облачной среде
  • Общие вопросы доступа к файлам