Вычислительная статистика в MATLAB

Statistics and Machine Learning Toolbox предоставляет функции и приложения для описания, анализа и моделирования данных. Вы можете использовать описательную статистику и графики для исследовательского анализа данных, подгонять распределения вероятностей к данным, генерировать случайные числа для моделирования Монте-Карло и выполнять тесты гипотез. Алгоритмы регрессии и классификации позволяют делать выводы из данных и строить прогнозные модели.

Для многомерного анализа данных набор инструментов Statistics and Machine Learning Toolbox предоставляет выбор объектов, пошаговую регрессию, анализ основных компонентов (PCA), регуляризацию и другие методы уменьшения размерности, которые позволяют идентифицировать переменные или объекты, влияющие на вашу модель.

Инструментарий предоставляет методы машинного обучения с учителем и без учителя, включая метод опорных векторов (SVM), бустинг и бутсреп агрегация деревьев решений, k ближайших соседей, k-средних и k-medoids, иерархическая кластеризация, модели Гауссовой смеси, и скрытых марковских моделей. Многие статистические данные и алгоритмы машинного обучения могут использоваться для вычислений в наборах данных, которые слишком велики для хранения в памяти.

Вычислительная статистика в MATLAB

Исследовательский анализ данных

Исследование данных с помощью сгруппированных средних и отклонений от средних
Исследование данных с помощью сгруппированных средних и отклонений от средних
Исследование данных с помощью сгруппированных средних и отклонений от средних Исследование данных с помощью сгруппированных средних и отклонений от средних

Исследуйте данные с помощью интерактивной графики и описательной статистики. Определение шаблонов и объектов с помощью кластеризации.

Визуализация

Визуально исследуйте данные с помощью вероятностных графиков, диаграмм размаха, гистограмм, квантиль-квантильных графиков и расширенных графиков для многомерного анализа, таких как дендрограммы, биплоты и графики Эндрюса.

Описательная статистика

Быстрое понимание и описание потенциально больших наборов данных, используя несколько очень важных чисел.

Кластерный анализ

Обнаружение шаблонов путем группировки данных с использованием k-средних, K-медоидов, DBSCAN, иерархической кластеризации, гауссовой смеси и скрытых марковских моделей.

Извлечение признаков и уменьшение размерности

Извлечение характеристик из сигналов, захваченных из мобильных устройства
Извлечение характеристик из сигналов, захваченных из мобильных устройства

Преобразование необработанных данных в характеристики, наиболее подходящие для машинного обучения. Итеративно исследуйте и создавайте новые характеристики, а также выбирайте те, которые оптимизируют производительность.

Извлечение характеристик

Извлечение характеристик из данных с использованием методов обучения без учителя, таких как разреженная фильтрация и восстановление ICA. Вы также можете использовать специальные методы для извлечения объектов из изображений, сигналов, текста и числовых данных.

Выбор компонент

Автоматическое определение подмножеств объектов, которые обеспечивают наилучшую прогностическую способность при моделировании данных. Методы выбора компонентов включают пошаговую регрессию, последовательный выбор компонент, регуляризацию и методы ансамблей.

Преобразование характеристик и уменьшение размерности

Уменьшение размерность путем преобразования существующих (некатегориальных) характеристик в новые переменные предиктора, где можно отбросить менее описательные характеристики. Методы преобразования признаков включают PCA, факторный анализ и неотрицательную матричную факторизацию.

Извлечение характеристик из сигналов, захваченных из мобильных устройства Извлечение характеристик из сигналов, захваченных из мобильных устройства

Машинное обучение

Эффективная оптимизация гиперпараметров с помощью Байесовской оптимизации
Эффективная оптимизация гиперпараметров с помощью Байесовской оптимизации
Эффективная оптимизация гиперпараметров с помощью Байесовской оптимизации Эффективная оптимизация гиперпараметров с помощью Байесовской оптимизации

Построение прогнозных классификационных и регрессионных моделей с помощью интерактивных приложений. Автоматический выбор характеристик и настройка моделей путем оптимизации гиперпараметров.

Обучение, проверка и настройка прогнозных моделей

Сравните различные алгоритмы машинного обучения, выберите характеристики, отрегулируйте гиперпараметры и оцените качество предсказания.

Классификация

Смоделируйте категориальную переменную ответа как функцию одного или нескольких предикторов. Используйте различные параметрические и непараметрические алгоритмы классификации, включая логистическую регрессию, SVM, бустинг и бутстреп агрегация на основе деревьев решений, наивные Байес, дискриминантный анализ и k-ближайших соседей.

Автоматизированная оптимизация модели

Повышение производительности модели за счет автоматической настройки гиперпараметров, выбора характеристик и устранения дисбалансов наборов данных с помощью матриц затрат.

Регрессия и ANOVA (Дисперсионный анализ)

Подбор регрессионной модели в интерактивном режиме с помощью приложения Regression Learner
Подбор регрессионной модели в интерактивном режиме с помощью приложения Regression Learner

Моделирование непрерывной переменной отклика как функцию одного или нескольких предикторов, используя линейную и нелинейную регрессию, модели смешанных эффектов, обобщенные линейные модели и непараметрическую регрессию. Укажите дисперсию различных источников с использованием дисперсионного анализа.

Линейная и нелинейная регрессия

Модель поведения сложных систем с множеством предикторов или переменных отклика, выбираемых из множества линейных и нелинейных алгоритмов регрессии. Подбор многоуровневых или иерархических, линейных, нелинейных и обобщенных линейных моделей смешанных эффектов с вложенными и/или скрещенными случайными эффектами для выполнения продольного или панельного анализа, повторных измерений и моделирования роста.

Непараметрическая регрессия

Создание точной подгонки без указания модели, описывающей связь между предикторами и ответом, включая SVM, случайные деревья, Гауссовы процессы и гауссовы ядра.

Дисперсионный анализ (ANOVA)

Укажите выборочную дисперсию для разных источников и определите, возникает ли вариация внутри или среди разных групп выборки. Используйте однофакторный, двуфакторный, многофакторный, многомерный, и непараметрический дисперсионный анализ, а также анализ ковариации (ANCOVA) и дисперсионного анализа повторных измерений (RANOVA).

Подбор регрессионной модели в интерактивном режиме с помощью приложения Regression Learner Подбор регрессионной модели в интерактивном режиме с помощью приложения Regression Learner

Распределение вероятностей и проверка гипотез

Подбор распределений в интерактивном режиме с помощью приложения Distribution Fitter
Подбор распределений в интерактивном режиме с помощью приложения Distribution Fitter
Подбор распределений в интерактивном режиме с помощью приложения Distribution Fitter Подбор распределений в интерактивном режиме с помощью приложения Distribution Fitter

Подгонка распределений к данным. Анализ, являются ли различия между выборками значительными или согласуются со случайными изменениями данных. Генерация случайных чисел из различных распределений.

Распределение вероятностей

Подбор параметров непрерывных и дискретных распределений, использование статистических графиков для оценки соответствия и вычисления функций плотности вероятности и кумулятивных функций распределения для более чем 40 различных распределений.

Генерация случайных чисел

Генерация потоков псевдослучайных и квазислучайных чисел из установленного или построенного распределения вероятностей.

Проверка гипотез

Расчеты  t-tests, тесты распределений (Хи-квадрат, Харке-Бера, Lilliefors, и критерий Колмогорова-Смирнова), а также непараметрических критериев как односторонней, двухсторонней, так и для независимых выборок. Тест на автокоррекцию и случайность, а также сравнение распределений (двухвыборочный Колмогорова-Смирнова).

Промышленная статистика

Данные о сбоях в качестве примера "цензурированных" значений
Данные о сбоях в качестве примера "цензурированных" значений

Статистический анализ эффектов и тенденции данных. Применение промышленных статистических методов, таких как индивидуальный дизайн экспериментов и статистический контроль процесса.

Планирование эксперимента

Определение, анализ и визуализация индивидуального дизайна экспериментов. Создание и тестирование практических планов управления вводом данных в тандеме для получения информации об их влиянии на выходные данные.

Статистический процесс управления

Мониторинг и улучшение продуктов или процессов путем оценки изменчивости процессов. Создание контрольных диаграмм, оценка технологических возможностей и проведение исследований повторяемости и воспроизводимости датчиков.

Анализ надежности и срока жизни

Визуализация и анализ данных о времени до отказа с цензурой и без нее, выполнив регрессию пропорциональных рисков Кокса и соответствующие распределения. Расчет эмпирической опасности, время жизни, кумулятивные функции распределения и оценки плотности ядра.

Данные о сбоях в качестве примера "цензурированных" значений Данные о сбоях в качестве примера "цензурированных" значений

Масштабирование к большим данным и облакам

Ускорение вычислений с помощью Parallel Computing Toolbox или MATLAB Parallel Server
Ускорение вычислений с помощью Parallel Computing Toolbox или MATLAB Parallel Server
Ускорение вычислений с помощью Parallel Computing Toolbox или MATLAB Parallel Server Ускорение вычислений с помощью Parallel Computing Toolbox или MATLAB Parallel Server

Применение методов статистического и машинного обучения к данным, находящимся вне памяти. Ускорение статистических вычислений и обучение модели машинного обучения на кластерах и облачных сервисах.

Анализ больших данных с помощью tall arrays

Используйте tall arrays и таблицы со многими алгоритмами классификации, регрессии и кластеризации для обучения моделей на наборах данных, которые не помещаются в память без изменения кода.

Параллельные вычисления

Ускорение статистических вычислений и обучение модели с помощью параллельных вычислений.

Облачные и распределенные вычисления

Используйте облачные экземпляры для ускорения статистических вычислений и машинного обучения. Выполните полный рабочий процесс машинного обучения в MATLAB Online.

Развертывание и генерация кода

Два пути к развертыванию: создание C кода или компиляция MATLAB кода
Два пути к развертыванию: создание C кода или компиляция MATLAB кода

Развертывание алгоритмов статистики и машинного обучения на встраиваемые системы, ускорение вычислительных вычислений с использованием кода C и интеграция с корпоративными системами.

Генерация кода

Генерация портативного и читаемого кода C или C++ для реализации алгоритмов классификации и регрессии, описательной статистики и вероятностных распределений с использованием MATLAB Coder. Ускорение проверки и валидации высокоточных симуляций с использованием моделей машинного обучения через функциональные блоки MATLAB и системные блоки.

Интеграция с Simulink

Интегрируйте модели машинного обучения с моделями Simulink для развертывания на встроенном оборудовании или для моделирования, проверки и валидации системы.

Интеграция с приложениями и корпоративными системами

Развертывание статистических моделей и моделей машинного обучения в виде автономных приложений, приложений MapReduce, Spark, веб-приложений и надстроек Microsoft Excel с помощью MATLAB Compiler. Создание общих библиотек C/C++, сборок Microsoft .NET, классов Java и пакетов Python с помощью MATLAB Compiler SDK.

Обновление развернутых моделей

Обновление параметров развернутых моделей без регенерации кода прогнозирования C/C++.

Два пути к развертыванию: создание C кода или компиляция MATLAB кода Два пути к развертыванию: создание C кода или компиляция MATLAB кода