Statistics and Machine Learning Toolbox предоставляет функции и приложения для описания, анализа и моделирования данных. Вы можете использовать описательную статистику и графики для исследовательского анализа данных, подгонять распределения вероятностей к данным, генерировать случайные числа для моделирования Монте-Карло и выполнять тесты гипотез. Алгоритмы регрессии и классификации позволяют делать выводы из данных и строить прогнозные модели.
Для многомерного анализа данных набор инструментов Statistics and Machine Learning Toolbox предоставляет выбор объектов, пошаговую регрессию, анализ основных компонентов (PCA), регуляризацию и другие методы уменьшения размерности, которые позволяют идентифицировать переменные или объекты, влияющие на вашу модель.
Инструментарий предоставляет методы машинного обучения с учителем и без учителя, включая метод опорных векторов (SVM), бустинг и бутсреп агрегация деревьев решений, k ближайших соседей, k-средних и k-medoids, иерархическая кластеризация, модели Гауссовой смеси, и скрытых марковских моделей. Многие статистические данные и алгоритмы машинного обучения могут использоваться для вычислений в наборах данных, которые слишком велики для хранения в памяти.
Исследуйте данные с помощью интерактивной графики и описательной статистики. Определение шаблонов и объектов с помощью кластеризации.
Визуально исследуйте данные с помощью вероятностных графиков, диаграмм размаха, гистограмм, квантиль-квантильных графиков и расширенных графиков для многомерного анализа, таких как дендрограммы, биплоты и графики Эндрюса.
Быстрое понимание и описание потенциально больших наборов данных, используя несколько очень важных чисел.
Обнаружение шаблонов путем группировки данных с использованием k-средних, K-медоидов, DBSCAN, иерархической кластеризации, гауссовой смеси и скрытых марковских моделей.
Преобразование необработанных данных в характеристики, наиболее подходящие для машинного обучения. Итеративно исследуйте и создавайте новые характеристики, а также выбирайте те, которые оптимизируют производительность.
Извлечение характеристик из данных с использованием методов обучения без учителя, таких как разреженная фильтрация и восстановление ICA. Вы также можете использовать специальные методы для извлечения объектов из изображений, сигналов, текста и числовых данных.
Автоматическое определение подмножеств объектов, которые обеспечивают наилучшую прогностическую способность при моделировании данных. Методы выбора компонентов включают пошаговую регрессию, последовательный выбор компонент, регуляризацию и методы ансамблей.
Уменьшение размерность путем преобразования существующих (некатегориальных) характеристик в новые переменные предиктора, где можно отбросить менее описательные характеристики. Методы преобразования признаков включают PCA, факторный анализ и неотрицательную матричную факторизацию.
Построение прогнозных классификационных и регрессионных моделей с помощью интерактивных приложений. Автоматический выбор характеристик и настройка моделей путем оптимизации гиперпараметров.
Сравните различные алгоритмы машинного обучения, выберите характеристики, отрегулируйте гиперпараметры и оцените качество предсказания.
Смоделируйте категориальную переменную ответа как функцию одного или нескольких предикторов. Используйте различные параметрические и непараметрические алгоритмы классификации, включая логистическую регрессию, SVM, бустинг и бутстреп агрегация на основе деревьев решений, наивные Байес, дискриминантный анализ и k-ближайших соседей.
Повышение производительности модели за счет автоматической настройки гиперпараметров, выбора характеристик и устранения дисбалансов наборов данных с помощью матриц затрат.
Моделирование непрерывной переменной отклика как функцию одного или нескольких предикторов, используя линейную и нелинейную регрессию, модели смешанных эффектов, обобщенные линейные модели и непараметрическую регрессию. Укажите дисперсию различных источников с использованием дисперсионного анализа.
Модель поведения сложных систем с множеством предикторов или переменных отклика, выбираемых из множества линейных и нелинейных алгоритмов регрессии. Подбор многоуровневых или иерархических, линейных, нелинейных и обобщенных линейных моделей смешанных эффектов с вложенными и/или скрещенными случайными эффектами для выполнения продольного или панельного анализа, повторных измерений и моделирования роста.
Создание точной подгонки без указания модели, описывающей связь между предикторами и ответом, включая SVM, случайные деревья, Гауссовы процессы и гауссовы ядра.
Укажите выборочную дисперсию для разных источников и определите, возникает ли вариация внутри или среди разных групп выборки. Используйте однофакторный, двуфакторный, многофакторный, многомерный, и непараметрический дисперсионный анализ, а также анализ ковариации (ANCOVA) и дисперсионного анализа повторных измерений (RANOVA).
Подгонка распределений к данным. Анализ, являются ли различия между выборками значительными или согласуются со случайными изменениями данных. Генерация случайных чисел из различных распределений.
Подбор параметров непрерывных и дискретных распределений, использование статистических графиков для оценки соответствия и вычисления функций плотности вероятности и кумулятивных функций распределения для более чем 40 различных распределений.
Генерация потоков псевдослучайных и квазислучайных чисел из установленного или построенного распределения вероятностей.
Расчеты t-tests, тесты распределений (Хи-квадрат, Харке-Бера, Lilliefors, и критерий Колмогорова-Смирнова), а также непараметрических критериев как односторонней, двухсторонней, так и для независимых выборок. Тест на автокоррекцию и случайность, а также сравнение распределений (двухвыборочный Колмогорова-Смирнова).
Статистический анализ эффектов и тенденции данных. Применение промышленных статистических методов, таких как индивидуальный дизайн экспериментов и статистический контроль процесса.
Определение, анализ и визуализация индивидуального дизайна экспериментов. Создание и тестирование практических планов управления вводом данных в тандеме для получения информации об их влиянии на выходные данные.
Мониторинг и улучшение продуктов или процессов путем оценки изменчивости процессов. Создание контрольных диаграмм, оценка технологических возможностей и проведение исследований повторяемости и воспроизводимости датчиков.
Визуализация и анализ данных о времени до отказа с цензурой и без нее, выполнив регрессию пропорциональных рисков Кокса и соответствующие распределения. Расчет эмпирической опасности, время жизни, кумулятивные функции распределения и оценки плотности ядра.
Применение методов статистического и машинного обучения к данным, находящимся вне памяти. Ускорение статистических вычислений и обучение модели машинного обучения на кластерах и облачных сервисах.
Используйте tall arrays и таблицы со многими алгоритмами классификации, регрессии и кластеризации для обучения моделей на наборах данных, которые не помещаются в память без изменения кода.
Ускорение статистических вычислений и обучение модели с помощью параллельных вычислений.
Используйте облачные экземпляры для ускорения статистических вычислений и машинного обучения. Выполните полный рабочий процесс машинного обучения в MATLAB Online.
Развертывание алгоритмов статистики и машинного обучения на встраиваемые системы, ускорение вычислительных вычислений с использованием кода C и интеграция с корпоративными системами.
Генерация портативного и читаемого кода C или C++ для реализации алгоритмов классификации и регрессии, описательной статистики и вероятностных распределений с использованием MATLAB Coder. Ускорение проверки и валидации высокоточных симуляций с использованием моделей машинного обучения через функциональные блоки MATLAB и системные блоки.
Интегрируйте модели машинного обучения с моделями Simulink для развертывания на встроенном оборудовании или для моделирования, проверки и валидации системы.
Развертывание статистических моделей и моделей машинного обучения в виде автономных приложений, приложений MapReduce, Spark, веб-приложений и надстроек Microsoft Excel с помощью MATLAB Compiler. Создание общих библиотек C/C++, сборок Microsoft .NET, классов Java и пакетов Python с помощью MATLAB Compiler SDK.
Обновление параметров развернутых моделей без регенерации кода прогнозирования C/C++.