Text Analytics Toolbox предоставляет алгоритмы и средства визуализации для предварительной обработки, анализа и моделирования текстовых данных. Модели, созданные с помощью инструмента, можно использовать в таких приложениях, как анализ настроений, прогнозное обслуживание и тематическое моделирование.
Text Analytics Toolbox включает инструменты для обработки сырого текста из таких источников, как журналы учета эксплуатации оборудования, ленты новостей, опросы, отчеты операторов и социальные сети. Вы можете извлекать текст из популярных форматов файлов, предварительно обрабатывать сырой текст, извлекать отдельные слова, преобразовывать текст в числовые представления и строить статистические модели.
Используя методы машинного обучения, такие как LSA, LDA и векторного представления слов, можно находить кластеры и создавать объекты из многомерных наборов текстовых данных. Функции, созданные с помощью Text Analytics Toolbox, можно комбинировать с функциями из других источников данных для построения моделей машинного обучения, использующих преимущества текстовых, числовых и других типов данных.
Извлечение текстовых данных из таких источников, как социальные сети, ленты новостей, журналы учета эксплуатации оборудования, отчеты и опросы.
Импортируйте текстовые данные в MATLAB из отдельных файлов или больших коллекций файлов, включая файлы PDF, HTML, Microsoft Word и Excel.
Визуальное изучение наборов текстовых данных с помощью облаков слов и точечных диаграмм текста.
Извлечение значимых слов из необработанного текста.
Применение высокоуровневых функций фильтрации для удаления постороннего содержимого, такого как URL-адреса, теги HTML и знаки препинания.
Определение приоритетности значимых текстовых данных в анализе, путем фильтрации общих слов, которые появляются слишком часто или нечасто, а также фильтрации очень длинных или очень коротких слов. Сокращение словарного запас аи сосредоточение на более широком смысле документа, приводя слова в их корневую форму или лемматизируя их.
Автоматическое разбиение необработанного текста на набор слов с помощью алгоритма токенизации. Добавление границы предложения, деталей части речи и другой соответствующей информации для контекста.
Преобразование текстовых данных в числовую форму для использования в машинном и глубоком обучении.
Расчет статистической частоты слов для представления текстовых данных численно.
Обучение моделям векторного представления слов, таких как word2vec continuous bag-of-words (CBOW) и skip-gram модели. Импорт предварительно обученных моделей, включая fastText и GloVe.
Выполняйте тематическое моделирование, анализ тональности, классификацию, уменьшение размерности и извлечение сводки документов с помощью алгоритмов машинного обучения.
Выполните тематическое моделирование, классификацию и уменьшение размерности с помощью алгоритмов машинного обучения, таких как латентное распределение Дирихле (LDA) и латентный семантический анализ (LSA).
Автоматически извлекайте сводку и релевантные ключевые слова из одного или нескольких документов и оценивайте сходство и важность документов.
Выполните анализ настроений и классификацию с помощью сетей глубокого обучения, таких как long short-term memory networks (LSTMs).
Определите отношения и мнения, выраженные в текстовых данных, чтобы классифицировать утверждения как положительные, нейтральные или отрицательные. Стройте модели, которые могут предсказывать настроения в реальном времени.
Классифицируйте текстовые данные с помощью векторного представления слов, которые могут идентифицировать категории текста с помощью глубокого обучения.
Используйте глубокое обучение для создания нового текста на основе наблюдаемого.