MATLAB для анализа настроений и текстовой аналитики

Text Analytics Toolbox предоставляет алгоритмы и средства визуализации для предварительной обработки, анализа и моделирования текстовых данных. Модели, созданные с помощью инструмента, можно использовать в таких приложениях, как анализ настроений, прогнозное обслуживание и тематическое моделирование.

Text Analytics Toolbox включает инструменты для обработки сырого текста из таких источников, как журналы учета эксплуатации оборудования, ленты новостей, опросы, отчеты операторов и социальные сети. Вы можете извлекать текст из популярных форматов файлов, предварительно обрабатывать сырой текст, извлекать отдельные слова, преобразовывать текст в числовые представления и строить статистические модели.

Используя методы машинного обучения, такие как LSA, LDA и векторного представления слов, можно находить кластеры и создавать объекты из многомерных наборов текстовых данных. Функции, созданные с помощью Text Analytics Toolbox, можно комбинировать с функциями из других источников данных для построения моделей машинного обучения, использующих преимущества текстовых, числовых и других типов данных.

MATLAB для анализа настроений и текстовой аналитики

Импорт и визуализация текстовых данных

Текстовая точечная диаграмма, показывающая относительную частоту слов с использованием размера шрифта и цвета
Текстовая точечная диаграмма, показывающая относительную частоту слов с использованием размера шрифта и цвета
Текстовая точечная диаграмма, показывающая относительную частоту слов с использованием размера шрифта и цвета Текстовая точечная диаграмма, показывающая относительную частоту слов с использованием размера шрифта и цвета

Извлечение текстовых данных из таких источников, как социальные сети, ленты новостей, журналы учета эксплуатации оборудования, отчеты и опросы.

Извлечение текстовых данных

Импортируйте текстовые данные в MATLAB из отдельных файлов или больших коллекций файлов, включая файлы PDF, HTML, Microsoft Word и Excel.

Визуализация текста

Визуальное изучение наборов текстовых данных с помощью облаков слов и точечных диаграмм текста.

Предварительная обработка текстовых данных

Финансовые графики и технические индикаторы
Финансовые графики и технические индикаторы

Извлечение значимых слов из необработанного текста.

Очистка текстовых данных

Применение высокоуровневых функций фильтрации для удаления постороннего содержимого, такого как URL-адреса, теги HTML и знаки препинания.

Фильтрация стоп-слов и приведение слов к корневой форме

Определение приоритетности значимых текстовых данных в анализе, путем фильтрации общих слов, которые появляются слишком часто или нечасто, а также  фильтрации очень длинных или очень коротких слов. Сокращение словарного запас аи сосредоточение на более широком смысле документа, приводя слова в их корневую форму или лемматизируя их.

Определение лексем, предложений и частей речи

Автоматическое разбиение необработанного текста на набор слов с помощью алгоритма токенизации. Добавление границы предложения, деталей части речи и другой соответствующей информации для контекста.

Финансовые графики и технические индикаторы Финансовые графики и технические индикаторы

Преобразование текста к численному формату

Визуализация кластеров в точечной диаграмме текста, используя векторное представление слов
Визуализация кластеров в точечной диаграмме текста, используя векторное представление слов
Визуализация кластеров в точечной диаграмме текста, используя векторное представление слов Визуализация кластеров в точечной диаграмме текста, используя векторное представление слов

Преобразование текстовых данных в числовую форму для использования в машинном и глубоком обучении.

Подсчет слов и N-грамм

Расчет статистической частоты слов для представления текстовых данных численно.

Векторное представление и кодирование словарно

Обучение моделям  векторного представления слов, таких как word2vec continuous bag-of-words (CBOW) и skip-gram модели. Импорт предварительно обученных моделей, включая fastText и GloVe.

Машинное обучение с текстовыми данными

Определение тем в данных отчета о штормах.
Определение тем в данных отчета о штормах.

Выполняйте тематическое моделирование, анализ тональности, классификацию, уменьшение размерности и извлечение сводки документов с помощью алгоритмов машинного обучения.

Тематическое моделирование

Выполните тематическое моделирование, классификацию и уменьшение размерности с помощью алгоритмов машинного обучения, таких как латентное распределение Дирихле (LDA) и латентный семантический анализ (LSA).

Обобщение документов и извлечение ключевых слов

Автоматически извлекайте сводку и релевантные ключевые слова из одного или нескольких документов и оценивайте сходство и важность документов.

Определение тем в данных отчета о штормах. Определение тем в данных отчета о штормах.

Глубокое обучение с текстовыми данными

Определение слов, которые предсказывают положительные и отрицательные настроения
Определение слов, которые предсказывают положительные и отрицательные настроения
Определение слов, которые предсказывают положительные и отрицательные настроения Определение слов, которые предсказывают положительные и отрицательные настроения

Выполните анализ настроений и классификацию с помощью сетей глубокого обучения, таких как long short-term memory networks (LSTMs).

Анализ настроений 

Определите отношения и мнения, выраженные в текстовых данных, чтобы классифицировать утверждения как положительные, нейтральные или отрицательные. Стройте модели, которые могут предсказывать настроения в реальном времени.

Классификация текста

Классифицируйте текстовые данные с помощью векторного представления  слов, которые могут идентифицировать категории текста с помощью глубокого обучения.

Генерация текста

Используйте глубокое обучение для создания нового текста на основе наблюдаемого.