Text Analytics Toolbox

MATLAB для анализа настроений и текстовой аналитики

Рекомендуем Вам перейти на Engee – Российскую платформу математических вычислений и динамического моделирования.

Text Analytics Toolbox предоставляет алгоритмы и средства визуализации для предварительной обработки, анализа и моделирования текстовых данных. Модели, созданные с помощью инструмента, можно использовать в таких приложениях, как анализ настроений, прогнозное обслуживание и тематическое моделирование.

Text Analytics Toolbox включает инструменты для обработки сырого текста из таких источников, как журналы учета эксплуатации оборудования, ленты новостей, опросы, отчеты операторов и социальные сети. Вы можете извлекать текст из популярных форматов файлов, предварительно обрабатывать сырой текст, извлекать отдельные слова, преобразовывать текст в числовые представления и строить статистические модели.

Используя методы машинного обучения, такие как LSA, LDA и векторного представления слов, можно находить кластеры и создавать объекты из многомерных наборов текстовых данных. Функции, созданные с помощью Text Analytics Toolbox, можно комбинировать с функциями из других источников данных для построения моделей машинного обучения, использующих преимущества текстовых, числовых и других типов данных.

MATLAB для анализа настроений и текстовой аналитики

Импорт и визуализация текстовых данных

Текстовая точечная диаграмма, показывающая относительную частоту слов с использованием размера шрифта и цвета

Извлечение текстовых данных из таких источников, как социальные сети, ленты новостей, журналы учета эксплуатации оборудования, отчеты и опросы.

Извлечение текстовых данных

Импортируйте текстовые данные в MATLAB из отдельных файлов или больших коллекций файлов, включая файлы PDF, HTML, Microsoft Word и Excel.

Визуализация текста

Визуальное изучение наборов текстовых данных с помощью облаков слов и точечных диаграмм текста.

Извлечение текстовых данных из файлов

Парсинг HTML и извлечение текстового содержимого

Анализ текстовых данных, содержащих смайлики

Визуализации текстовых данных с помощью облака слов

Визуализация векторного представления слов с помощью точечных диаграмм текста

Языковая поддержка

Анализ текстовых данных на японском языке

Определение языка текста

Анализ текстовых данных на немецком языке

Предварительная обработка текстовых данных

Финансовые графики и технические индикаторы

Извлечение значимых слов из необработанного текста.

Очистка текстовых данных

Применение высокоуровневых функций фильтрации для удаления постороннего содержимого, такого как URL-адреса, теги HTML и знаки препинания.

Фильтрация стоп-слов и приведение слов к корневой форме

Определение приоритетности значимых текстовых данных в анализе, путем фильтрации общих слов, которые появляются слишком часто или нечасто, а также фильтрации очень длинных или очень коротких слов. Сокращение словарного запас аи сосредоточение на более широком смысле документа, приводя слова в их корневую форму или лемматизируя их.

Определение лексем, предложений и частей речи

Автоматическое разбиение необработанного текста на набор слов с помощью алгоритма токенизации. Добавление границы предложения, деталей части речи и другой соответствующей информации для контекста.

Подготовка текстовых данных для анализа

Удаление знаков препинания из текста и документов

Удаление URL-адресов HTTP и HTTPS из текста

Удаление стоп-слов из документов

Стемминг или лемматизация слов

Разделение текста на слова с помощью токенизации

Определение границ предложений в документах

Добавление тегов части речи в документы

Правильное написание в документах

Финансовые графики и технические индикаторы

Преобразование текста к численному формату

Визуализация кластеров в точечной диаграмме текста, используя векторное представление слов

Преобразование текстовых данных в числовую форму для использования в машинном и глубоком обучении.

Подсчет слов и N-грамм

Расчет статистической частоты слов для представления текстовых данных численно.

Векторное представление и кодирование словарно

Обучение моделям векторного представления слов, таких как word2vec continuous bag-of-words (CBOW) и skip-gram модели. Импорт предварительно обученных моделей, включая fastText и GloVe.

Анализ текстовых данных с использованием многословных фраз

Матрица частоты встречаемости слов и обратной частоты встречаемости документа (tf-idf)

Визуализация векторных представлений слов с помощью точечных диаграмм текста

Предобученные модели fastText и векторного представления слов

Преобразование слов к векторному представлению

Машинное обучение с текстовыми данными

Определение тем в данных отчета о штормах.

Выполняйте тематическое моделирование, анализ тональности, классификацию, уменьшение размерности и извлечение сводки документов с помощью алгоритмов машинного обучения.

Тематическое моделирование

Выполните тематическое моделирование, классификацию и уменьшение размерности с помощью алгоритмов машинного обучения, таких как латентное распределение Дирихле (LDA) и латентный семантический анализ (LSA).

Обобщение документов и извлечение ключевых слов

Автоматически извлекайте сводку и релевантные ключевые слова из одного или нескольких документов и оценивайте сходство и важность документов.

Анализ текстовых данных с использованием тематических моделей

Выбор количества тем для модели LDA

Сравнение решателей LDA

Извлечение резюме из документов

Извлечение ключевых слов из текстовых данных с помощью TextRank

Сходство документов с алгоритмом BM25

Оценка документов с помощью алгоритма TextRank

Анализируйте тональность текста

Обучение классификатора настроений

Сгенерируйте лексикон настроений, специфичных для предметной области

Определение тем в данных отчета о штормах.

Глубокое обучение с текстовыми данными

Определение слов, которые предсказывают положительные и отрицательные настроения

Выполните анализ настроений и классификацию с помощью сетей глубокого обучения, таких как long short-term memory networks (LSTMs).

Анализ настроений

Определите отношения и мнения, выраженные в текстовых данных, чтобы классифицировать утверждения как положительные, нейтральные или отрицательные. Стройте модели, которые могут предсказывать настроения в реальном времени.

Классификация текста

Классифицируйте текстовые данные с помощью векторного представления слов, которые могут идентифицировать категории текста с помощью глубокого обучения.