Матрицы для анализа текста

Матрица контекстной совстречаемости (Co-occurrence Matrix)

Применение: Анализ семантики, векторные представления слов (например, в word2vec до его появления).
Описание:

  • Показывает, как часто слова встречаются вместе в определённом контексте (окне предложения или документа).
  • Используется для построения семантических моделей (например, латентно-семантического анализа, LSA).

Пример:
Для предложений:

  1. «Кот ловит мышь»
  2. «Собака гонит кота»
котмышьсобакаловитгонит
кот01111
мышь10010
собака10001

(Здесь значения — количество совместных вхождений в одном контексте.)


Матрица переходов (Transition Matrix)

Применение: Марковские модели, предсказание следующего слова.
Описание:

  • Используется в n-граммных моделях (например, для генерации текста).
  • Показывает вероятность перехода от одного слова к другому.

Пример:
Для текста «кот ест рыбу, кот спит»:

котестрыбуспит
кот00.500.5
ест0010
рыбу0000
спит0000

(Вероятность перехода «кот» → «ест» = 0.5, так как после «кот» два варианта: «ест» и «спит».)


Матрица синтаксических расстояний (Syntactic Distance Matrix)

Применение: Анализ структуры предложения, сравнение языков.
Описание:

  • Показывает расстояние между словами в синтаксическом дереве.
  • Используется в исследованиях языковой универсальности.

Пример:
Для предложения «Быстрый кот ест рыбу»:

Быстрыйкотестрыбу
Быстрый0123
кот1012
ест2101
рыбу3210

(Числа — количество шагов между словами в дереве зависимостей.)


Матрица внимания (Attention Matrix)

Применение: Нейросетевые модели (Transformer, BERT).
Описание:

  • Показывает веса внимания между словами.
  • Используется в механизме self-attention.

Пример:
Для «кот ест рыбу» (упрощённо):

котестрыбу
кот0.90.10.0
ест0.30.40.3
рыбу0.10.20.7

(Числа — степень влияния одного слова на другое.)


Матрица морфологических признаков (Feature Matrix)

Применение: Морфологический анализ, машинный перевод.
Описание:

  • Каждая строка — слово, столбцы — признаки (род, число, падеж и т.д.).

Пример:

СловоЧасть речиПадежЧисло
котсуществительноеименительныйед.
естглаголед.
рыбусуществительноевинительныйед.

Матрица синтаксических n-грамм (Syntactic N-gram Matrix)

Применение: Анализ устойчивых синтаксических паттернов, стилометрия.
Описание:

  • Фиксирует частоту появления определенных синтаксических конструкций (например, «прилагательное + существительное»).
  • Используется для сравнения авторских стилей или языковых норм.

Пример:
Для текста: «Красный мяч летит. Синий шар падает.»

КонструкцияЧастота
прил. + сущ. (ном.)2
глагол (ед.ч.)2

Матрица семантических ролей (Semantic Role Matrix)

Применение: Глубинный семантический анализ.
Описание:

  • Сопоставляет словам их семантические роли (Агенс, Пациенс, Инструмент и т.д.).
  • Используется в системах извлечения событий.

Пример для «Повар ножом режет хлеб»:

СловоРольАргумент
ПоварАгенсрежет
ножомИнструментрежет
хлебПациенсрежет

Матрица дискурсных связей (Discourse Relation Matrix)

Применение: Анализ связей между предложениями.
Описание:

  • Кодирует логические отношения между частями текста (причина, следствие, противопоставление).
  • Важна для суммаризации и анализа аргументации.

Пример:
Для текста: «Шел дождь. Поэтому мы остались дома.»

Предложение 1Предложение 2Отношение
Шел дождьостались домапричина

Матрица фонетических признаков (Phonetic Feature Matrix)

Применение: Фонологический анализ, синтез речи.
Описание:

  • Представляет звуки через бинарные признаки (±гласный, ±звонкий и т.д.).
  • Используется в системах TTS (text-to-speech).

Пример для русского:

ЗвукГласныйЗвонкийГубной
[а]++
[п]+

Матрица кросс-языковых соответствий (Cross-lingual Alignment Matrix)

Применение: Машинный перевод, сопоставительная лингвистика.
Описание:

  • Показывает вероятности соответствия слов между языками.
  • Основа для выравнивания параллельных корпусов.

Пример (русский-английский):

рус.\англ.catdogeat
кот0.90.10.0
собака0.050.850.1

Матрица эмоциональной окраски (Sentiment Matrix)

Применение: Анализ тональности, эмоций в тексте.
Описание:

  • Приписывает словам/фразам числовые значения эмоций (положит./отриц.).
  • Используется в соц.медиа аналитике.

Пример:

ФразаПолярностьИнтенсивность
«Обожаю этот фильм!»+0.90.8
«Ужасная погода»-0.70.6

Матрица онтологических связей (Ontological Relation Matrix)

Применение: Семантические сети, извлечение знаний.
Описание:

  • Кодирует отношения типа «is-a», «part-of» между концептами.
  • Основа для построения тезаурусов (например, WordNet).

Пример:

Концепт 1Концепт 2Отношение
яблокофруктis-a
колесоавтомобильpart-of

Классификация матриц по уровням языка

Уровень языкаМатрицыПример применения
ФонетикаФонетических признаковСинтез речи, транскрипция
МорфологияМорфологических признаковЛемматизация, машинный перевод
СинтаксисЗависимостей, n-грамм, расстоянийПарсинг предложений
СемантикаСовстречаемости, сем.ролей, онтологийПоиск синонимов, извлечение знаний
ДискурсДискурсных связей, эмоцийАнализ аргументации, суммаризация
Кросс-лингвистикаКросс-языковых соответствийВыравнивание параллельных корпусов
NLP/НейросетиВнимания, переходовBERT, GPT, генерация текста

Прокрутить вверх