|
Лингвистический анализ текста
|
|
|
|
|
|
Обработка особых текстов
|
|
Поиск и классификация
|
|
|
Содержательный портрет текста
При обработке текста в информационно-поисковых системах чаще всего возникает задача построения информационного портрета документа, который характеризовал бы в компактной форме основное содержание текста — описанные в нем предметы, лица, ситуации и т.п.
Наличие такого содержательного портрета позволяет:
- эффективно решать задачи, требующие сравнения документов по содержанию — находить похожие документы, производить автоматическую классификацию, категоризацию и рубрицирование документов, новостную агрегацию;
- автоматически строить глоссарии, частотные словари употреблявшихся в тексте терминов, словосочетаний;
- компактно представлять содержание документа на экране в форме списка ключевых тем, затронутых в его тексте, или же в форме реферата — набора репрезентативных предложений из текста, содержащих упоминания о ключевых темах.
В качестве элементов информационного портрета текста рассматриваются имена упоминавшихся в нем событий и предметов.
События — это действия, процессы или состояния, которые именуются глаголами и отглагольными существительными, часто с дополнительными словами-распространителями, например: высокая инфляция, принять закон об отмене льгот, борьба с наводнением, бороться за права человека.
Предметы — это обычно участники событий - одушевленные и неодушевленные, природные и искусственные, материальные или идеальные, обозначаемые именными группами: вычислительная сеть, реки Камчатки, торговец спиртным. Сюда же относится разряд сущностей, которые находятся на границе между признаками и предметами: классическая борьба, туризм. Именованные сущности: персоны, организации, географические названия, артефакты — также входят в содержательный портрет (см. [упоминания персон и организаций]).
Прочие элементы содержания текста, не включаемые в содержательный портрет, — это либо чистые признаки, обозначаемые прилагательными, наречиями или адъективными существительными, либо элементы смысла, характеризующие позицию автора по отношению к описываемым предметам и событиям и выражающиеся разными языковыми средствами как лексическими (слова служебных частей речи, строевые глаголы), так и грамматическими (вид, время и залог глагола).
При формирования содержательного портрета текста выполняются следующие ключевые шаги:
- Преобразование каждого предложения текста в сеть синтактико-семантических отношений. Разбор предложения производится с учетом правил грамматики русского языка, моделей управления предикатами, законов семантического согласования. Учитываются разные стандарты и формы написания наименований организаций и персон, географических названий, дат, различных цифровых конструкций. Используются специальные алгоритмы анализа сочетаемости и склоняемости неизвестных слов по всему тексту. Проводится анализ референции слов в тексте, в том числе отождествление различных обозначений персон и (полных, кратких, косвенных и местоименных обозначений), отождествление имен нарицательных — полных и кратких словосочетаний и слов.
- Синтез всех элементов содержательного портрета текста — словосочетаний, обозначающих события и предметы, описанные в тексте. Применяются правила эксплицирования элементов смысла из семантической сети, тезаурус.
- Для каждого элемента определяется его самостоятельность — употреблялось ли данное слово/словосочетание независимо или только в составе другого словосочетания. Это позволяет очистить портрет от "шумовых" элементов, не имеющих в тексте самостоятельного значения. Так, слова "президент", "Россия", "президент России", употреблявшееся только в словосочетании "указ президента России", своего значения в тексте не имеют и не должны учитываться при сравнении этого документа с другими, либо должны учитываться в последнюю очередь.
- Числовая оценка веса каждого элемента в портрете текста — коммуникативного ранга, который отражается в позиции в синтаксической структуре предложения (член предложения и тип клаузы). Так, позиция подлежащего соответствует основному фокусу внимания автора. Наличие этой оценки в сочетании с частотой встречаемости и близостью к началу документа позволяют сформировать содержательный портрет текста с той или степенью подробности, включая в него более или менее значимые элементы.
- Построение общего и тематических рефератов текста с заданной степенью подробности. Тематический реферат — это набор предложений, содержащих упоминания об одном элементе содержательного портрета текста. В тематический реферат в первую очередь включаются те предложения, в которых упоминаемый элемент имеет наибольший коммуникативный ранг — допустим, является подлежащим в активном залоге. В общий реферат включаются предложения, содержащие наиболее существенные упоминания о наиболее значимых элементах текста.
Пример построения содержательного портрета текста "Разрабатывая с 1999 года различные лингвистические технологии, компания "ЭР СИ О" выпускает серию продуктов для компьютерного анализа текста".
Категория | Элемент портрета текста | Значимость |
| Самостоятельные | |
Организация | "ЭР СИ О" | 100 |
Событие | ВЫПУСК ПРОДУКТА | 64 |
Событие | РАЗРАБОТКА ЛИНГВИСТИЧЕСКОЙ ТЕХНОЛОГИИ | 40 |
Событие | КОМПЬЮТЕРНЫЙ АНАЛИЗ ТЕКСТА | 24 |
| Производные | |
Предмет | ПРОДУКТ | 25 |
Предмет | ЛИНГВИСТИЧЕСКАЯ ТЕХНОЛОГИЯ | 24 |
Событие | АНАЛИЗ ТЕКСТА | 16 |
Событие | КОМПЬЮТЕРНЫЙ АНАЛИЗ | 16 |
Предмет | ТЕХНОЛОГИЯ | 12 |
Предмет | ТЕКСТ | 9 |
В таблице приведены все элементы содержательного портрета текста в порядке убывания значимости. Производные элементы входят в состав самостоятельных, ввиду чего самостоятельные элементы хорошо использовать для представления содержания текста человеку, а производные — для компьютерной обработки (поиска документов по теме, сравнения документов по содержанию).
Продукты, использующие технологию:
Публикации о технологии:
|
Ермаков А.Е., Плешко В.В. Синтаксический разбор в системах статистического анализа текста
Информационные технологии. - 2002. – N 7.
В статье рассмотрено место алгоритмов синтаксического разбора в прикладных системах компьютерного анализа полнотекстовых документов. На опыте собственных разработок показано, как применение подобных алгоритмов способно повысить качество статистических методов анализа текста при решении таких задач, как: формирование информационного портрета документа, выявление смысловых связей, автоматическое реферирование.
|
|
|
Ермаков А.Е. Эксплицирование элементов смысла текста средствами синтаксического анализа-синтеза
Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог’2003. – Москва, Наука, 2003
В докладе предлагается метод построения информационного портрета документа на основе элементов смысла текста, извлекаемых средствами синтаксического анализа и синтеза. Метод основан на использовании синтаксического анализатора с последующим преобразованием семантической сети во множество строк, которые представляют в унифицированном виде все элементарные отношения между сущностями в тексте и являются корректными с точки зрения грамматики русского языка. Описывается ряд преобразований синтаксических структур, обеспечивающих инвариантность представления смыслов от ряда особенностей поверхностно-синтаксической организации текста. Предлагается способ ранжирования полученных элементов смысла по информативности с точки зрения характеристики текста в прикладных системах.
|
|
|
Ермаков А.Е. Значимость элементов текста в свете теории синтаксической парадигмы
Русский язык: исторические судьбы и современность. II Международный конгресс исследователей русского языка. Труды и материалы. - Москва, МГУ, 2004.
В докладе анонсируется формальная модель, которая позволяет численно оценить значимость элементов смысла текста с точки зрения его автора - коммуникативный ранг.
|
|
|
|
|