На главную О компании Продукты Технологии Публикации Партнерам in English: in English
На главную

   Помощь
Главная
Технологии
Содержательный портрет текста

Технологии






Лингвистический анализ текста

Содержательный портрет текста

Упоминания персон и организаций

Упоминания особых объектов

Связи между объектами

Распознавание ситуаций

Отношение к объекту, анализ мнений

Анализ предметной области

Обработка знаний






Обработка особых текстов
Разбор частично-структурированного текста
Очистка информации в базах данных



Поиск и классификация
Поиск на естественном языке
Поиск с опечатками
Поиск похожих фрагментов
Классификация текстов
Сопутствующие решения




Содержательный портрет текста

При обработке текста в информационно-поисковых системах чаще всего возникает задача построения информационного портрета документа, который характеризовал бы в компактной форме основное содержание текста — описанные в нем предметы, лица, ситуации и т.п.

Наличие такого содержательного портрета позволяет:

  1. эффективно решать задачи, требующие сравнения документов по содержанию — находить похожие документы, производить автоматическую классификацию, категоризацию и рубрицирование документов, новостную агрегацию;
  2. автоматически строить глоссарии, частотные словари употреблявшихся в тексте терминов, словосочетаний;
  3. компактно представлять содержание документа на экране в форме списка ключевых тем, затронутых в его тексте, или же в форме реферата — набора репрезентативных предложений из текста, содержащих упоминания о ключевых темах.

В качестве элементов информационного портрета текста рассматриваются имена упоминавшихся в нем событий и предметов.
События — это действия, процессы или состояния, которые именуются глаголами и отглагольными существительными, часто с дополнительными словами-распространителями, например: высокая инфляция, принять закон об отмене льгот, борьба с наводнением, бороться за права человека.
Предметы — это обычно участники событий - одушевленные и неодушевленные, природные и искусственные, материальные или идеальные, обозначаемые именными группами: вычислительная сеть, реки Камчатки, торговец спиртным. Сюда же относится разряд сущностей, которые находятся на границе между признаками и предметами: классическая борьба, туризм. Именованные сущности: персоны, организации, географические названия, артефакты — также входят в содержательный портрет (см. [упоминания персон и организаций]).
Прочие элементы содержания текста, не включаемые в содержательный портрет, — это либо чистые признаки, обозначаемые прилагательными, наречиями или адъективными существительными, либо элементы смысла, характеризующие позицию автора по отношению к описываемым предметам и событиям и выражающиеся разными языковыми средствами как лексическими (слова служебных частей речи, строевые глаголы), так и грамматическими (вид, время и залог глагола).

При формирования содержательного портрета текста выполняются следующие ключевые шаги:

  • Преобразование каждого предложения текста в сеть синтактико-семантических отношений. Разбор предложения производится с учетом правил грамматики русского языка, моделей управления предикатами, законов семантического согласования. Учитываются разные стандарты и формы написания наименований организаций и персон, географических названий, дат, различных цифровых конструкций. Используются специальные алгоритмы анализа сочетаемости и склоняемости неизвестных слов по всему тексту. Проводится анализ референции слов в тексте, в том числе отождествление различных обозначений персон и (полных, кратких, косвенных и местоименных обозначений), отождествление имен нарицательных — полных и кратких словосочетаний и слов.
  • Синтез всех элементов содержательного портрета текста — словосочетаний, обозначающих события и предметы, описанные в тексте. Применяются правила эксплицирования элементов смысла из семантической сети, тезаурус.
  • Для каждого элемента определяется его самостоятельность — употреблялось ли данное слово/словосочетание независимо или только в составе другого словосочетания. Это позволяет очистить портрет от "шумовых" элементов, не имеющих в тексте самостоятельного значения. Так, слова "президент", "Россия", "президент России", употреблявшееся только в словосочетании "указ президента России", своего значения в тексте не имеют и не должны учитываться при сравнении этого документа с другими, либо должны учитываться в последнюю очередь.
  • Числовая оценка веса каждого элемента в портрете текста — коммуникативного ранга, который отражается в позиции в синтаксической структуре предложения (член предложения и тип клаузы). Так, позиция подлежащего соответствует основному фокусу внимания автора. Наличие этой оценки в сочетании с частотой встречаемости и близостью к началу документа позволяют сформировать содержательный портрет текста с той или степенью подробности, включая в него более или менее значимые элементы.
  • Построение общего и тематических рефератов текста с заданной степенью подробности. Тематический реферат — это набор предложений, содержащих упоминания об одном элементе содержательного портрета текста. В тематический реферат в первую очередь включаются те предложения, в которых упоминаемый элемент имеет наибольший коммуникативный ранг — допустим, является подлежащим в активном залоге. В общий реферат включаются предложения, содержащие наиболее существенные упоминания о наиболее значимых элементах текста.

Пример построения содержательного портрета текста "Разрабатывая с 1999 года различные лингвистические технологии, компания "ЭР СИ О" выпускает серию продуктов для компьютерного анализа текста".

КатегорияЭлемент портрета текстаЗначимость
Самостоятельные
Организация"ЭР СИ О"100
СобытиеВЫПУСК ПРОДУКТА64
СобытиеРАЗРАБОТКА ЛИНГВИСТИЧЕСКОЙ ТЕХНОЛОГИИ40
СобытиеКОМПЬЮТЕРНЫЙ АНАЛИЗ ТЕКСТА24
Производные
ПредметПРОДУКТ25
ПредметЛИНГВИСТИЧЕСКАЯ ТЕХНОЛОГИЯ24
СобытиеАНАЛИЗ ТЕКСТА16
СобытиеКОМПЬЮТЕРНЫЙ АНАЛИЗ16
ПредметТЕХНОЛОГИЯ12
ПредметТЕКСТ9

В таблице приведены все элементы содержательного портрета текста в порядке убывания значимости. Производные элементы входят в состав самостоятельных, ввиду чего самостоятельные элементы хорошо использовать для представления содержания текста человеку, а производные — для компьютерной обработки (поиска документов по теме, сравнения документов по содержанию).

Продукты, использующие технологию:


RCO for Oracle: поиск на русском языке

RCO Fact Extractor SDK

RCO TopExtractor SDK

Публикации о технологии:


Ермаков А.Е., Плешко В.В. Синтаксический разбор в системах статистического анализа текста
Информационные технологии. - 2002. – N 7.
В статье рассмотрено место алгоритмов синтаксического разбора в прикладных системах компьютерного анализа полнотекстовых документов. На опыте собственных разработок показано, как применение подобных алгоритмов способно повысить качество статистических методов анализа текста при решении таких задач, как: формирование информационного портрета документа, выявление смысловых связей, автоматическое реферирование.


Ермаков А.Е. Эксплицирование элементов смысла текста средствами синтаксического анализа-синтеза
Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог’2003. – Москва, Наука, 2003
В докладе предлагается метод построения информационного портрета документа на основе элементов смысла текста, извлекаемых средствами синтаксического анализа и синтеза. Метод основан на использовании синтаксического анализатора с последующим преобразованием семантической сети во множество строк, которые представляют в унифицированном виде все элементарные отношения между сущностями в тексте и являются корректными с точки зрения грамматики русского языка. Описывается ряд преобразований синтаксических структур, обеспечивающих инвариантность представления смыслов от ряда особенностей поверхностно-синтаксической организации текста. Предлагается способ ранжирования полученных элементов смысла по информативности с точки зрения характеристики текста в прикладных системах.

Ермаков А.Е. Значимость элементов текста в свете теории синтаксической парадигмы
Русский язык: исторические судьбы и современность. II Международный конгресс исследователей русского языка. Труды и материалы. - Москва, МГУ, 2004.
В докладе анонсируется формальная модель, которая позволяет численно оценить значимость элементов смысла текста с точки зрения его автора - коммуникативный ранг.






Контакты

тел./факс: +7 495 287-9887    e-mail: info@rco.ru