На главную О компании Продукты Технологии Публикации Партнерам in English: in English
На главную

   Помощь
Главная
Технологии
Связи между объектами

Технологии






Лингвистический анализ текста

Содержательный портрет текста

Упоминания персон и организаций

Упоминания особых объектов

Связи между объектами

Распознавание ситуаций

Отношение к объекту, анализ мнений

Анализ предметной области

Обработка знаний






Обработка особых текстов
Разбор частично-структурированного текста
Очистка информации в базах данных



Поиск и классификация
Поиск на естественном языке
Поиск с опечатками
Поиск похожих фрагментов
Классификация текстов
Сопутствующие решения




Связи между объектами

Лингвистический анализ содержания текста позволяет выявить связи между описанными в нем событиями, именованными и неименованными сущностями. Сеть связей, построенная между интересующими типами объектов по коллекции текстовых документов:
А) помогает при поиске заранее неизвестной информации, позволяя выдать пользователю возможные "подсказки" для уточнения запроса. Например, в ответ на запрос нефть можно получить список событий и предметов, связанных с нефтью в тексте документов, по которым ведется поиск: добыча нефти, экспорт нефти, государственная нефтяная компания Азербайджана, Азербайджан, Ангарский НХК, топливные компании, ЮКОС и т.п.
Б) служит основой для решения различных аналитических задач, позволяя исследовать окружение выбранного объекта, находить цепочки и группы связности во множестве объектов.

Как устанавливается связь? Показателем наличия некоторой связи между предметами является описание их участия в одном событии, процессе, действии. В простейшем случае такая ситуация выражается в подчинении имен существительных, называющих предметы, одному глаголу или отглагольному существительному в тексте: Юкос перерабатывает нефть, переработка нефти Юкосом, добыча нефти в Азербайджане. Точно установить такие связи в осложненных предложениях русского и английского языков позволяет синтактико-семантический анализ текста: занимаясь глубокой переработкой нефтепродуктов и сырой нефти, добываемых в Кавказском регионе, Лукойл и Юкос сегодня достигли....

Теоретико-множественное объединение всех выделенных в тексте троек {объект, связь, объект} формирует общую сеть связей текста. В качестве характеристик связей, если требуется, можно использовать глаголы или отглагольные существительные.

Разработанные нами и другими производителями ПО средства отображения семантических сетей предоставляют удобную форму навигации по информационному массиву. Она позволяет перемещаться вдоль связанных цепочек узлов и находить документы, относящиеся к узлам и связям.

На рисунке ниже представлен фрагмент семантической сети, построенной в системе Convera с использованием нашего решения RCO TopNet.

.

Следующий рисунок содержит фрагмент сети, построенной по запросу "Норникель" в системе бизнес-разведки "Аналитический курьер", также использовавшей в одной из ранних версий решение RCO TopNet.

.

На обоих рисунках размер шара, соответствующего теме, пропорционален общему количеству документов по теме в коллекции. Яркость связи пропорциональная силе связи между парой тем — количеству документов, в которых эта связь проявлялась. Яркость окраски шаров, соответствующих найденным темам, пропорциональна релевантности (близости) тем к запросу.

Для удобства восприятия темы на картинке располагаются таким образом, чтобы попарные расстояния между ними отражали силу связи. Алгоритм оптимального отображения сети на плоскость реализует один из методов решения известной в математике задаче многомерного шкалирования. Он позволяет по заданной матрице попарных расстояний между объектами (весов связей) построить их размещение в пространстве заданной размерности (в данном случае — на плоскости).

Большие сети связей могут быть еще эффективнее визуализированы при помощи профессиональных систем визуализации, например i2, VisuaLinks, IRule.

Продукты, использующие технологию:


RCO Fact Extractor Desktop

RCO Fact Extractor SDK

Публикации о технологии:


Ермаков А.Е., Плешко В.В. Семантическая сеть текста в задачах аналитика
Информатизация и информационная безопасность правоохранительных органов: XI Международная научная конференция. Сборник трудов - Москва, 2002.






Контакты

тел./факс: +7 495 287-9887    e-mail: info@rco.ru