RCO - Технологии - Упоминания персон и организаций

Объектом интереса в задачах компьютерной разведки чаще всего являются персоны или организации. Распознавание имен таких объектов, упоминавшихся в документе, выделение всех упоминаний об интересующих объектах из «текстовой помойки» являются необходимыми этапами, которые в том или ином виде присутствуют в любой технологической схеме извлечения из текста первичных знаний для обеспечения аналитической деятельности.

В полной постановке задача выделения упоминаний об объектах включает в себя две подзадачи:

распознавание и разбор наименований объектов с выделением всех элементов наименования (ФИО, организационно-правовая форма, форма хозяйственной деятельности, название, географические атрибуты и т.д.), что позволяет использовать результаты разбора для последующего отождествления наименований и приведения их к заданному каноническому виду;
отождествление различных вариантов наименования одного и того же объекта в тексте, в том числе косвенных обозначений, не содержащих в себе имени собственного, например, президент, предприятие, которое, он.

Для решения задачи (1) используется словарный и бессловарный морфологического анализ с генерацией множества гипотез о лексико-грамматических разрядах и способах словоизменения известных и неизвестных слов, учитываются стандарты написания сложных наименований. Для снятия омонимии используется синтаксический анализ, учитывается контекст появления имени собственного во всем анализируемом тексте, его сочетаемость и склоняемость (не всегда можно понять, о мужчине или о женщине идет речь в конструкции адвокат Валентина Петренко, а слово London обозначает город или писателя).

Задача (2) в лингвистической терминологии носит название задачи установления кореферентности слов в тексте, т.е. тождества референтов слов. Ее решение опирается на систему эмпирических закономерностей, присущих текстам даже такого свободного жанра, как публикации СМИ. В рамках данной системы учитываются грамматические характеристики слова и информация о его синтаксических связях с другими словами, распределение по тексту упоминаний о возможных референтах слова.

Пример выделения программой всех упоминаний о заранее неизвестных объектах в тексте документа “Черная металлургия”.

Красным цветом на рисунке персоны, синим — организации. В квадратных скобках программой указано имя объекта, приведенное к канонической форме, со ссылкой на предшествующее упоминание этого объекта в документе, если таковое имелось. Как видно, программа не только выделила и привела к единообразному виду имена всех объектов, но и сумела отождествить местоимение он с Липухиным Юрием, ГОК c Лебединским горно-обогатительным комбинатом, банк c Кредобанком, а предприятие – c Запсибом.

Публикации о технологии:

	Ермаков А.Е., Плешко В.В. Компьютерная морфология в контексте анализа связного текста Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог’2004. – Москва, Наука, 2004 Доклад посвящен ключевым проблемам морфологического разбора слов в тексте на русском языке. Затронуты вопросы, связанные с анализом неизвестных слов, омонимией, выделением в тексте сложных объектов-словосочетаний, и показано, как использовать формальные особенности текста и контекст для повышения точности разбора. Изложены принципы построения морфоанализатора, способного генерировать гипотезы о словоизменении с учетом различных допущений, в том числе эффективное кодирование словаря, реализация быстрого поиска, алгоритмы анализа неизвестных слов на основе правил и по аналогии с другими словами. В заключение обсуждается словарь словоизменения.

	Ермаков А.Е. Референция обозначений персон и организаций в русскоязычных текстах СМИ: эмпирические закономерности для компьютерного анализа Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог’2005. – Москва, Наука, 2005 Доклад посвящен проблемам установления кореферентности обозначений персон и организаций при компьютерном анализе текста. Рассматриваются особенности употребления таких обозначений в тексте СМИ и эмпирические закономерности, с опорой на которые на практике удается провести достаточно достоверный анализ кореферентности. Описывается схема принятия решения при определении референтов, реализованная в программных продукта RCO.