На главную О компании Продукты Технологии Публикации Партнерам in English: in English
На главную

   Помощь
Главная
Технологии
Распознавание ситуаций

Технологии






Лингвистический анализ текста

Содержательный портрет текста

Упоминания персон и организаций

Упоминания особых объектов

Связи между объектами

Распознавание ситуаций

Отношение к объекту, анализ мнений

Анализ предметной области

Обработка знаний






Обработка особых текстов
Разбор частично-структурированного текста
Очистка информации в базах данных



Поиск и классификация
Поиск на естественном языке
Поиск с опечатками
Поиск похожих фрагментов
Классификация текстов
Сопутствующие решения




Распознавание ситуаций

Распознавание ситуаций — событий или фактов заданного типа — необходимо для компьютерной разведки, например, для подбора материала к досье на заданную персону или для мониторинга выбранных сторон деятельности организации, освещаемых в прессе.
На сегодняшний день в любой технологической схеме, обеспечивающей сбор и обработку информации из электронных источников, существует узкое место. В этом месте сырые данные (мега- и гига-байты текста на естественном языке) должны превращаться в первичные знания об интересующих объектах — гипотезы и факты. Именно эти первичные знания представляют собой тот исходный материал, работая с которым — отсеивая, верифицируя, сопоставляя — аналитик формирует конечное знание, которое представляет собой аналитический отчет, прогноз или просто новую запись в досье или базе данных.
Для автоматического превращения текста электронных документов в первичные знания предназначена технология распознавания ситуаций (иногда также называемая технологией извлечения знаний, фактов, технологией фактографического поиска).

Технология распознавания ситуаций позволяет:

  • найти в тексте описания ситуаций нужного типа: предложения, в которых говорится о таких событиях и фактах, как, предположим, приобретение собственности, встреча, заключение договора, расход бюджетных средств, скандал и другое.
  • выделить всех участников ситуации в соответствии с их ролями. Например, по описанию сделки купли-продажи определить, что покупателем является Алексей Иванов, товаром являются акции компании "Северные авиалинии" в количестве 20%, а продавец в тексте не указан;
  • классифицировать описания ситуаций, сгруппировав их по заданным критериям. Например, можно отфильтровать описания всех сделок купли-продажи с заданной персоной,выступающей в роли продавца или покупателя, и сгруппировать эти описания по значению предмета покупки, чтобы получить представление о том, какой собственностью владела данная персона. Или сгруппировать все ситуации выбранных типов по значениям одушевленных участников, чтобы увидеть круг лиц, контактировавших с целевым объектом интересующим образом (допустим, финансовые связи).

Пример классификатора ситуаций приведен на рисунке ниже.

.

В окне слева — объекты и классы ситуаций с их участием, для удобства объединенные в логические группы, с указанием числа найденных ситуаций, отнесенных к соответствующему узлу рубрикатора. В окне справа — список найденных ситуаций, отнесенных к выбранному классу "покупает" выбранной группы объектов "МДМ". Классификатор настроен так, что ситуации сгруппированы по значению фигуранта "предмет покупки". В окне снизу — найденные описания факта покупки Петровского народного банка (6 цитат из документов с возможностью просмотра их полного текста).

Технология распознавания ситуаций предназначена для высокоточного избирательного извлечения информации, поэтому предполагает настройку шаблонов для поиска и классификации событий и фактов самых различных типов. Такие шаблоны создаются двумя путями:
А) при помощи специальной программы-настройщика, позволяющей строить шаблоны на основе типовых фраз русского или английского языка, т.е. обучать программу на примерах. Эта процедура не требует специальных лингвистических знаний, однако предполагает хорошее владение языком для понимания способов, которыми ситуация может быть описана в тексте, учета возможных синонимов. После приобретения определенной сноровки создание шаблона для высокоточного выделения ситуаций заданного типа занимает пару часов.
Б) настройкой уже существующих стандартных шаблонов путем простого подключения требуемых словарей. Стандартные шаблоны позволяют выделять из текста большинство ситуаций и их участников, но без детальной классификации ролей. Такой путь позволяет легко и быстро настроить классификатор за счет некоторого снижения полноты и точности работы.

Продукты, использующие технологию:


RCO Fact Extractor Desktop

RCO Fact Extractor SDK

Публикации о технологии:


А.Е. Ермаков Автоматическое извлечение фактов из текстов досье: опыт установления анафорических связей
Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог’2007. – Москва, Наука, 2007
Доклад описывает опыт решения задачи автоматического извлечения фактов из текстовых документов особого стиля - досье. Описываются использованные для поиска фактов средства на основе синтаксического анализатора и синтактико-семантических шаблонов. Особое внимание уделяется закономерностям организации дискурса, использованным для установления анафорических связей.

Ермаков А.Е., Плешко В.В. Семантическая интерпретация в системах компьютерного анализа текста
Информационные технологии. - 2009. – N 6.
В статье описывается подход к построению семантического компонента в системах компьютерного анализа текста на естественном языке. Подход основан на применении специальных шаблонов к сети синтактико-семантических отношений между словами текста, которая строится синтаксическим анализатором. Шаблоны определяют способ интерпретации фрагментов сети в заданные фреймы, с идентификацией участников ситуаций и их ролей.






Контакты

тел./факс: +7 495 287-9887    e-mail: info@rco.ru