На главную О компании Продукты Технологии Публикации Партнерам in English: in English
На главную

   Помощь
Главная
Технологии
Упоминания особых объектов

Технологии






Лингвистический анализ текста

Содержательный портрет текста

Упоминания персон и организаций

Упоминания особых объектов

Связи между объектами

Распознавание ситуаций

Отношение к объекту, анализ мнений

Анализ предметной области

Обработка знаний






Обработка особых текстов
Разбор частично-структурированного текста
Очистка информации в базах данных



Поиск и классификация
Поиск на естественном языке
Поиск с опечатками
Поиск похожих фрагментов
Классификация текстов
Сопутствующие решения




Упоминания особых объектов

Не только в базах данных, но и в текстах на естественном языке могут встречаться упоминания особых объектов, отличающихся специального вида написанием — наименования почтовых адресов, различных видов идентификационных и паспортных данных, марки товаров и модели устройств, формулы, ссылки на нормативные документы и т.п. Правила написания подобных объектов выходят за рамки грамматики естественного языка и обычно настраиваются на предметную область или тип документов.

Для распознавания в тексте обозначений подобных объектов, извлечения их требуемых атрибутов и стандартизации имен разработан специальный программный компонент RCO Pattern Extractor со своим формальным языком, который позволяет оперировать как формальными особенностями написания текста, используя, в частности, язык регулярных выражений, так и всеми грамматическими атрибутами слов: частью речи, родом, числом, падежом и т.д. Образцы сложных конструкций могут строиться иерархически, включая образцы более простых. Грамматика языка описания образцов обеспечивает как бесконтекстное, так и контекстно-зависимое распознавание.

Ниже перечислены классы объектов, для выделения которых из текста нами уже разработаны комплексы правил (на русском и английском языках):

  • Даты и обстоятельства времени, даты рождения;
  • Денежные суммы, обозначения физических измерений (координаты, температура и т.п.);
  • Марки автомобилей и ряда других артефактов, товаров;
  • Почтовые адреса и географические места;
  • Электронные адреса;
  • Паспортные и другие персональные данные;
  • Номера банковских счетов, кредитных карт, социальной страховки и т.п.;
  • Телефонные номера;
  • Номера автомобилей (идентификационные, регистрационные);
  • ИНН, ОГРН, ОКПО и другие номера организаций;
  • Номера уголовных и розыскных дел;
  • Ссылки на Статьи Уголовного Кодекса и другие нормативно-правовые документы.

Продукты, использующие технологию:


RCO Fact Extractor Desktop

RCO Fact Extractor SDK

Публикации о технологии:


Ермаков А.Е., Плешко В.В., Митюнин В.А. RCO Pattern Extractor: компонент выделения особых объектов в тексте
Информатизация и информационная безопасность правоохранительных органов: XI Международная научная конференция. Сборник трудов - Москва, 2003






Контакты

тел./факс: +7 495 287-9887    e-mail: info@rco.ru