На главную О компании Продукты Технологии Публикации Партнерам in English: in English
На главную

   Помощь
Главная
Продукты
RCO Address Parser

RCO Address Parser






Инструментарий разработчика

RCO Fact Extractor SDK

RCO Text Categorization Engine

RCO Address Parser

Общая информация
Форум
Демо


RCO Database Record Cleaner

RCO Morphology SDK

RCO Morphology Professional SDK

RCO Information Extraction Service






Расширения стандартных решений
RCO for Oracle: поиск на русском языке
RCO for BackOffice: поиск на русском языке



Приложения RCO Fact Extractor SDK
RCO Deduplicator SDK
RCO TopExtractor SDK
RCO Glossary Maker SDK
RCO Block Parser SDK
RCO Law Reference Extractor SDK



Инструментарий аналитика
RCO Fact Extractor Desktop
RCO Zoom



Архив продуктов (более не поддерживаются)
RCO Syntactic Engine SDK
RCO Semantic Network SDK
RCO Pattern Extractor SDK
RCO Entity Extractor SDK




Общая информация

Модуль RCO Address Parser производит разбор текстовой адресной строки, содержащей российский почтовый адрес, проверяет корректность адресной информации на основании эталонной базы КЛАДР, приводит все элементы адреса к стандартному написанию в установленном порядке, а также производит, при необходимости, исправление опечаток и восстановление пропущенных элементов адреса.

RCO Address Parser предоставляет программный интерфейс Oracle PL/SQL для ведения справочника адресов, а также интерактивную web-страницу для тестирования.

Для разбора адреса на элементы используется модуль выделения конструкций в тексте по шаблонам RCO Pattern Extractor (также доступный в составе RCO Fact Extractor SDK) с набором соответствующих правил, учитывающих различные способы написания/искажения российских почтовых адресов.

Для исправления опечаток и быстрого поиска по КЛАДР используются специальные индексы, разработанные RCO.

Основные виды ошибок/опечаток, устраняемых во входных данных:

  • Использование схожих по написанию латинских букв вместо кириллических;
  • Опечатки («ул Перера» исправит на «ул Перерва»);
  • Неполнота задания адреса (при условии уникальности заданных элементов, например, адрес «ул Xоламская, 31» преобразует в «индекс 361823, респ Кабардино-Балкарская, р-н Черекский, с Герпегеж, ул Холамская, дом 31»);
  • Преобразование римских цифр в арабские;
  • Использование старых названий городов и улиц (списки синонимов генерируются при загрузке КЛАДР, отсутствующие в КЛАДР синонимы могут быть добавлены при помощи API) «Арзамас-16, Репина, д.1, кв. 34» преобразует в «индекс 607188, обл Нижегородская, г Саров, ул Репина, дом 1, кв. 34»;
  • Автозамена часто встречающихся устойчивых сокращений («проф.» вместо «профессора», «ак.» вместо «академика» и т.д.).

Кроме того, возможны распознавание зарубежного адреса и вставка его в справочник без попыток найти похожий адрес на территории РФ.

Восстанавливаемая адресная информация:

  • Почтовый индекс;
  • Код КЛАДР;
  • Пропущенные элементы адреса (область, район и т.п.).

Для устранения неточностей, порой возникающих при разборе адреса, система генерирует множество гипотез и выбирает наилучшую.

Для возможного «ручного» анализа, помимо наилучшей гипотезы, отдельно сохраняются пять следующих наилучших гипотез-кандидатов и их оценки.

Для установки продукта необходима СУБД Oracle любой редакции.

Тип лицензии: 1 инсталляция.



Форум
Демо



Контакты

тел./факс: +7 495 287-9887    e-mail: info@rco.ru