На главную О компании Продукты Технологии Публикации Партнерам in English: in English
На главную

   Помощь
Главная
Продукты
RCO Information Extraction Service

RCO Information Extraction Service






Инструментарий разработчика

RCO Fact Extractor SDK

RCO Text Categorization Engine

RCO Address Parser

RCO Database Record Cleaner

RCO Morphology SDK

RCO Morphology Professional SDK

RCO Information Extraction Service

Общая информация
Документация
Форум







Расширения стандартных решений
RCO for Oracle: поиск на русском языке
RCO for BackOffice: поиск на русском языке



Приложения RCO Fact Extractor SDK
RCO Deduplicator SDK
RCO TopExtractor SDK
RCO Glossary Maker SDK
RCO Block Parser SDK
RCO Law Reference Extractor SDK



Инструментарий аналитика
RCO Fact Extractor Desktop
RCO Zoom



Архив продуктов (более не поддерживаются)
RCO Syntactic Engine SDK
RCO Semantic Network SDK
RCO Pattern Extractor SDK
RCO Entity Extractor SDK




Общая информация

Служба RCO Information Extraction Service предназначена для решения задач, связанных с анализом неструктурированной и полуструктурированной информации, часто возникающих при построении фактографических и полнотекстовых баз данных.
Служба предоставляет единую среду для подключения различных модулей разбора текста в процессе обработки и анализа данных. Архитектура службы обеспечивает масштабируемость и устойчивость создаваемых компонентов: запуск нескольких экземпляров службы на одном сервере, автоматический перезапуск в случае аварийного останова модуля разбора и при превышении максимально допустимого времени обработки текста.

Компоненты службы
Для сервера приложений:

  • FXServer — осуществляет связь с клиентом с использованием SOAP-протокола. Стартуя, сервер запускает дочерний процесс FXModuleWrapper.exe, дальнейшая связь с которым поддерживается по протоколу TCP/IP.
  • FXModuleWrapper — взаимодействует с модулями разбора текстов и с FXServer. Для поддержания в состоянии готовности к новому запуску процесс FXModuleWrapper принудительно перезапускается сервером, если клиент отсоединился раньше, чем FXModuleWrapper закончил обработку. Процесс перезапускается также в случае падения/закрытия.
  • Подключаемые модули выполняют непосредственно разбор текста. Обычно они состоят из динамической библиотеки, словарей и правил, настроенных для решения конкретных задач. Перечень подключаемых модулей зависит от поставки.
Дополнительный компонент для взаимодействия с сервером базы данных (БД) Oracle:
  • пакет для СУБД Oracle — используется для передачи (синхронной или асинхронной) информации из базы данных на обработку и преобразования полученного результата в коллекции с сохранением в определенном виде в БД.
В комплект поставки также может входить и клиент, позволяющий протестировать любой DLL-модуль разбора на текстовых данных из произвольного каталога.

Тип лицензии: 1 ядро (1 работающий экземпляр).

Модули обработки, которые могут быть поставлены вместе с RCO Information Extraction Service, разбирают как структурированные данные в формате XML, так и слабоструктурированные (htm-страницы) и неструктурированные — из html-файлов.
Структурированные данные (в XML-формате) анализируются модулями:

  • ROSSTAT_Affiliated_FL — аффилированные лица (РОССТАТ);
  • ROSSTAT_IP — ИП (РОССТАТ);
  • ROSSTAT_UL – ЮЛ (РОССТАТ).
Слабоструктурированные (htm-страницы):
  • FNS_Affiliated — аффилированные лица (ФНС);
  • FNS_EGRIP — ЕГРИП (ФНС);
  • FNS_EGRUL — ЕГРЮЛ (ФНС);
  • Debtor_Registry — реестр должников.
Указанные выше модули рассчитаны на обработку данных, полученных с применением API Crosys при обращении к ведомственным БД.
Модули FNS_* требуют наличия анализатора текста RCO Fact Extractor SDK Russian Standard Edition.
Модули ROSSTAT_* задействуют библиотеку XSLT-преобразований, поставляемую в составе службы.

Неструктурированные (html-файлы) разбираются посредством модуля:

  • FX_SMI — материалы СМИ.
Модулю FX_SMI необходим анализатор текста RCO Fact Extractor SDK Russian Standard Plus Edition.

Для обработки подходят не только перечисленные выше XML- и HTML-форматы, но и любые другие. Соответствующая функциональность обеспечивается либо использованием специального модуля разбора, либо приведением XML-файла за счет XSLT-преобразования к требуемому формату.



Документация
Форум



Контакты

тел./факс: +7 495 287-9887    e-mail: info@rco.ru