Служба RCO Information Extraction Service предназначена для решения задач, связанных с анализом неструктурированной и полуструктурированной информации, часто возникающих при построении фактографических и полнотекстовых баз данных.
Служба предоставляет единую среду для подключения различных модулей разбора текста в процессе обработки и анализа данных. Архитектура службы обеспечивает масштабируемость и устойчивость создаваемых компонентов: запуск нескольких экземпляров службы на одном сервере, автоматический перезапуск в случае аварийного останова модуля разбора и при превышении максимально допустимого времени обработки текста.
Компоненты службы
Для сервера приложений:
- FXServer — осуществляет связь с клиентом с использованием SOAP-протокола. Стартуя, сервер запускает дочерний процесс FXModuleWrapper.exe, дальнейшая связь с которым поддерживается по протоколу TCP/IP.
- FXModuleWrapper — взаимодействует с модулями разбора текстов и с FXServer. Для поддержания в состоянии готовности к новому запуску процесс FXModuleWrapper принудительно перезапускается сервером, если клиент отсоединился раньше, чем FXModuleWrapper закончил обработку. Процесс перезапускается также в случае падения/закрытия.
- Подключаемые модули выполняют непосредственно разбор текста. Обычно они состоят из динамической библиотеки, словарей и правил, настроенных для решения конкретных задач. Перечень подключаемых модулей зависит от поставки.
Дополнительный компонент для взаимодействия с сервером базы данных (БД) Oracle:
- пакет для СУБД Oracle — используется для передачи (синхронной или асинхронной) информации из базы данных на обработку и преобразования полученного результата в коллекции с сохранением в определенном виде в БД.
В комплект поставки также может входить и клиент, позволяющий протестировать любой DLL-модуль разбора на текстовых данных из произвольного каталога.
Тип лицензии: 1 ядро (1 работающий экземпляр).
Модули обработки, которые могут быть поставлены вместе с RCO Information Extraction Service, разбирают как структурированные данные в формате XML, так и слабоструктурированные (htm-страницы) и неструктурированные — из html-файлов.
Структурированные данные (в XML-формате) анализируются модулями:
- ROSSTAT_Affiliated_FL — аффилированные лица (РОССТАТ);
- ROSSTAT_IP — ИП (РОССТАТ);
- ROSSTAT_UL – ЮЛ (РОССТАТ).
Слабоструктурированные (htm-страницы):
- FNS_Affiliated — аффилированные лица (ФНС);
- FNS_EGRIP — ЕГРИП (ФНС);
- FNS_EGRUL — ЕГРЮЛ (ФНС);
- Debtor_Registry — реестр должников.
Указанные выше модули рассчитаны на обработку данных, полученных с применением API Crosys при обращении к ведомственным БД.
Модули FNS_* требуют наличия анализатора текста
RCO Fact Extractor SDK Russian Standard Edition.
Модули ROSSTAT_* задействуют библиотеку XSLT-преобразований, поставляемую в составе службы.
Неструктурированные (html-файлы) разбираются посредством модуля:
Модулю FX_SMI необходим анализатор текста
RCO Fact Extractor SDK Russian Standard Plus Edition.
Для обработки подходят не только перечисленные выше XML- и HTML-форматы, но и любые другие. Соответствующая функциональность обеспечивается либо использованием специального модуля разбора, либо приведением XML-файла за счет XSLT-преобразования к требуемому формату.