Пакет для разработки программного обеспечения RCO Block Parser SDK предназначен для решения задачи комплексной обработки частично-структурированных документов.
В пакете реализована функция автоматической идентификации типов входных документов на основании множества шаблонов, описывающих структуры документов на специальном языке.
При обработке документа ядро пакета RCO Block Parser SDK производит автоматическую идентификацию блоков текста (тип блока, начало и конец, место в иерархии блоков) в соответствии с определенным или заданным шаблоном документа, с выбором оптимального решения в случае неоднозначности (например, вложенные многоуровневые списки с нарушением нумерации).
При этом в процессе анализа блоков текста заданного типа обеспечено извлечение требуемых сущностей и их связей следующими способами:
- на основании формальных признаков, описываемых регулярными выражениями;
- на основании лингвистического анализа текста на естественном языке (с вызовом лингвистических анализаторов).
В качестве лингвистических анализаторов могут быть использованы RCO Fact Extractor SDK редакции Standard Plus или Professional для русского и английского языков.