Библиотека RCO Pattern Extractor предназначена для анализа текста и распознавания в нем различных конструкций в соответствии с образцами, заданными на формальном языке. Область применения в первую очередь включает в себя выделение особых объектов, отличающихся особого вида написанием, – адресов, номеров и т.п. В большинстве случаев правила написания подобных объектов в тексте выходят за рамки общих правил грамматики русского языка, являются неочевидными и трудно формализуемыми.
Мощный язык описания элементов текста позволяет оперировать как формальными особенностями написания слов, используя, в частности, язык регулярных выражений, так и всеми их грамматическими атрибутами – частью речи, родом, числом, падежом и т.д.
В состав библиотеки входит морфологический анализатор, который обеспечивает обработку как известных, так и неизвестных слов русского языка.
Образцы сложных объектов могут строиться иерархически, включая образцы более простых, что позволяет постепенно наращивать мощность системы целевых описаний. Грамматика языка описания образцов обеспечивает как бесконтекстное, так и контекстно-зависимое распознавание объектов.
Библиотека обрабатывает текст в форматах HTML и TXT. Поставляется в виде динамической библиотеки (dll) для Windows.
В комплект поставки библиотеки входит стандартный набор образцов для выделения нескольких классов объектов - дат, денежных сумм, адресов и ряда других объектов. Пользователю предоставляются возможности настройки стандартных образцов и введения своих собственных, описывающих интересующие объекты.