На главную О компании Продукты Технологии Публикации Партнерам in English: in English
На главную

   Помощь
Главная
Продукты
RCO Pattern Extractor SDK

RCO Pattern Extractor SDK
библиотека выделения объектов в тексте






Архив продуктов (более не поддерживаются)

RCO Syntactic Engine SDK

RCO Semantic Network SDK

RCO Pattern Extractor SDK

Общая информация
Документация
Форум


RCO Entity Extractor SDK






Расширения стандартных решений
RCO for Oracle: поиск на русском языке
RCO for BackOffice: поиск на русском языке



Инструментарий разработчика
RCO Fact Extractor SDK
RCO Text Categorization Engine
RCO Address Parser
RCO Database Record Cleaner
RCO Morphology SDK
RCO Morphology Professional SDK
RCO Information Extraction Service



Приложения RCO Fact Extractor SDK
RCO Deduplicator SDK
RCO TopExtractor SDK
RCO Glossary Maker SDK
RCO Block Parser SDK
RCO Law Reference Extractor SDK



Инструментарий аналитика
RCO Fact Extractor Desktop
RCO Zoom




Общая информация

Библиотека RCO Pattern Extractor предназначена для анализа текста и распознавания в нем различных конструкций в соответствии с образцами, заданными на формальном языке. Область применения в первую очередь включает в себя выделение особых объектов, отличающихся особого вида написанием, – адресов, номеров и т.п. В большинстве случаев правила написания подобных объектов в тексте выходят за рамки общих правил грамматики русского языка, являются неочевидными и трудно формализуемыми.

Мощный язык описания элементов текста позволяет оперировать как формальными особенностями написания слов, используя, в частности, язык регулярных выражений, так и всеми их грамматическими атрибутами – частью речи, родом, числом, падежом и т.д.

В состав библиотеки входит морфологический анализатор, который обеспечивает обработку как известных, так и неизвестных слов русского языка.

Образцы сложных объектов могут строиться иерархически, включая образцы более простых, что позволяет постепенно наращивать мощность системы целевых описаний. Грамматика языка описания образцов обеспечивает как бесконтекстное, так и контекстно-зависимое распознавание объектов.

Библиотека обрабатывает текст в форматах HTML и TXT. Поставляется в виде динамической библиотеки (dll) для Windows.

В комплект поставки библиотеки входит стандартный набор образцов для выделения нескольких классов объектов - дат, денежных сумм, адресов и ряда других объектов. Пользователю предоставляются возможности настройки стандартных образцов и введения своих собственных, описывающих интересующие объекты.



Документация
Форум



Контакты

тел./факс: +7 495 287-9887    e-mail: info@rco.ru