На главную О компании Продукты Технологии Публикации Партнерам in English: in English
На главную

   Помощь
Главная
Продукты
RCO Entity Extractor SDK

RCO Entity Extractor SDK
библиотека выделения сущностей в тексте






Архив продуктов (более не поддерживаются)

RCO Syntactic Engine SDK

RCO Semantic Network SDK

RCO Pattern Extractor SDK

RCO Entity Extractor SDK

Общая информация
Документация
Форум







Расширения стандартных решений
RCO for Oracle: поиск на русском языке
RCO for BackOffice: поиск на русском языке



Инструментарий разработчика
RCO Fact Extractor SDK
RCO Text Categorization Engine
RCO Address Parser
RCO Database Record Cleaner
RCO Morphology SDK
RCO Morphology Professional SDK
RCO Information Extraction Service



Приложения RCO Fact Extractor SDK
RCO Deduplicator SDK
RCO TopExtractor SDK
RCO Glossary Maker SDK
RCO Block Parser SDK
RCO Law Reference Extractor SDK



Инструментарий аналитика
RCO Fact Extractor Desktop
RCO Zoom




Общая информация

Библиотека предназначена для анализа содержания русского текста и выделения различных сущностей, упомянутых в нем. Библиотека включает в себя все возможности продукта RCO Pattern Extractor для выделения особых конструкций в соответствии с образцами плюс возможности выделения и отождествления именованных сущностей.

Сущности, упоминаемые в тексте и выделяемые средствами библиотеки, можно разделить на два класса:

  1. Именованные сущности – персоны, организации, географические объекты и прочие объекты, обозначаемые в тексте с использованием имен собственных. Для определения имен собственных и приведения их к нормальной форме используются алгоритмы словарного и бессловарного морфологического анализа, информация о возможных способах написания названий в русском языке, алгоритмы синтаксического анализа и снятия омонимии, алгоритмы установления корефрентности обозначений. Например, программа понимает, что Ковдроский, Костомукшинский и Оленегорский ГОКи – это три разных предприятия. Программа также может отождествить такие обозначения одной сущности, например Иван Иванович Иванов, Иванов, Иван Иванович и др. Дополнительно для высокоточной обработки обозначений заранее известных персон и организаций в библиотеке предусмотрена возможность подключения их детализированных описаний.
  2. Специальные объекты – сущности, обозначаемые в тексте конструкциями особого вида, обычно смешанными из цифр и символов: даты и обстоятельства времени, денежные суммы. Такие объекты распознаются благодаря формальным правилам, написанным на особом языке. Пользователь библиотеки имеет возможность добавлять свои правила для распознавания новых типов объектов, например, номеров автомобилей.

Библиотека обрабатывает текст в форматах HTML и TXT. Поставляется в виде динамической библиотеки (dll) для Windows.



Документация
Форум



Контакты

тел./факс: +7 495 287-9887    e-mail: info@rco.ru