На главную О компании Продукты Технологии Публикации Партнерам in English: in English
На главную

   Помощь
Главная
Продукты
RCO Deduplicator SDK

RCO Deduplicator SDK






Приложения RCO Fact Extractor SDK

RCO Deduplicator SDK

Общая информация
Документация
Форум


RCO TopExtractor SDK

RCO Glossary Maker SDK

RCO Block Parser SDK

RCO Law Reference Extractor SDK






Расширения стандартных решений
RCO for Oracle: поиск на русском языке
RCO for BackOffice: поиск на русском языке



Инструментарий разработчика
RCO Fact Extractor SDK
RCO Text Categorization Engine
RCO Address Parser
RCO Database Record Cleaner
RCO Morphology SDK
RCO Morphology Professional SDK
RCO Information Extraction Service



Инструментарий аналитика
RCO Fact Extractor Desktop
RCO Zoom



Архив продуктов (более не поддерживаются)
RCO Syntactic Engine SDK
RCO Semantic Network SDK
RCO Pattern Extractor SDK
RCO Entity Extractor SDK




Общая информация

Пакет для разработки программного обеспечения RCO Deduplicator SDK предназначен для решения задачи поиска информационных дублей загружаемого документа среди документов, имеющихся в базе.

Основными функциями пакета являются анализ поступающего документа и извлечение из него наиболее важных для поиска информационных дублей признаков, в том числе:

  • наиболее длинные предложения;
  • наиболее частые слова и словосочетания;
  • статистические данные (количественные характеристики по словам и предложениям).

Реализованная в пакете функция построения классификационных признаков для выявления информационных дублей обеспечивает синтез набора целочисленных классификационных признаков для каждого обрабатываемого документа. Решение о совпадении двух документов должно приниматься на основе сравнения проверки совпадения значений классификационных признаков.

Пакет включает в себя средства настройки параметров алгоритма выделения классификационных признаков и проверки работы алгоритма на тестовых корпусах текстов; методику встраивания модуля выявления информационных дублей в полнотекстовые базы данных и электронные библиотеки.

Пакет является расширением RCO Fact Extractor SDK и может использоваться с любой из его редакций.



Документация
Форум



Контакты

тел./факс: +7 495 287-9887    e-mail: info@rco.ru