Пакет для разработки программного обеспечения RCO Deduplicator SDK предназначен для решения задачи поиска информационных дублей загружаемого документа среди документов, имеющихся в базе.
Основными функциями пакета являются анализ поступающего документа и извлечение из него наиболее важных для поиска информационных дублей признаков, в том числе:
Реализованная в пакете функция построения классификационных признаков для выявления информационных дублей обеспечивает синтез набора целочисленных классификационных признаков для каждого обрабатываемого документа. Решение о совпадении двух документов должно приниматься на основе сравнения проверки совпадения значений классификационных признаков.
Пакет включает в себя средства настройки параметров алгоритма выделения классификационных признаков и проверки работы алгоритма на тестовых корпусах текстов; методику встраивания модуля выявления информационных дублей в полнотекстовые базы данных и электронные библиотеки.
Пакет является расширением RCO Fact Extractor SDK и может использоваться с любой из его редакций.