Пакет для разработки программного обеспечения RCO TopExtractor SDK презназначен для решения задачи построения информационного портрета анализируемого текста в виде набора наиболее значимых терминов, общего реферата, рефератов по каждому термину, карты ассоциативных связей между терминами.
В качестве терминов информационного портрета используютсяся слова и словосочетания, обозначающие предметы и события. При этом в информационный портрет текста не включаются признаки, обозначаемые прилагательными, наречиями или адъективными существительными, либо элементы смысла, характеризующие позицию автора по отношению к описываемым предметам и событиям, и выражающиеся разными языковыми средствами, как лексическими (слова служебных частей речи, строевые глаголы), так и грамматическими (вид, время и залог глагола).
При оценке значимости термина используются такие факторы как:
Рефераты составляются из наиболее репрезентативных предложений текста. При отборе предложений, в частности, учитывается количество и значимость входящих в них терминов. При этом по возможности обеспечивается связность и читабильность текста.
Карта ассоциативных связей между терминами строится на основе анализа собственных частот значимых терминов, а также частот их совместной встречаемости в предложениях текста.
Пакет является расширением RCO Fact Extractor SDK и может использоваться с любой из его редакций.