На главную О компании Продукты Технологии Публикации Партнерам in English: in English
На главную

   Помощь
Главная
Продукты
RCO TopExtractor SDK

RCO TopExtractor SDK






Приложения RCO Fact Extractor SDK

RCO Deduplicator SDK

RCO TopExtractor SDK

Общая информация
Документация
Форум


RCO Glossary Maker SDK

RCO Block Parser SDK

RCO Law Reference Extractor SDK






Расширения стандартных решений
RCO for Oracle: поиск на русском языке
RCO for BackOffice: поиск на русском языке



Инструментарий разработчика
RCO Fact Extractor SDK
RCO Text Categorization Engine
RCO Address Parser
RCO Database Record Cleaner
RCO Morphology SDK
RCO Morphology Professional SDK
RCO Information Extraction Service



Инструментарий аналитика
RCO Fact Extractor Desktop
RCO Zoom



Архив продуктов (более не поддерживаются)
RCO Syntactic Engine SDK
RCO Semantic Network SDK
RCO Pattern Extractor SDK
RCO Entity Extractor SDK




Общая информация

Пакет для разработки программного обеспечения RCO TopExtractor SDK презназначен для решения задачи построения информационного портрета анализируемого текста в виде набора наиболее значимых терминов, общего реферата, рефератов по каждому термину, карты ассоциативных связей между терминами.

В качестве терминов информационного портрета используютсяся слова и словосочетания, обозначающие предметы и события. При этом в информационный портрет текста не включаются признаки, обозначаемые прилагательными, наречиями или адъективными существительными, либо элементы смысла, характеризующие позицию автора по отношению к описываемым предметам и событиям, и выражающиеся разными языковыми средствами, как лексическими (слова служебных частей речи, строевые глаголы), так и грамматическими (вид, время и залог глагола).

При оценке значимости термина используются такие факторы как:

  • самостоятельность термина ‑ употребляется в составе словосочетаний или независимо;
  • роль в предложении (например, позиция подлежащего соответствует основному фокусу внимания автора);
  • близость к началу документа;
  • частота встречаемости в тексте.

Рефераты составляются из наиболее репрезентативных предложений текста. При отборе предложений, в частности, учитывается количество и значимость входящих в них терминов. При этом по возможности обеспечивается связность и читабильность текста.

Карта ассоциативных связей между терминами строится на основе анализа собственных частот значимых терминов, а также частот их совместной встречаемости в предложениях текста.

Пакет является расширением RCO Fact Extractor SDK и может использоваться с любой из его редакций.



Документация
Форум



Контакты

тел./факс: +7 495 287-9887    e-mail: info@rco.ru