На главную О компании Продукты Технологии Публикации Партнерам in English: in English
На главную

   Помощь
Главная
Продукты
RCO Text Categorization Engine

RCO Text Categorization Engine






Инструментарий разработчика

RCO Fact Extractor SDK

RCO Text Categorization Engine

Общая информация
Документация
Форум


RCO Address Parser

RCO Database Record Cleaner

RCO Morphology SDK

RCO Morphology Professional SDK

RCO Information Extraction Service






Расширения стандартных решений
RCO for Oracle: поиск на русском языке
RCO for BackOffice: поиск на русском языке



Приложения RCO Fact Extractor SDK
RCO Deduplicator SDK
RCO TopExtractor SDK
RCO Glossary Maker SDK
RCO Block Parser SDK
RCO Law Reference Extractor SDK



Инструментарий аналитика
RCO Fact Extractor Desktop
RCO Zoom



Архив продуктов (более не поддерживаются)
RCO Syntactic Engine SDK
RCO Semantic Network SDK
RCO Pattern Extractor SDK
RCO Entity Extractor SDK




Общая информация

Библиотека категоризации текстов позволяет решать следующие задачи:
  • На основании лексических профилей эффективно определять принадлежность текста к заданному множеству категорий;
  • Для каждого термина из лексических профилей, обнаруженного в тексте, получить количество его вхождений в текст, а также позиции терминов в тексте.
Основными областями применения библиотеки являются:
  • Тематическая категоризация текстов в электронных библиотеках, информационно-поисковых и информационно-аналитических системах;
  • Тематический таргетинг в баннерных сетях;
  • Мониторинг ключевых слов и словосочетаний в системах мониторинга и сбора информации.
К отличительным возможностям библиотеки следует отнести:
  • Возможности по очистке web-страниц:
    • Автоматическая коррекция кодовой страницы русского языка;
    • Удаление навигационных элементов сайта, загромождающих страницу.
  • Гибкие настройки идентификации терминов в тексте:
    • В точности, как написано в профиле;
    • С учетом всех словоформ при помощи морфоанализатора русского языка;
    • Явно задав все требуемые к отождествлению словоформы.
  • Задание терминов в виде поисковых выражений с использованием следующих операторов:
    • Слова, словосочетания;
    • Задание расстояния межу словами;
    • Логические операторы – «И», «ИЛИ», «И НЕ».
  • Специальная обработка отдельных терминов:
    • Термин обязательно должен встретиться для отнесения текста к категории;
    • Термин не должен встретиться для отнесения текста к категории.
В библиотеке реализована векторная модель категоризации, которая включает в себя четыре настраиваемых компонента:
  • Весовые коэффициенты терминов профиля (значения задаются пользователем);
  • Весовые коэффициенты терминов документа (способ вычисления задается пользователем: бинарные, частотные);
  • Нормирующий множитель (способ вычисления задается пользователем: евклидова норма, длина текста);
  • Пороговое значение (задается пользователем).
При необходимости вне библиотеки разработчиком могут быть реализованы и другие методы категоризации текстов.

Морфоанализатор, включенный в библиотеку, имеет следующие характеристики:
  • Реализованы следующие методы анализа:
    • Точный анализ известных слов по словарю объемом более 115 тысяч слов, что покрывает более 3-х миллионов словоформ;
    • Высоко достоверный анализ неизвестного слова на основе комплекса правил словообразования и словоизменения;
    • Вероятностный анализ посредством соотнесения с моделями словоизменения часто встречающихся слов на основе оценки флективной и суффиксальной частей слова.
  • Объем бинарного словаря – 3 Мб;
  • Скорость морфологического анализа – более 100 тысяч слов в секунду (процессор AMD Athlon, 1000 МГц).
Кодовая страница, используемая при работе библиотеки, – Win1251.


Документация
Форум



Контакты

тел./факс: +7 495 287-9887    e-mail: info@rco.ru