Библиотека категоризации текстов позволяет решать следующие задачи:
-
На основании лексических профилей эффективно определять принадлежность текста к заданному множеству категорий;
-
Для каждого термина из лексических профилей, обнаруженного в тексте, получить количество его вхождений в текст, а также позиции терминов в тексте.
Основными областями применения библиотеки являются:
-
Тематическая категоризация текстов в электронных библиотеках, информационно-поисковых и информационно-аналитических системах;
-
Тематический таргетинг в баннерных сетях;
-
Мониторинг ключевых слов и словосочетаний в системах мониторинга и сбора информации.
К отличительным возможностям библиотеки следует отнести:
-
Возможности по очистке web-страниц:
- Автоматическая коррекция кодовой страницы русского языка;
- Удаление навигационных элементов сайта, загромождающих страницу.
-
Гибкие настройки идентификации терминов в тексте:
- В точности, как написано в профиле;
- С учетом всех словоформ при помощи морфоанализатора русского языка;
- Явно задав все требуемые к отождествлению словоформы.
-
Задание терминов в виде поисковых выражений с использованием следующих операторов:
- Слова, словосочетания;
- Задание расстояния межу словами;
- Логические операторы – «И», «ИЛИ», «И НЕ».
-
Специальная обработка отдельных терминов:
- Термин обязательно должен встретиться для отнесения текста к категории;
- Термин не должен встретиться для отнесения текста к категории.
В библиотеке реализована векторная модель категоризации, которая включает в себя четыре настраиваемых компонента:
- Весовые коэффициенты терминов профиля (значения задаются пользователем);
- Весовые коэффициенты терминов документа (способ вычисления задается пользователем: бинарные, частотные);
- Нормирующий множитель (способ вычисления задается пользователем: евклидова норма, длина текста);
- Пороговое значение (задается пользователем).
При необходимости вне библиотеки разработчиком могут быть реализованы и другие методы категоризации текстов.
Морфоанализатор, включенный в библиотеку, имеет следующие характеристики:
- Реализованы следующие методы анализа:
- Точный анализ известных слов по словарю объемом более 115 тысяч слов, что покрывает более 3-х миллионов словоформ;
- Высоко достоверный анализ неизвестного слова на основе комплекса правил словообразования и словоизменения;
- Вероятностный анализ посредством соотнесения с моделями словоизменения часто встречающихся слов на основе оценки флективной и суффиксальной частей слова.
- Объем бинарного словаря – 3 Мб;
- Скорость морфологического анализа – более 100 тысяч слов в секунду (процессор AMD Athlon, 1000 МГц).
Кодовая страница, используемая при работе библиотеки, – Win1251.