RCO - Технологии - Классификация текстов

При создании электронных архивов документов традиционно встает задача упорядочения информационного массива, когда документы, близкие по определенным содержательным критериям, объединяются в группы, называемые категориями, рубриками, тематическими подборками, кластерами, сюжетами и т.п.

В таком процессе выделяют три составляющие:
А) Формирование системы категорий — построение рубрикатора, классификатора, обычно организованного в иерархию;
Б) Формирование описаний категорий — профилей. Традиционно используют два вида профилей: набор терминов с весовыми коэффициентами, характеризующими относительную значимость терминов для рубрики — лексический профиль; набор поисковых запросов, которым должны удовлетворять тексты, относящиеся к категории;
В) Отнесение документов к релевантным категориям на основании сравнения текстов с профилями категорий.

Составляющая (А) обычно реализуется экспертами без участия машины. В некоторых случаях для формирования категорий применяется машинный анализ текстов, в котором используются математические алгоритмы, называемые алгоритмами кластерного анализа.
Математические алгоритмы, реализующие составляющие (Б) и (В), обычно называют алгоритмами автоматической классификации. При этом составляющую (Б) принято называть обучением классификатора, а составляющую (В) собственно классификацией.

Уже более десяти лет специалисты ЭР СИ О занимаются разработкой самых разных систем автоматической классификации текстов для своих заказчиков, экспериментально исследуют комбинации различных математических методов и лингвистических моделей, накапливают разнообразные программные компоненты для построения комплексных решений к информационно-поисковым и информационно-аналитическим системам.
Для формирования лексических профилей нами используется лучший лингвистический анализатор русского текста — библиотека RCO Fact Extractor SDK, что обеспечивает дополнительное конкурентное преимущество.

Вот наиболее типовые из внедряемых нами решений:

Библиотека RCO Text Categorization Engine SDK позволяет включить возможности автоматической категоризациии текстов в любые приложения. Категории описываются лексическими профилями, которые содержат термины, задаваемые в виде поисковых выражений с использованием операторов И, ИЛИ, НЕ, РЯДОМ, ВСЕ_ФОРМЫ_СЛОВА. Библиотека позволяет эффективно вычислять близость текста к профилям, учитывать русскую морфологию, получать количество вхождений терминов в текст и позиции в тексте. Помимо тематической категоризациями, библиотека может применяться для тематического таргетинга в баннерных сетях, мониторинга ключевой лексики в системах мониторинга и сбора информации.
RCO Text Categorization Engine — программный комплекс для тематической категоризации текстов на базе СУБД Oracle. Решение под Oracle строится на основе библиотеки категоризациии текстов RCO Text Categorization Engine SDK и библиотеки лингвистического анализа текста RCO Fact Extractor SDK, включает в себя набор объектов БД и предоставляет PL/SQL-API с полным комплексом функций для работы с автоматическим классификатором. Для описания категорий используются лексические профили с возможностью их автоматического построения на основе анализа текстов-примеров. Дополнительно существует автоматизированные рабочие места (АРМ), реализующее оригинальную методику автоматизированной настройки профилей и коррекции обучающей выборки.
RCO News Clustering Engine — программный комплекс для агрегации новостных сообщений на базе СУБД Oracle. Производится связывание сообщений, описывающих одни и те же события, в кластеры (сюжеты), и ведение сюжетной линии во времени.

Наши экспериментальные исследования в области классификации нормативно-правовых документов, веб-ресурсов, новостных потоков и др. ежегодно представляются на Российском Семинаре по Оценке Методов Информационного Поиска (РОМИП) с момента появления семинара в 2003 году. Ознакомиться с ними можно в указанных ниже статьях.

Публикации о технологии:

	Плешко В.В., Ермаков А.Е., Митюнин В.А. RCO на РОМИП 2003: отчет об участии в семинаре по оценке методов информационного поиска Труды первого российского семинара РОМИП’2003. – Санкт-Петербург: НИИ Химии СПбГУ, 2003 Настоящая работа является отчетом об экспериментах по поиску web-страниц и классификации web-сайтов, проведенных в рамках инициативы РОМИП. Главной целью работы была апробация методов оценки качества информационного поиска на русскоязычных текстовых корпусах.

	Плешко В.В., Ермаков А.Е., Голенков В.П. RCO на РОМИП 2004 Российский семинар по Оценке Методов Информационного Поиска. Труды второго российского семинара РОМИП’2004. (Пущино, 1 октября 2004г.) – Санкт-Петербург: НИИ Химии СПбГУ, 2004, - 214 с. Настоящая работа является отчетом об экспериментах, проведенных в рамках инициативы РОМИП. В результате выполнения дорожек по поиску web-страниц и поиску правовых документов были получены численные оценки влияния учета словоформ и словосочетаний на показатели полноты и точности. Получены предварительные результаты для дорожек по классификации web-сайтов и классификации правовых документов. Приведено описание экспериментов по поиску биографических фактов, связанных с заданными персонами.

	Плешко В.В., Ермаков А.Е., Голенков В.П., Поляков П.Ю. RCO на РОМИП 2005 Российский семинар по Оценке Методов Информационного Поиска. Труды третьего российского семинара РОМИП’2005. (Ярославль, 6 октября 2005г.) – Санкт-Петербург: НИИ Химии СПбГУ, 2005, - 226 с. Настоящая работа является отчетом об экспериментах, проведенных в рамках цикла семинара РОМИП 2005 года. Проведены исследования различных факторов, влияющих на качество алгоритмов тематической классификации. Также получены предварительные результаты по контекстно-зависимому аннотированию, выявлению наименований персон и организаций, поиску описаний фактов.

	Поляков П.Ю., Плешко В.В. RCO на РОМИП 2008 Российский семинар по Оценке Методов Информационного Поиска. Труды РОМИП’2007-2008. (Дубна, 9 октября 2008г.) – Санкт-Петербург: НУ ЦСИ, 2008 Настоящая работа является отчетом об экспериментах, проведенных в рамках семинара РОМИП 2007-2008 годов. Проведены исследования влияния способа отбора терминов в задаче классификации web-страниц и сайтов. Также были проведены эксперименты по кластеризации новостей.

	Поляков П.Ю., Плешко В.В. RCO на РОМИП 2006 Российский семинар по Оценке Методов Информационного Поиска. Труды четвертого российского семинара РОМИП’2006. (Суздаль, 19 октября 2006г.) – Санкт-Петербург: НУ ЦСИ, 2006 Настоящая работа является отчетом об экспериментах, проведенных авторами в рамках цикла семинара РОМИП 2006 года. Проведены исследования различных факторов, влияющих на качество тематической классификации методом опорных векторов. Исследованы различные типы ядра, а также способы отбора классификационных признаков и их взвешивания.

	Поляков П.Ю., Плешко В.В., Ермаков А.Е. RCO на РОМИП 2009 Российский семинар по Оценке Методов Информационного Поиска. Труды РОМИП’2009. (Петрозаводск, 16 сентября 2009г.) – Санкт-Петербург: НУ ЦСИ, 2009 Настоящая работа является отчетом об экспериментах, проведенных в рамках семинара РОМИП 2009 года. Проведены исследования влияния метода рубрикации в задаче классификации web-страниц и сайтов. Также апробирован новый метод преобразования поисковых запросов на коллекции нормативно-правовых документов.