|
|
|
|
Лингвистический анализ текста
|
|
Обработка особых текстов
|
|
|
Классификация текстов
При создании электронных архивов документов традиционно встает задача упорядочения информационного массива, когда документы, близкие по определенным содержательным критериям, объединяются в группы, называемые категориями, рубриками, тематическими подборками, кластерами, сюжетами и т.п.
В таком процессе выделяют три составляющие:
А) Формирование системы категорий — построение рубрикатора, классификатора, обычно организованного в иерархию;
Б) Формирование описаний категорий — профилей. Традиционно используют два вида профилей: набор терминов с весовыми коэффициентами, характеризующими относительную значимость терминов для рубрики — лексический профиль; набор поисковых запросов, которым должны удовлетворять тексты, относящиеся к категории;
В) Отнесение документов к релевантным категориям на основании сравнения текстов с профилями категорий.
Составляющая (А) обычно реализуется экспертами без участия машины. В некоторых случаях для формирования категорий применяется машинный анализ текстов, в котором используются математические алгоритмы, называемые алгоритмами кластерного анализа.
Математические алгоритмы, реализующие составляющие (Б) и (В), обычно называют алгоритмами автоматической классификации. При этом составляющую (Б) принято называть обучением классификатора, а составляющую (В) собственно классификацией.
Уже более десяти лет специалисты ЭР СИ О занимаются разработкой самых разных систем автоматической классификации текстов для своих заказчиков, экспериментально исследуют комбинации различных математических методов и лингвистических моделей, накапливают разнообразные программные компоненты для построения комплексных решений к информационно-поисковым и информационно-аналитическим системам.
Для формирования лексических профилей нами используется лучший лингвистический анализатор русского текста — библиотека RCO Fact Extractor SDK, что обеспечивает дополнительное конкурентное преимущество.
Вот наиболее типовые из внедряемых нами решений:
- Библиотека RCO Text Categorization Engine SDK позволяет включить возможности автоматической категоризациии текстов в любые приложения. Категории описываются лексическими профилями, которые содержат термины, задаваемые в виде поисковых выражений с использованием операторов И, ИЛИ, НЕ, РЯДОМ, ВСЕ_ФОРМЫ_СЛОВА. Библиотека позволяет эффективно вычислять близость текста к профилям, учитывать русскую морфологию, получать количество вхождений терминов в текст и позиции в тексте. Помимо тематической категоризациями, библиотека может применяться для тематического таргетинга в баннерных сетях, мониторинга ключевой лексики в системах мониторинга и сбора информации.
- RCO Text Categorization Engine — программный комплекс для тематической категоризации текстов на базе СУБД Oracle. Решение под Oracle строится на основе библиотеки категоризациии текстов RCO Text Categorization Engine SDK и библиотеки лингвистического анализа текста RCO Fact Extractor SDK, включает в себя набор объектов БД и предоставляет PL/SQL-API с полным комплексом функций для работы с автоматическим классификатором. Для описания категорий используются лексические профили с возможностью их автоматического построения на основе анализа текстов-примеров. Дополнительно существует автоматизированные рабочие места (АРМ), реализующее оригинальную методику автоматизированной настройки профилей и коррекции обучающей выборки.
- RCO News Clustering Engine — программный комплекс для агрегации новостных сообщений на базе СУБД Oracle. Производится связывание сообщений, описывающих одни и те же события, в кластеры (сюжеты), и ведение сюжетной линии во времени.
Наши экспериментальные исследования в области классификации нормативно-правовых документов, веб-ресурсов, новостных потоков и др. ежегодно представляются на Российском Семинаре по Оценке Методов Информационного Поиска (РОМИП) с момента появления семинара в 2003 году. Ознакомиться с ними можно в указанных ниже статьях.
Публикации о технологии:
|
Плешко В.В., Ермаков А.Е., Митюнин В.А. RCO на РОМИП 2003: отчет об участии в семинаре по оценке методов информационного поиска
Труды первого российского семинара РОМИП’2003. – Санкт-Петербург: НИИ Химии СПбГУ, 2003
Настоящая работа является отчетом об экспериментах по поиску web-страниц и классификации web-сайтов, проведенных в рамках инициативы РОМИП. Главной целью работы была апробация методов оценки качества информационного поиска на русскоязычных текстовых корпусах.
|
|
|
Плешко В.В., Ермаков А.Е., Голенков В.П. RCO на РОМИП 2004
Российский семинар по Оценке Методов Информационного Поиска. Труды второго российского семинара РОМИП’2004. (Пущино, 1 октября 2004г.) – Санкт-Петербург: НИИ Химии СПбГУ, 2004, - 214 с.
Настоящая работа является отчетом об экспериментах, проведенных в рамках инициативы РОМИП. В результате выполнения дорожек по поиску web-страниц и поиску правовых документов были получены численные оценки влияния учета словоформ и словосочетаний на показатели полноты и точности. Получены предварительные результаты для дорожек по классификации web-сайтов и классификации правовых документов. Приведено описание экспериментов по поиску биографических фактов, связанных с заданными персонами.
|
|
|
Плешко В.В., Ермаков А.Е., Голенков В.П., Поляков П.Ю. RCO на РОМИП 2005
Российский семинар по Оценке Методов Информационного Поиска. Труды третьего российского семинара РОМИП’2005. (Ярославль, 6 октября 2005г.) – Санкт-Петербург: НИИ Химии СПбГУ, 2005, - 226 с.
Настоящая работа является отчетом об экспериментах, проведенных в рамках цикла семинара РОМИП 2005 года. Проведены исследования различных факторов, влияющих на качество алгоритмов тематической классификации. Также получены предварительные результаты по контекстно-зависимому аннотированию, выявлению наименований персон и организаций, поиску описаний фактов.
|
|
|
Поляков П.Ю., Плешко В.В. RCO на РОМИП 2008
Российский семинар по Оценке Методов Информационного Поиска. Труды РОМИП’2007-2008. (Дубна, 9 октября 2008г.) – Санкт-Петербург: НУ ЦСИ, 2008
Настоящая работа является отчетом об экспериментах, проведенных в рамках семинара РОМИП 2007-2008 годов. Проведены исследования влияния способа отбора терминов в задаче классификации web-страниц и сайтов. Также были проведены эксперименты по кластеризации новостей.
|
|
|
Поляков П.Ю., Плешко В.В. RCO на РОМИП 2006
Российский семинар по Оценке Методов Информационного Поиска. Труды четвертого российского семинара РОМИП’2006. (Суздаль, 19 октября 2006г.) – Санкт-Петербург: НУ ЦСИ, 2006
Настоящая работа является отчетом об экспериментах, проведенных авторами в рамках цикла семинара РОМИП 2006 года. Проведены исследования различных факторов, влияющих на качество тематической классификации методом опорных векторов. Исследованы различные типы ядра, а также способы отбора классификационных признаков и их взвешивания.
|
|
|
Поляков П.Ю., Плешко В.В., Ермаков А.Е. RCO на РОМИП 2009
Российский семинар по Оценке Методов Информационного Поиска. Труды РОМИП’2009. (Петрозаводск, 16 сентября 2009г.) – Санкт-Петербург: НУ ЦСИ, 2009
Настоящая работа является отчетом об экспериментах, проведенных в рамках семинара РОМИП 2009 года. Проведены исследования влияния метода рубрикации в задаче классификации web-страниц и сайтов. Также апробирован новый метод преобразования поисковых запросов на коллекции нормативно-правовых документов.
|
|
|
|
|