На главную О компании Продукты Технологии Публикации Партнерам in English: in English
На главную

   Помощь
Главная
Технологии
Анализ предметной области

Технологии






Лингвистический анализ текста

Содержательный портрет текста

Упоминания персон и организаций

Упоминания особых объектов

Связи между объектами

Распознавание ситуаций

Отношение к объекту, анализ мнений

Анализ предметной области

Обработка знаний






Обработка особых текстов
Разбор частично-структурированного текста
Очистка информации в базах данных



Поиск и классификация
Поиск на естественном языке
Поиск с опечатками
Поиск похожих фрагментов
Классификация текстов
Сопутствующие решения




Анализ предметной области

Для эффективного решения задач автоматизированной обработки информации из выбранного типа информационных источников необходим предварительный анализ предметной области с последующей настройкой информационной системы. В результате такого анализа общее лингвистическое обеспечение (словари и правила), отвечающее за "понимание" основ любого текста (морфология, лексика, синтаксис), обычно должно быть, в зависимости от стиля и содержания обрабатываемых текстов, дополнено новыми словарями и правилами, а также, в зависимости от решаемых задач, новыми правилами семантической интерпретации текста.

Практически в ходе анализа предметной области решаются следующие задачи:
А) выявление и фиксация областей интереса — выбор типов объектов, связей, классов ситуаций, интересных и доступных для мониторинга в заданном типе текстов. Формирование концептуальной составляющей модели предметной области (онтологии) и задания на разработку соответствующего лингвистического наполнения системы;
Б) сбор фактического языкового материала (словари, типовые синтаксические конструкции) для наполнения лингвистической составляющей онтологии. Настройка и тестирование лингвистического наполнения системы с целью достижения максимальных показателей полноты и точности извлечения информации из текста.

На основании автоматического анализа текстов программный инструментарий ЭР СИ О позволяет строить следующие составляющие онтологии:

  • термины — предметные словосочетания (полупроводниковая одностеночная углеродная нанотрубка), наименования процессов и свойств объектов предметной области (автоэлектронная эмиссия стоящей углеродной нанотрубки, трофическая характеристика пелагических сообществ), в том числе их определения и связи (является разновидностью, состоит из, используется для производства), выражаемые в тексте на естественном русском или английском языке;
  • названия артефактов — моделей товаров, устройств, химических соединений и т.п., формируемые в тексте по особым правилам (BMW 325i, пиво "Три медведя", ген β-1,3-глюканазы licA);
  • атрибуты и характеристики объектов (скорость релаксации X, Y — прихвостень олигархов, размер багажника Z, глючный Z, Z отстойно едет);
  • ситуации (события и факты), связанные с объектами предметной области, выражаемые в тексте на естественном русском или английском языке. Ситуации описываются синтаксическими схемами, в которых определяются роли всех интересующих участников (покупатель, продавец, товар, сумма и т.п.) и типовые способы ее описания в языке (Х покупает Y у Z, Z продает Y X-у, Х совершает сделку по покупке Y у Z, покупка Y у Z — дело рук X)
Методика автоматизированного построения онтологий предметной области описана в указанной ниже статье.

Продукты, использующие технологию:


RCO Glossary Maker SDK

Публикации о технологии:


Ермаков А.Е. Автоматизация онтологического инжиниринга в системах извлечения знаний из текста
Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог’2008. – Москва, Наука, 2008
Доклад посвящен вопросам использования онтологий в системах извлечения знаний из текста. Рассматриваются особенности онтологий, используемых в таких системах. Предлагается методика автоматизированного построения онтологии, когда термины предметной области и связи между ними первоначально выделяются при помощи методов компьютерного анализа текста.






Контакты

тел./факс: +7 495 287-9887    e-mail: info@rco.ru