|
Лингвистический анализ текста
|
|
|
|
|
|
Обработка особых текстов
|
|
Поиск и классификация
|
|
|
Анализ предметной области
Для эффективного решения задач автоматизированной обработки информации из выбранного типа информационных источников необходим предварительный анализ предметной области с последующей настройкой информационной системы. В результате такого анализа общее лингвистическое обеспечение (словари и правила), отвечающее за "понимание" основ любого текста (морфология, лексика, синтаксис), обычно должно быть, в зависимости от стиля и содержания обрабатываемых текстов, дополнено новыми словарями и правилами, а также, в зависимости от решаемых задач, новыми правилами семантической интерпретации текста.
Практически в ходе анализа предметной области решаются следующие задачи:
А) выявление и фиксация областей интереса — выбор типов объектов, связей, классов ситуаций, интересных и доступных для мониторинга в заданном типе текстов. Формирование концептуальной составляющей модели предметной области (онтологии) и задания на разработку соответствующего лингвистического наполнения системы;
Б) сбор фактического языкового материала (словари, типовые синтаксические конструкции) для наполнения лингвистической составляющей онтологии. Настройка и тестирование лингвистического наполнения системы с целью достижения максимальных показателей полноты и точности извлечения информации из текста.
На основании автоматического анализа текстов программный инструментарий ЭР СИ О позволяет строить следующие составляющие онтологии:
- термины — предметные словосочетания (полупроводниковая одностеночная углеродная нанотрубка), наименования процессов и свойств объектов предметной области (автоэлектронная эмиссия стоящей углеродной нанотрубки, трофическая характеристика пелагических сообществ), в том числе их определения и связи (является разновидностью, состоит из, используется для производства), выражаемые в тексте на естественном русском или английском языке;
- названия артефактов — моделей товаров, устройств, химических соединений и т.п., формируемые в тексте по особым правилам (BMW 325i, пиво "Три медведя", ген β-1,3-глюканазы licA);
- атрибуты и характеристики объектов (скорость релаксации X, Y — прихвостень олигархов, размер багажника Z, глючный Z, Z отстойно едет);
- ситуации (события и факты), связанные с объектами предметной области, выражаемые в тексте на естественном русском или английском языке. Ситуации описываются синтаксическими схемами, в которых определяются роли всех интересующих участников (покупатель, продавец, товар, сумма и т.п.) и типовые способы ее описания в языке (Х покупает Y у Z, Z продает Y X-у, Х совершает сделку по покупке Y у Z, покупка Y у Z — дело рук X)
Методика автоматизированного построения онтологий предметной области описана в указанной ниже статье.
Продукты, использующие технологию:
Публикации о технологии:
|
Ермаков А.Е. Автоматизация онтологического инжиниринга в системах извлечения знаний из текста
Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог’2008. – Москва, Наука, 2008
Доклад посвящен вопросам использования онтологий в системах извлечения знаний из
текста. Рассматриваются особенности онтологий, используемых в таких системах.
Предлагается методика автоматизированного построения онтологии, когда термины
предметной области и связи между ними первоначально выделяются при помощи методов
компьютерного анализа текста.
|
|
|
|
|