На главную О компании Продукты Технологии Публикации Партнерам in English: in English
На главную

   Помощь
Главная
Технологии
Разбор частично-структурированного текста

Технологии






Обработка особых текстов

Разбор частично-структурированного текста

Очистка информации в базах данных






Лингвистический анализ текста
Содержательный портрет текста
Упоминания персон и организаций
Упоминания особых объектов
Связи между объектами
Распознавание ситуаций
Отношение к объекту, анализ мнений
Анализ предметной области
Обработка знаний



Поиск и классификация
Поиск на естественном языке
Поиск с опечатками
Поиск похожих фрагментов
Классификация текстов
Сопутствующие решения




Разбор частично-структурированного текста

На практике часть интересующей информации в текстовых документах уже бывает представлена в структурированном виде — например, описание проектов на web-сайте может содержать, помимо полнотекстовой аннотации к проекту, еще такие выделенные поля, как имена исполнителей, названия организаций, области знаний, и д.р. А многие документы, такие как ленты новостей, сводки, протоколы, досье могут вообще представлять собой конкатенацию множества одно- или даже разнотипных документов, каждый из которых никак не связан с прочими. Другим примером сложного частично-структурированного текста является досье на персону, содержащее внутри себя вложенные досье на членов его семьи и близких людей…

В документах подобного вида лингвистический анализ может проводиться корректно только в пределах определенных изолированных блоков текста. При этом именно типы и расположение блоков документа, из которых извлекается текстовая информация, определяют смысл и связи этой информации с другой информацией в документе. Типы и связи блоков определяются по стилевым признакам оформления документов, которые являются уникальными для каждого типа документов, вследствие чего требуют обязательной настройки шаблонов извлечения и связывания информации.

Для комплексной обработки частично-структурированных документов предназначен программный компонент RCO Block Parser SDK.







Контакты

тел./факс: +7 495 287-9887    e-mail: info@rco.ru