|
Общая информация
Библиотека предназначена для анализа содержания русского текста и выделения различных сущностей, упомянутых в нем. Библиотека включает в себя все возможности продукта RCO Pattern Extractor для выделения особых конструкций в соответствии с образцами плюс возможности выделения и отождествления именованных сущностей.
Сущности, упоминаемые в тексте и выделяемые средствами библиотеки, можно разделить на два класса:
- Именованные сущности – персоны, организации, географические объекты и прочие объекты, обозначаемые в тексте с использованием имен собственных. Для определения имен собственных и приведения их к нормальной форме используются алгоритмы словарного и бессловарного морфологического анализа, информация о возможных способах написания названий в русском языке, алгоритмы синтаксического анализа и снятия омонимии, алгоритмы установления корефрентности обозначений. Например, программа понимает, что Ковдроский, Костомукшинский и Оленегорский ГОКи – это три разных предприятия. Программа также может отождествить такие обозначения одной сущности, например Иван Иванович Иванов, Иванов, Иван Иванович и др. Дополнительно для высокоточной обработки обозначений заранее известных персон и организаций в библиотеке предусмотрена возможность подключения их детализированных описаний.
- Специальные объекты – сущности, обозначаемые в тексте конструкциями особого вида, обычно смешанными из цифр и символов: даты и обстоятельства времени, денежные суммы. Такие объекты распознаются благодаря формальным правилам, написанным на особом языке. Пользователь библиотеки имеет возможность добавлять свои правила для распознавания новых типов объектов, например, номеров автомобилей.
Библиотека обрабатывает текст в форматах HTML и TXT. Поставляется в виде динамической библиотеки (dll) для Windows.
|
|