На главную О компании Продукты Технологии Публикации Партнерам in English: in English
На главную

   Помощь
Главная
Продукты
RCO Syntactic Engine SDK

RCO Syntactic Engine SDK
библиотека синтаксического анализа текста






Архив продуктов (более не поддерживаются)

RCO Syntactic Engine SDK

Общая информация
Документация
Форум


RCO Semantic Network SDK

RCO Pattern Extractor SDK

RCO Entity Extractor SDK






Расширения стандартных решений
RCO for Oracle: поиск на русском языке
RCO for BackOffice: поиск на русском языке



Инструментарий разработчика
RCO Fact Extractor SDK
RCO Text Categorization Engine
RCO Address Parser
RCO Database Record Cleaner
RCO Morphology SDK
RCO Morphology Professional SDK
RCO Information Extraction Service



Приложения RCO Fact Extractor SDK
RCO Deduplicator SDK
RCO TopExtractor SDK
RCO Glossary Maker SDK
RCO Block Parser SDK
RCO Law Reference Extractor SDK



Инструментарий аналитика
RCO Fact Extractor Desktop
RCO Zoom




Общая информация

Библиотека полного синтаксического анализа текста на русском языке RCO Syntactic Engine предназначена для решения следующих задач:

  • грамматический разбор предложения с построением дерева синтактико-семантических зависимостей между его словами; 
  • выделение понятий предложения с определением их синтаксических и семантических ролей, генерация канонической формы понятий с использованием тезауруса; 
  • разрешение морфологической омонимии.

Скорость работы библиотеки - около 30 Мбайт текста в час (Процессор AMD Athlon, 1000 МГц).
Продукт поставляется в виде динамической библиотеки (dll) для Windows.

Место RCO Syntactic Engine в стеке продуктов раздела "Инструментарий разработчика" отражено на этой схеме.

Единицей синтаксического анализа является отдельное предложение текста, для которого строится дерево зависимостей между составляющими его единицами, обычно словами. По результатам анализа может быть получена следующая информация:

  • все слова с указанием части речи и синтаксической роли в предложении (подлежащее, сказуемое, дополнение и т.д.); 
  • все слова, синтаксически подчиненные выбранному слову, с указанием типа синтактико-семантической связи; 
  • все понятия текста, соответствующие выбранному слову, в канонической форме. В ряде случаев, например, в случае однородных членов или многословных именных групп одному слову может соответствовать несколько понятий.

Анализ каждого предложения текста производится в три этапа.

Предсинтаксическая обработка текста

На этапе предсинтаксической обработки каждое предложение преобразуется в последовательность базовых текстовых единиц, которые обычно соответствуют отдельным словам и знакам препинания. Каждая текстовая единица характеризуется грамматическим описанием, которое в общем случае получается на основании морфологического анализа соответствующей словоформы в предложении. Это описание позволяет установить все грамматические характеристики текстовой единицы, необходимые для правильного связывания ее с другими единицами – часть речи, род, число, падеж и др.

Библиотека позволяет использовать для предсинтаксического анализа текста либо стандартный встроенный модуль выделения предложений и формирования последовательности текстовых единиц, либо свой собственный. Собственный модуль предобработки текста может использоваться как вместо стандартного модуля, так и включаться после него, что может оказаться необходимо для выделения специальных текстовых единиц, которые не подчиняются общим правилам грамматики русского языка, заложенным в синтаксическом анализаторе. К специальным единицам могут относиться, например, различные сложные наименования, адреса, даты и т.п. В этом случае отдельный модуль предобработки может собирать сложные базовые текстовые единицы, группируя более простые, которые формирует стандартный предобработчик.

Синтаксический анализ предложения

На этапе собственно синтаксического анализа последовательность текстовых единиц подвергается комплексу процедур грамматического разбора в соответствии с правилами согласования и управления в русском языке, в ходе которого используется словарь моделей управления предикатов (глаголов и отглагольных существительных). 

Результатом синтаксического разбора предложения является список его семантически значимых текстовых единиц и различных типов отношений между ними. В число значимых единиц включаются все классы имен существительных, глаголов и прилагательных, и не включаются знаки препинания, а также ряд служебных частей речи. Отношения между текстовыми единицами (словами) выдаются в одну сторону – от главной единицы к зависимым, ввиду чего результат анализа представляет собой дерево синтактико-семантических зависимостей, со входами от любой из текстовых единиц.

 Например, результат анализа предложения “Отдел новостроек желает арендовать у нашего комбината малую строительную и погрузочную технику” описывается такой структурой:

Отдел (существительное):
  генитивное отношение с “новостроек”;
Новостроек (существительное);
Желает (глагол):
  предикативное отношение с “отдел” в роли “Субъект действия”;
  предикативное отношение второго порядка с “арендовать”;
Арендовать (глагол):
  предикативное отношение с “комбината” в роли “Источник”;
  предикативное отношение с “технику” в роли “Объект действия”;
Нашего (метоименное прилагательное);
Комбината (существительное):
  Атрибутивное отношение с “нашего”;
Малую (прилагательное);
Строительную (прилагательное);
Погрузочную (прилагательное);
Технику (существительное):
  Атрибутивное отношение с однородным членом “погрузочную”;
  Атрибутивное отношение с однородным членом “строительную”;
  Атрибутивное отношение с “малую”;

Все типы выделяемых отношений между текстовыми единицами разделяются на две группы.

Первую представляют стандартные отношения общего вида между парой слов, которые предопределены общими правилами грамматики языка (атрибутивные, сравнительные, количественные и т.д.).

Ко второй группе относятся предикативные отношения между предикатом и его аргументами в определенных семантических ролях. Именно предикатно-аргументная структура характеризует основной семантический (пропозициональный) компонент плана содержания высказывания, описывая общую схему ситуации во фразе. Отношения этого вида описываются в словаре моделей управления, где позволяется задавать способ синтаксической реализации отношения (падеж и предлог аргумента предиката), а также семантическую роль каждого аргумента. Например, для существительных в роли прямого дополнения, которое выражается винительным падежом без предлога, при глаголе “арендовать” можно ввести название “Предмет аренды”, а для косвенного дополнения, выражаемого родительным падежом с предлогом “у”, можно ввести роль “Арендодатель”.

Постсинтаксический анализ дерева зависимостей

Для удобства утилизации результатов синтаксического разбора в прикладных системах информационного поиска в состав библиотеки включен ряд алгоритмов, обеспечивающих этап постсинтаксического анализа дерева зависимостей, которые реализуют описанные ниже функции.

На каждую текстовую единицу из дерева зависимостей можно получить канонические строки всех понятий, ей соответствующих. Например, для единицы, представленной словом “техники” в приведенном выше примере можно получить все строки присутствующих в предложении понятий, связанных с техникой: “малая строительная техника”, “малая погрузочная техника”, “строительная техника”, “погрузочная техника”, “техника”, а для единицы “отдел” можно дополнительно получить “отдел новостройки”.

При генерации строк понятий может включаться тезаурус, который выполняет следующие функции:

  • фильтрации семантически малозначимых слов, например, понятие “смерть нескольких близких друзей” может быть преобразовано в “смерть друга”;
  • замены синонимов, в том числе в составе многословных понятий, например, понятие “президент Российской Федерации” может быть преобразовано в “президент России”; 
  •  приведения понятий к более общим понятиям, например, “арендовать” может быть приведено к “аренда”.

На каждую текстовую единицу из дерева зависимостей выдается ее синтаксическая роль в предложении, которая может использоваться, например, для определения значимости соответствующего понятия для автора текста. Известно, что обычно наиболее значимые понятия в предложении выражаются словами из именной группы подлежащего, затем сказуемого, прямого и косвенных дополнений, а обстоятельства представляют лишь некий фон, на котором развертывается ситуация, описываемая предикативной структурой фразы – глаголами с их актантами.

Специфика предметной области, в которой работают приложения информационного поиска, может потребовать расширения и настройки лингвистического обеспечения, используемого библиотекой. С этой целью можно дополнительно приобрести словарь морфологического анализа, словарь моделей управления и тезаурус в текстовом виде вместе со средствами их верификации и сборки.



Документация
Форум



Контакты

тел./факс: +7 495 287-9887    e-mail: info@rco.ru