На главную О компании Продукты Технологии Публикации Партнерам in English: in English
На главную

   Помощь
Главная
Продукты
RCO Semantic Network SDK

RCO Semantic Network SDK
библиотека статистического анализа текста






Архив продуктов (более не поддерживаются)

RCO Syntactic Engine SDK

RCO Semantic Network SDK

Общая информация
Документация
Форум


RCO Pattern Extractor SDK

RCO Entity Extractor SDK






Расширения стандартных решений
RCO for Oracle: поиск на русском языке
RCO for BackOffice: поиск на русском языке



Инструментарий разработчика
RCO Fact Extractor SDK
RCO Text Categorization Engine
RCO Address Parser
RCO Database Record Cleaner
RCO Morphology SDK
RCO Morphology Professional SDK
RCO Information Extraction Service



Приложения RCO Fact Extractor SDK
RCO Deduplicator SDK
RCO TopExtractor SDK
RCO Glossary Maker SDK
RCO Block Parser SDK
RCO Law Reference Extractor SDK



Инструментарий аналитика
RCO Fact Extractor Desktop
RCO Zoom




Общая информация

Средства библиотеки RCO Semantic Network позволяют автоматически анализировать содержание текстовых документов, представляя его в форме ассоциативной семантической сети.

Место RCO Semantic Network в стеке продуктов раздела "Инструментарий разработчика" отражено на этой схеме.

Ассоциативная семантическая сеть представляет собой ориентированный граф, вершинами которого служат значимые темы, выделенные в анализируемом тексте, а дугами – связи между ними. С каждой вершиной связаны вес (значимость) и частота упоминания темы, а с каждой дугой – вес (сила) связи и частота подкрепления связи в тексте.

Для выделения тем используются уникальные и очень сложные алгоритмы синтактико-семантического анализа текста, выделения и отождествления особых сложных объектов (наименований персон, организаций, георгафических объектов), прочие лингвистические технологии. Например, программа понимает, что “Ковдроский, Костомукшинский и Оленегорский ГОКи” – это три разных предприятия, и сможет отождествить различные обозначения одного и того же предприятия в тексте, например ООО “Ковдроский горно-обогатительный комбинат”, “ГОК”, “горно-обогатительный комбинат”, “предприятие”.

Для окончательной обработки результатов можно использовать тезаурус, который отождествляет синонимы и приводит слова к обобщающим понятиям-темам, а также фильтрует общеупотребимую лексику из числа тем. Так, словам “российский”, “россиянин” и “Российская федерация” будет соответствовать тема “Россия”, а слова “концепция” и “развитие”, обладающие общим значением, не выделятся в качестве отдельных тем, но могут образовать тему в сочетании с другими словами, например “концепция развития сельского хозяйства”.

Помимо частоты упоминания в тексте, каждой теме присваивается вес от 1 до 100, отражающий ее значимость по отношению к другим темам. Пользователь может задать минимальный порог по весу, ниже которого темы не включаются в семантическую сеть.

Ассоциативные связи между темами выделяются на основе частоты их совместного появления в одном предложении. Пользователь может задать минимальный порог по частоте, ниже которого связи отбрасываются. В конечном представлении связь преобразуется в две противоположные по направленности дуги графа, которым присваиваются веса от 1 до 100, которые отражают условную вероятность упоминания первой темы совместно со второй – силу связи.

Дополнительно на каждую тему выдается тематический реферат, представляющий наиболее информативные фрагменты текста, в которых данная тема упоминалась. Общий реферат текста представляет компиляцию наиболее информативных фрагментов по ключевым темам. Подробность реферирования может настраиваться пользователем.

Семантические сети отдельных документов могут объединяться в единую сеть, отражающую связи тем в целом информационного массива, для чего в библиотеке предусмотрена соответствующая функция.



Документация
Форум



Контакты

тел./факс: +7 495 287-9887    e-mail: info@rco.ru