Средства библиотеки RCO Semantic Network позволяют автоматически анализировать содержание текстовых документов, представляя его в форме ассоциативной семантической сети.
Место RCO Semantic Network в стеке продуктов раздела "Инструментарий разработчика" отражено на этой схеме.
Ассоциативная семантическая сеть представляет собой ориентированный граф, вершинами которого служат значимые темы, выделенные в анализируемом тексте, а дугами – связи между ними. С каждой вершиной связаны вес (значимость) и частота упоминания темы, а с каждой дугой – вес (сила) связи и частота подкрепления связи в тексте.
Для выделения тем используются уникальные и очень сложные алгоритмы синтактико-семантического анализа текста, выделения и отождествления особых сложных объектов (наименований персон, организаций, георгафических объектов), прочие лингвистические технологии. Например, программа понимает, что “Ковдроский, Костомукшинский и Оленегорский ГОКи” – это три разных предприятия, и сможет отождествить различные обозначения одного и того же предприятия в тексте, например ООО “Ковдроский горно-обогатительный комбинат”, “ГОК”, “горно-обогатительный комбинат”, “предприятие”.
Для окончательной обработки результатов можно использовать тезаурус, который отождествляет синонимы и приводит слова к обобщающим понятиям-темам, а также фильтрует общеупотребимую лексику из числа тем. Так, словам “российский”, “россиянин” и “Российская федерация” будет соответствовать тема “Россия”, а слова “концепция” и “развитие”, обладающие общим значением, не выделятся в качестве отдельных тем, но могут образовать тему в сочетании с другими словами, например “концепция развития сельского хозяйства”.
Помимо частоты упоминания в тексте, каждой теме присваивается вес от 1 до 100, отражающий ее значимость по отношению к другим темам. Пользователь может задать минимальный порог по весу, ниже которого темы не включаются в семантическую сеть.
Ассоциативные связи между темами выделяются на основе частоты их совместного появления в одном предложении. Пользователь может задать минимальный порог по частоте, ниже которого связи отбрасываются. В конечном представлении связь преобразуется в две противоположные по направленности дуги графа, которым присваиваются веса от 1 до 100, которые отражают условную вероятность упоминания первой темы совместно со второй – силу связи.
Дополнительно на каждую тему выдается тематический реферат, представляющий наиболее информативные фрагменты текста, в которых данная тема упоминалась. Общий реферат текста представляет компиляцию наиболее информативных фрагментов по ключевым темам. Подробность реферирования может настраиваться пользователем.
Семантические сети отдельных документов могут объединяться в единую сеть, отражающую связи тем в целом информационного массива, для чего в библиотеке предусмотрена соответствующая функция.