Пакет RCO Fact Extractor SDK - это комплексный инструмент для разработки информационно-поисковых и аналитических систем, требующих лингвистического анализа текста на русском языке.
Ядро пакета представляет библиотека RCO FX Ru, которая осуществляет полный синтактико-семантический разбор русского текста. Библиотека выделяет различные классы сущностей, упомянутых в тексте (персоны, организации, география, предметы, действия, атрибуты и др.), и строит сеть отношений, связывающих эти сущности, а также предоставляет всю грамматическую информацию о составляющих текста. Средства библиотеки также обеспечивают семантическую интерпретацию результатов разбора текста – поиск описаний ситуаций, удовлетворяющих заданным семантическим шаблонам.
RCO FX включает в себя все возможности, реализованные ранее в библиотеках RCO Pattern Extractor, RCO Syntactic Engine, RCO Semantic Network, RCO Entity Extractor и RCO Fact Extractor, с добавлением новых функций, предоставляя единообразный программный интерфейс ко всем результатам анализа текста.
В состав лингвистического обеспечения пакета, помимо общих словарей и правил русского языка, входят правила выделения специальных объектов (дат, адресов, документов, телефонов, денежных сумм, марок автомобилей и пр.), шаблоны для распознавания различных классов событий и фактов (сделок, экономических показателей, конфликтов, биографических фактов и пр.), характеристик объекта (позитива, негатива и др.), высказываний прямой и косвенной речи.
Совместно с пакетом RCO Fact Extractor SDK могут быть использованы расширения, позволяющие решать ряд дополнительных типовых задач, встающих перед разработчиками прикладных информационных систем:
- построения смыслового портрета документа – множества слов и словосочетаний, ранжированных по значимости (RCO TopExtractor SDK);
- построения реферата текста, в том числе рефератов по каждой сущности (RCO TopExtractor SDK);
- построения ассоциативной семантической сети текста или коллекции текстов (RCO TopExtractor SDK);
- построения иерархического глоссария по коллекции текстов (RCO Glossary Maker);
- трансляции запроса на естественном языке в пакет запросов поисковой машины (RCO Query Parser SDK);
- обработки частично-структурированных документов (RCO Block Parser SDK);
- выявления информационных дублей (RCO Deduplicator SDK).
Все перечисленные расширения поставляются в виде пакетов для разработки программного обеспечения, требующих для работы установленный RCO Fact Extractor SDK.
RCO Fact Extractor SDK выпускается в редакциях Standard, Standard Plus, Professional и Exclusive.
RCO Fact Extractor SDK в редакции Standard позволяет выделять из текста все упомянутые в нем сущности с их характеристиками, необходимыми для построения информационного портрета текста, а также определять общие стилистические характеристики текста и отдельных предложений.
RCO Fact Extractor SDK в редакции Standard Plus дополнительно к редакции Standard позволяет выделять из текста описания событий и фактов в соответствии с заданными семантическими шаблонами.
RCO Fact Extractor SDK в редакции Professional дополнительно к редакции Standard Plus обеспечивает доступ к семантической сети текста (получение синтактико-семантических связей между сущностями), а также к полному набору грамматических атрибутов сущностей.
RCO Fact Extractor SDK в редакции Exclusive дополнительно предусматривает подключение собственных модулей в процесс обработки текста, поставку словарей и лингвистических правил в открытом виде, а также их настройку и доработку под клиента.
В следующей таблице приведены требуемые редакции RCO Fact Extractor SDK для использования его расширений:
Расширение⁄Редакция | Standard | Standard Plus | Professional |
RCO Deduplicator SDK | + | + | + |
RCO TopExtractor SDK | + | + | + |
RCO Glossary Maker | + | + | + |
RCO Query Parser SDK | + | + | + |
RCO Block Parser SDK | | + | + |
|
RCO Fact Extractor SDK работает на платформах Windows и Unix.