На главную О компании Продукты Технологии Публикации Партнерам in English: in English
На главную

   Помощь
Главная
Продукты
Общий форум для всех продуктов

RCO Law Reference Extractor SDK











Расширения стандартных решений
RCO for Oracle: поиск на русском языке
RCO for BackOffice: поиск на русском языке



Инструментарий разработчика
RCO Fact Extractor SDK
RCO Text Categorization Engine
RCO Address Parser
RCO Database Record Cleaner
RCO Morphology SDK
RCO Morphology Professional SDK
RCO Information Extraction Service



Приложения RCO Fact Extractor SDK
RCO Deduplicator SDK
RCO TopExtractor SDK
RCO Glossary Maker SDK
RCO Block Parser SDK
RCO Law Reference Extractor SDK



Инструментарий аналитика
RCO Fact Extractor Desktop
RCO Zoom



Архив продуктов (более не поддерживаются)
RCO Syntactic Engine SDK
RCO Semantic Network SDK
RCO Pattern Extractor SDK
RCO Entity Extractor SDK




Форум

Evgeny

 06.04.05, 22:14
Имеется-ли возможность использовать RCO в Oracle Portal?
Имеется-ли возможность использовать RCO в Oracle Portal (не в своих, а в стандартных[!] компонентах портала)?
Конечно, в некоторых случаях для поиска в портле можно использовать Ultra Search, но это не всегда подходит.
Если ответ будет "Да", то где можно об этом почитать и когда появится версия RCO для 10g?
Ответить

А.Дмитровский

 07.04.05, 14:22
re: Имеется-ли возможность использовать RCO в Oracle Portal?
1. Пока такой штатной возможности нет
2. Адаптация RCO 4.0.1 к 10g (registry entries) проведена.
Если эта версия Вам необходима, её можно выслать по указанному Вами адресу.
Ответить

Дмитрий Невожай

 23.01.06, 10:27
re: re: Имеется-ли возможность использовать RCO в Oracle Portal?
Мы рассматриваем возможность использования Oracle Portal 10gR2 SE (9.1.4). Как прикрутить к нему RCO? Будет ли работать trial версия RCO?
Ответить

Плешко Владимир

 26.01.06, 20:16
re: re: re: Имеется-ли возможность использовать RCO в Oracle Portal?
Имеется следующий положительный опыт встраивания RCO под Oracle iAS:

1. UltraSearch - добавление поиска с учетом словоформ русского языка (замена java-классов, отвечающих за формирование запроса в соответствии с документацией на продукт);

2. Portal - портлет, реализующий поиск с учетом словоформ русского языка по элементам портала и экземплярам UltraSearch. Последняя реализация Portal 10gR1, база 9iR2.

Перечисленные компоненты не входят в поставку продукта (в том числе в пробную версию), но предоставляются клиентам бесплатно, в рамках технической поддержки. Можем вам предоставить портлет для опробации совместно с триальной версией (доступна для загрузки с сайта).
Ответить

Юрий Воинов

 03.02.06, 09:04
Тематическое оглавление тезауруса RCO
Уважаемый коллеги,
не подскажет ли кто-нибудь, существует ли в природе тематическое оглавление тезауруса RCO?

А именно - какие основные категории в нем существуют, что стоит искать с его использованием, а чего в нем по определению не содержится?
Ответить

Плешко Владимир

 03.02.06, 14:07
re: Тематическое оглавление тезауруса RCO
Хороший вопрос :-)

Структура тезауруса RCO является иерархической и содержит три уровня:
1. Термин;
2. Синнонимический ряд;
3. Обобщающее понятие.

Термин может принадлежать только одному синонимическому ряду. Все термины, входящие в синонимический ряд равнозначны между собой (термины связаны как синонимы).

Синонимический ряд может быть отнесен к одному обобщающему понятию (гиперониму). Синонимических рядов, отнесенных к одному понятию может быть несколько (термины связаны как гипонимы).

В качестве аналогичных связей в тезаурусе Oracle присутствуют SYN и BT.

В RCO в процессе тематического анализа выделенные термины заменяются их гиперонимами для лучшего отождествления терминов, обозначающих одинаковые понятия.

Кроме того, есть возможность получить для термина синонимический и гипонимический ряды и использовать их для расширения поискового запроса.

Сейчас в тезаурусе около 22тыс гиперонимов - что по сути и есть его оглавление. Но так как тезаурус не содержит более высокие уровни иерархии, покрывающие конкретные предметные области, то оглавления в том виде, который вас интересует, в тезаурусе RCO не существует. Т.е. при его помощи нельзя решать, например, задачу категоризации текстов.

Если говорить о покрытии предметных областей, то тезаурус одновременно обо всем и ни о чем. Скорее всего его нужно будет пополнять для конкретной задачи.
Ответить

Юрий Воинов

 06.02.06, 06:37
re: re: Тематическое оглавление тезауруса RCO
>Хороший вопрос :-)
Хороший ответ ;)
Спасибо, коллега, за исчерпывающее объяснение.

Таким образом, если я правильно понял, ваш тезаурус не вполне тезаурус в том смысле, который в него вкладывает Oracle (поскольку их тезаурус как раз и содержит объединяющую иерархию верхнего уровня), а представляет часть самостоятельного и совершенно отличного (по большей части) от Oracle Text решения.

Еще раз спасибо.
Ответить

Плешко Владимир

 06.02.06, 11:33
re: re: re: Тематическое оглавление тезауруса RCO
Вы совершенно правы.

Когда-то мы думали о переводе и адаптации тезауруса Orcale Text, но по ходу выяснилось, что отождествление терминов возможно только без учета словоформ. Для русского языка такой вариант не проходит.

Помимо того, нам требовалась функция покрытия строки текста (запроса) входами из тезауруса (если в строке содержится несколько терминов). Такой функции также нет в Orcale Text (при обращении к тезуарусу нужно точно указывать термин).

Вобщем, не срослось. Хотя конечно идеологически более правильно было бы создавать иерархию.
Ответить

Юрий Воинов

 06.02.06, 12:12
re: re: re: re: Тематическое оглавление тезауруса RCO
>Когда-то мы думали о переводе и адаптации тезауруса Orcale Text, но по ходу выяснилось, что отождествление терминов возможно только без учета словоформ. Для русского языка такой вариант не проходит.
>
Нет, перевод там действительно не проходит. Необходима фактически разработка нового иерархического тезауруса. Кое-что в этом направлении удалось сделать, в нашем тезаурусе, со структурой, подобной оракловскому английскому тезаурусу, сейчас 22 тысячи уникальных терминов (более 78 тысяч строк в финальном файле) и количество продолжает расти. Приходит на ум лишь то, что иерархические тезаурусы трудно создавать автоматизированными инструментами, и лучшие результаты получаются при рукопашном написании.

>Помимо того, нам требовалась функция покрытия строки текста (запроса) входами из тезауруса (если в строке содержится несколько терминов). Такой функции также нет в Orcale Text (при обращении к тезуарусу нужно точно указывать термин).
>
А ее и не должно быть. Это функция парсера строки поискового запроса. Мы столькнулись с другой проблемой. В русском языке достаточно много терминов составных - то есть содержащих более, чем одно слово. Соответственно, в тезаурусе может быть как вхождение топовых терминов - устоявшихся словосочетаний, употребляемых совместно, так и аналогичной структуры расширений. Для решения подобной задачи пришлось написать парсер строки поискового запроса, понимающий квалификаторы гомологов и распознающий делимитеры для выделения словосочетаний с целью расширения их тезаурусными функциями целиком. Прототип успешно работает, кстати, слововормы в тезаурусе расширены синонимами.

Чего в Оракле действительно не хватает - так это работающего стемминга для русского языка и тематической индек5сации текстов.

>Вобщем, не срослось. Хотя конечно идеологически более правильно было бы создавать иерархию.

Вот и мы решили, что более правильно. Просто наш тезаурус требует нашего же парсера (он написан на PL/SQL) для максимально эффективной работы. Словоформы же мы решили подключить синонимическими гнездами и задокументировать это. Основной скелет структуры подсмотрели в английском тезаурусе, кое-что (классификации и RT-ссылки) переделали (все же RT - не ассоциативная связь, а именно Related terms).
Ответить

Плешко Владимир

 06.02.06, 14:49
re: re: re: re: re: Тематическое оглавление тезауруса RCO
Тезаурус сам по себе является ресурсом - без привязки к конкретному ПО. Из известных мне проектов в этом направлении активно работает УИС Россия
http://www.cir.ru/docs/ips/techno/index.htm#thes

Создание и поддержка хорошего тезауруса - хлопотное дело.

По технической части вашей реализации мне интересны следующие моменты:

1. Вы пошли по пути создания гнезд для словоформ. Пробовали ли вы загрузить ваш тезаурус в Oracle Text? Вроде как есть API для работы с ним + появляются сервисы, обеспечиваемые Oracle. Или все-таки нашлись какие-то подводные камни?

2. Вы упомянули о текстовом файле, в котором хранится тезаурус. Вы загружаете его для каждой сессии, которая обращается к pl/sql пакету? Или вы все-таки храните тезаурус в таблице(ах)?
Ответить

Юрий Воинов

 06.02.06, 15:14
re: re: re: re: re: re: Тематическое оглавление тезауруса RCO
Вне всякого сомнения, тезаурус является ресурсом общим. Но как быть, например, если в тезаурусе есть связка:

синтез каучука
NT5 синтетический каучук
синтез каучука
BTP высокомолекулярные соединения
высокомолекулярные соединения
RT полимеры
RT каучук

(содержание, естественно, приблизительное)

Подобные фразные отношения обычный парсер, который выделяет слова, ограниченные пробелами (типичная практика), найти нельзя, даже если в документах есть сочетание "синтез каучука", поскольку расширен он будет в запрос вида:

nt({синтез})|nt({каучука})

Научить же типовой парсер отличать различные делимитеры одновременно можно, но это надо сделать руками. ;)

А односложными словами во многих случаях обойтись нельзя - есть устойчивые словосочетания.

То, что тезаурус - занятие не для ленивых, мы уже поняли ;) Однако отступать уже некуда - слишком много уже сделано.

Теперь по существу.

1. И не просто загружали, а загружаем и тестируем на корректность с использованием родных приложений (слегка доработанных под наши нужды ;)) Oracle (визуализация удобная и все такое). Первоначально проект был инициирован именно под Oracle10g в связи с изменениями Oracle Text. Никаких подводных камней, в общем, не было (кроме чисто технических, которые благополучно были разрешены на начальном этапе). Так что разработка прототипа достаточно успешно продвигается на приложении, которое содержим встроенную функциональность контекстного поиска в документах на Oracle 10g.

2. Нет, мы загружаем его в схему ctxsys и компилируем как расширение knowlege base, используя штатные средства Oracle. Просто при отладке мы его сперва загружаем, компилируем, потом делаем экспорт - дабы получить текстовый файл в формате ISO и упорядоченный по алфавиту.
Ответить
Новое сообщение






Контакты

тел./факс: +7 495 287-9887    e-mail: info@rco.ru