На главную О компании Продукты Технологии Публикации Партнерам in English: in English
На главную

   Помощь
Главная
Продукты
Общий форум для всех продуктов

RCO Law Reference Extractor SDK











Расширения стандартных решений
RCO for Oracle: поиск на русском языке
RCO for BackOffice: поиск на русском языке



Инструментарий разработчика
RCO Fact Extractor SDK
RCO Text Categorization Engine
RCO Address Parser
RCO Database Record Cleaner
RCO Morphology SDK
RCO Morphology Professional SDK
RCO Information Extraction Service



Приложения RCO Fact Extractor SDK
RCO Deduplicator SDK
RCO TopExtractor SDK
RCO Glossary Maker SDK
RCO Block Parser SDK
RCO Law Reference Extractor SDK



Инструментарий аналитика
RCO Fact Extractor Desktop
RCO Zoom



Архив продуктов (более не поддерживаются)
RCO Syntactic Engine SDK
RCO Semantic Network SDK
RCO Pattern Extractor SDK
RCO Entity Extractor SDK




Форум

cink

 02.07.07, 11:16
Выделение тем в документах
Версия RCO 4.0.1, Oracle 9.2
Идет накопление статей. Необходимо определять их тематику. Есть короткие статьи, в которых наименование темы упоминается 1 раз.
Делаю как написано в документации через TermDicExpand. Расширяю словарь наименованиями тем, а потом применяю его при ThemeSyncIndex.
Тема не выделяется. Как быть?
И еще вопрос какая связь между RCO$SetName$T и словарем (к примеру SetId_term)?
Ответить

A.Dmitrovsky

 02.07.07, 12:34
re: Выделение тем в документах
добрый день, cink!

1. Формально говоря, версия 4.0.1 не поддерживается. Рекомендуем перейти на 4.1.0.

2. Я могу попробовать воспроизвести ситуацию используя Ваши данные, но на версии 4.1.0.

3. Таблица тем RCO$<setting_name>$T содержит список выделенных из док-тов репрезентативных тем, хранилище <settingid>_term содержит бинарное представление всех встреченных в док-тах тем.

С уважением, А.Дмитровский.
Ответить

cink

 02.07.07, 16:21
re: re: Выделение тем в документах
Имеем таблицу docs(id NUMBER, document CLOB). Id - primary key.

insert into docs (id, document) values (1, 'шла маша по шоссе и сосала сушку')

Создаем настройку docs_set и тематический индекс.
rco_context.ThemeCreateIndex('docs_set', 'Y', 'O', 10, 15, 30, 'Y', '', '', '', 3600)

Получаем словарь терминов:
rco_context.TermDicExpand('docs_set', 'MyDic', notionfreq=>1, settype=>'list', setparam=>'select rowid from user.docs', 300)

Дополняем словарь темой СУШКА.
rco_context.TermDicExpand('docs_set', 'MyDic', notionfreq=>1, settype=>'word', setparam=>'сушка', 300)

select * from rco$docs_set$t

Тема СУШКА не обнаружена.

Может я что-то не правильно понимаю?
Ответить

cink

 02.07.07, 16:24
re: re: re: Выделение тем в документах
Забыл написать, что после добавления в словарь новой темы, выполняю rco_context.ThemeSyncIndex('docs_set', 'MyDic', 3600)
Ответить

A.Dmitrovsky

 04.07.07, 11:27
re: re: re: re: Выделение тем в документах
Добрый день!

1. create table clob_text( id integer primary key, text clob );
2. insert into clob_text values ( 1, 'шла маша по шоссе и сосала сушку' );
commit;
3. создание настройки, контекст. индекса, ...
4. exec rco_context.ThemeCreateIndex('clob_text','Y', 'O', 10, 15, 30, 'Y')
5. select * from rco$clob_text$t;
no rows selected
6. exec rco_context.TermDicExpand('clob_text','MyDic',1,'word','сушка')
7. insert into clob_text values ( 2, 'шла маша по шоссе и сосала сушку' );
commit;
8. exec rco_context.ThemeSyncindex('clob_text','MyDic')
9. select * from rco$clob_text$t;
THEMEID THEMENAME
------- ---------
0 СУШКА
Ответить
Новое сообщение






Контакты

тел./факс: +7 495 287-9887    e-mail: info@rco.ru