На главную О компании Продукты Технологии Публикации Партнерам in English: in English
На главную

   Помощь
Главная
Продукты
Общий форум для всех продуктов

RCO Law Reference Extractor SDK











Расширения стандартных решений
RCO for Oracle: поиск на русском языке
RCO for BackOffice: поиск на русском языке



Инструментарий разработчика
RCO Fact Extractor SDK
RCO Text Categorization Engine
RCO Address Parser
RCO Database Record Cleaner
RCO Morphology SDK
RCO Morphology Professional SDK
RCO Information Extraction Service



Приложения RCO Fact Extractor SDK
RCO Deduplicator SDK
RCO TopExtractor SDK
RCO Glossary Maker SDK
RCO Block Parser SDK
RCO Law Reference Extractor SDK



Инструментарий аналитика
RCO Fact Extractor Desktop
RCO Zoom



Архив продуктов (более не поддерживаются)
RCO Syntactic Engine SDK
RCO Semantic Network SDK
RCO Pattern Extractor SDK
RCO Entity Extractor SDK




Форум

Andrew

 25.10.07, 19:54
Поиск по секциям документа
Добрый день.

Можно ли производить поиск по секциям документа (Oracle Text Section Searching) при использовании rco фильтра?

Вроде в документации ничего про это не сказано...
Ответить

Алексей Дмитровский

 29.10.07, 11:34
re: Поиск по секциям документа
Добрый день!
rco_filter работает на стадии индексации. Если настройки фильтрации не искажают обозначения секций, то котекстный поиск должен работать.
Ответить

Andrew

 31.10.07, 12:05
re: re: Поиск по секциям документа
>Добрый день!
>rco_filter работает на стадии индексации. Если настройки фильтрации не искажают обозначения секций, то котекстный поиск должен работать.

Какие настройки могут искажать обозначения секций?
После фильтрации rco_filter информация о разметке html теряется?

Пример по которому проверял поиск по секциям:

в таблицу добавлен документ:

<html>
<head>
<title>title text</title>
</head>
<body>
document text
</body>
</html>

настройка rco создана.

begin
begin execute immediate 'drop index doc_texts_rco'; exception when others then null; end;
begin ctx_ddl.drop_preference('my_filter'); exception when others then null; end;
begin ctx_ddl.drop_section_group('my_section_group'); exception when others then null; end;
end;
/

PL/SQL procedure successfully completed.

begin
ctx_ddl.create_preference('my_filter', 'NULL_FILTER');
ctx_ddl.create_section_group('my_section_group', 'HTML_SECTION_GROUP');
ctx_ddl.add_field_section('my_section_group', 'TITLE', 'title', TRUE);
execute immediate 'create index doc_texts_rco on scott.doc_texts(value)
indextype is ctxsys.context parameters(''section group my_section_group filter my_filter'')';
execute immediate 'alter index doc_texts_rco rebuild';
end;
/

PL/SQL procedure successfully completed.

select count(*) from doc_texts where contains(value, 'title text within title') > 0;

COUNT(*)
----------
1

begin
begin execute immediate 'drop index doc_texts_rco'; exception when others then null; end;
end;
/

PL/SQL procedure successfully completed.

begin
execute immediate 'create index doc_texts_rco on scott.doc_texts(value)
indextype is ctxsys.context parameters(''section group my_section_group nopopulate filter rco_filter_1'')';
execute immediate 'alter index doc_texts_rco rebuild';
end;
/

PL/SQL procedure successfully completed.

select count(*) from doc_texts where contains(value, 'title text within title') > 0;

COUNT(*)
----------
0
Ответить

Алексей Дмитровский

 01.11.07, 14:45
re: re: re: Поиск по секциям документа
Добрый день!

Мой первый ответ был некорректным.
Существующая версия rco_filter'а удаляет все тэги, т.е. секционирование невозможно.
Ответить

Евгений

 13.11.07, 12:57
re: re: re: re: Поиск по секциям документа
>Существующая версия rco_filter'а удаляет все тэги, т.е. секционирование невозможно.

На самом деле, если все секции заранее известны (например, при использовании MULTI_COLUMN_DATASTORE), то выход есть.
Можно использовать USER_DATASTORE, и в процедуре, которая возвращает текст для индексирования, формировать текст для каждой секции, преобразуя его в нормальную форму (rco_context.get_normal_form), и оборачивая его затем в нужный тег.
В принципе, меня такой вариант почти устраивает. Хотелось бы еще иметь возможность приводить к нормальной форме не только varchar2 (с его ограничением на размер), но и CLOB.
Ответить

Ольга

 22.04.08, 19:17
re: re: re: re: Поиск по секциям документа
>Добрый день!
>
>Мой первый ответ был некорректным.
>Существующая версия rco_filter'а удаляет все тэги, т.е. секционирование невозможно.
>
Добрый день!
Какая версия имелась ввиду? 4.1.0?
С уважением, Ольга
Ответить

Алексей Дмитровский

 23.04.08, 11:38
re: re: re: re: re: Поиск по секциям документа
Да, именно 4.1.0.
Ответить

Алексей Дмитровский

 23.04.08, 18:35
re: re: re: re: re: re: Поиск по секциям документа
Уточнение. При настройке параметра морфологии "Leave intermediate symbols" = Y теги и их содержимое сохраняются.
Ответить
Новое сообщение






Контакты

тел./факс: +7 495 287-9887    e-mail: info@rco.ru