На главную О компании Продукты Технологии Публикации Партнерам in English: in English
На главную

   Помощь
Главная
Продукты
Общий форум для всех продуктов

RCO Law Reference Extractor SDK











Расширения стандартных решений
RCO for Oracle: поиск на русском языке
RCO for BackOffice: поиск на русском языке



Инструментарий разработчика
RCO Fact Extractor SDK
RCO Text Categorization Engine
RCO Address Parser
RCO Database Record Cleaner
RCO Morphology SDK
RCO Morphology Professional SDK
RCO Information Extraction Service



Приложения RCO Fact Extractor SDK
RCO Deduplicator SDK
RCO TopExtractor SDK
RCO Glossary Maker SDK
RCO Block Parser SDK
RCO Law Reference Extractor SDK



Инструментарий аналитика
RCO Fact Extractor Desktop
RCO Zoom



Архив продуктов (более не поддерживаются)
RCO Syntactic Engine SDK
RCO Semantic Network SDK
RCO Pattern Extractor SDK
RCO Entity Extractor SDK




Форум

Titan

 16.09.04, 14:57
Oracle Text и HTML
Здравствуйте.

Я использую для обеспечения полнотекстного поиска Oracle Text.
Используется фильтр INSO.
Скажите пожалуйста, почему в html документа вида:
<html>
test
</html>
protect

Слово protect находится, а слово test нет ?

Спасибо.
Ответить

Алексей Дмитровский

 16.09.04, 15:07
re: Oracle Text и HTML
Добрый день!

1. Из сообщения не понятно, где индексируемый документ начинается и где кончается, не ясен его формат.
2. Отсутствие слова в индексе может объясняться многими причинами, например тем, что 'test' - стоп-слово и т.п. Т.е. нужна полная информация об индексе.

Ответить

Titan

 16.09.04, 15:17
re: re: Oracle Text и HTML
хм, тэг, который я написал, не отобразился,наверное был распознан как составляющая страницы.
Перепишу:
<*html*>
test
<*/html>
protect

... я поставил звездочки чтобы тег этобразился.
test можно заменить любым словом и оно не отобразится...
при создании индекса используется след команда:
create index searchemails on emails(body) indextype is ctxsys.context
parameters ('filter ctxsys.inso_filter ')
Соответственно индекс для Таблицы Emails и поля body. Body имеет тип BLOB.
Ответить

Алексей Дмитровский

 16.09.04, 15:21
re: re: re: Oracle Text и HTML
К сожалению, и теперь не видно.
Предлагаю послать мне письмо с этим док-том.
Ответить

Titan

 16.09.04, 15:23
re: re: re: Oracle Text и HTML
ну прикол ..;-)

*H*T*M*L
test
/*H*T*M*L
protect
Ответить

Алексей Дмитровский

 16.09.04, 16:00
re: re: re: re: Oracle Text и HTML
Я воспроизвёл подобный индекс - HTML в BLOB'е и filter=ctxsys.inso_filter на подобном документе.
В индексе два слова:
test
protect,
которые находятся.
1. не изменялись ли default параметры Oracle Text, например lexer?
2. предлагаю всё-таки переслать мне текст документа.

Ответить

Titan

 16.09.04, 16:46
re: re: re: re: re: Oracle Text и HTML
Однозначно никаких default параметров я не изменял.
Все, что делалось из настроек - создание индекса той командой, которую я Вам привел.
А зачем пересылать документ, я же его Вам написал. Очень прост, но не все ищется. Вообще при тесте бралась просто первая страница Яндекса и....не все слова находились...
Кстати я тут посметрел колонку TOKEN_TEXT таблиц индеса. Так вот там только два раза слово YANDEX, а слова test нет...
Я так понимаю, он его не нашел и не проиндексировал ...
Ответить

Titan

 16.09.04, 16:55
re: re: re: re: re: re: Oracle Text и HTML
я использовал protect внутри тэгов и yandex за пределами ...
Ответить

Алексей Дмитровский

 16.09.04, 18:15
re: re: re: re: re: re: re: Oracle Text и HTML
Я взял первую страницу Яндекса и воспроизвёл эффект.
В док-ции Oracle Text Reference стр. 2-29 дано описание случаев возможного применения INSO_FILTER'а для бинарных док-тов, без использования вспомогательных колонок таблицы, задающих кодовую страницу док-та. Проверьте, попадает ли Ваш случай в допустимые.
Кстати, INSO_FILTER использует для фильтрации внешний exe-шник ORACLE_HOME\bin\ctxhx. Результат фильтрации можно увидеть "отдельно" от Oracle, запустив ctxhx в DOS prompt'е.
Ответить

Titan

 17.09.04, 10:28
re: re: re: re: re: re: re: re: Oracle Text и HTML
Да ,насчет INSO_FILTER это я знаю.
А вот про то , что используется ctxhx это мне не было известно...
В документации я нашел информацию, что использование INSO_FILTER для документов HTML и Plain text это избыточно -> не имеет смысла.
Я добавил строку формата и теперь все работает нормально...
Спасибо Вам, Алексей, за помощь.
Ответить

Hamkor dba

 24.09.07, 12:52
Oracle Text
У нас стоит Oracle9i Enterprise Edition Release 9.2.0.1.0
но нет Oracle Text

как нам его установить
Ответить

Алексей Дмитровский

 24.09.07, 13:07
re: Oracle Text
Обратитесь к Installation Guide,
4. Post-Installation
Additional Oracle Product Installation and Configuration
Ответить
Новое сообщение






Контакты

тел./факс: +7 495 287-9887    e-mail: info@rco.ru