Titan |
16.09.04, 14:57 |
|
Oracle Text и HTML |
|
Здравствуйте.
Я использую для обеспечения полнотекстного поиска Oracle Text. Используется фильтр INSO. Скажите пожалуйста, почему в html документа вида: <html> test </html> protect
Слово protect находится, а слово test нет ?
Спасибо. |
|
|
Алексей Дмитровский |
16.09.04, 15:07 |
|
re: Oracle Text и HTML |
|
Добрый день!
1. Из сообщения не понятно, где индексируемый документ начинается и где кончается, не ясен его формат. 2. Отсутствие слова в индексе может объясняться многими причинами, например тем, что 'test' - стоп-слово и т.п. Т.е. нужна полная информация об индексе.
|
|
|
Titan |
16.09.04, 15:17 |
|
re: re: Oracle Text и HTML |
|
хм, тэг, который я написал, не отобразился,наверное был распознан как составляющая страницы. Перепишу: <*html*> test <*/html> protect
... я поставил звездочки чтобы тег этобразился. test можно заменить любым словом и оно не отобразится... при создании индекса используется след команда: create index searchemails on emails(body) indextype is ctxsys.context parameters ('filter ctxsys.inso_filter ') Соответственно индекс для Таблицы Emails и поля body. Body имеет тип BLOB. |
|
|
Алексей Дмитровский |
16.09.04, 15:21 |
|
re: re: re: Oracle Text и HTML |
|
К сожалению, и теперь не видно. Предлагаю послать мне письмо с этим док-том. |
|
|
Titan |
16.09.04, 15:23 |
|
re: re: re: Oracle Text и HTML |
|
ну прикол ..;-)
*H*T*M*L test /*H*T*M*L protect |
|
|
Алексей Дмитровский |
16.09.04, 16:00 |
|
re: re: re: re: Oracle Text и HTML |
|
Я воспроизвёл подобный индекс - HTML в BLOB'е и filter=ctxsys.inso_filter на подобном документе. В индексе два слова: test protect, которые находятся. 1. не изменялись ли default параметры Oracle Text, например lexer? 2. предлагаю всё-таки переслать мне текст документа.
|
|
|
Titan |
16.09.04, 16:46 |
|
re: re: re: re: re: Oracle Text и HTML |
|
Однозначно никаких default параметров я не изменял. Все, что делалось из настроек - создание индекса той командой, которую я Вам привел. А зачем пересылать документ, я же его Вам написал. Очень прост, но не все ищется. Вообще при тесте бралась просто первая страница Яндекса и....не все слова находились... Кстати я тут посметрел колонку TOKEN_TEXT таблиц индеса. Так вот там только два раза слово YANDEX, а слова test нет... Я так понимаю, он его не нашел и не проиндексировал ... |
|
|
Titan |
16.09.04, 16:55 |
|
re: re: re: re: re: re: Oracle Text и HTML |
|
я использовал protect внутри тэгов и yandex за пределами ... |
|
|
Алексей Дмитровский |
16.09.04, 18:15 |
|
re: re: re: re: re: re: re: Oracle Text и HTML |
|
Я взял первую страницу Яндекса и воспроизвёл эффект. В док-ции Oracle Text Reference стр. 2-29 дано описание случаев возможного применения INSO_FILTER'а для бинарных док-тов, без использования вспомогательных колонок таблицы, задающих кодовую страницу док-та. Проверьте, попадает ли Ваш случай в допустимые. Кстати, INSO_FILTER использует для фильтрации внешний exe-шник ORACLE_HOME\bin\ctxhx. Результат фильтрации можно увидеть "отдельно" от Oracle, запустив ctxhx в DOS prompt'е.
|
|
|
Titan |
17.09.04, 10:28 |
|
re: re: re: re: re: re: re: re: Oracle Text и HTML |
|
Да ,насчет INSO_FILTER это я знаю. А вот про то , что используется ctxhx это мне не было известно... В документации я нашел информацию, что использование INSO_FILTER для документов HTML и Plain text это избыточно -> не имеет смысла. Я добавил строку формата и теперь все работает нормально... Спасибо Вам, Алексей, за помощь. |
|
|
Hamkor dba |
24.09.07, 12:52 |
|
Oracle Text |
|
У нас стоит Oracle9i Enterprise Edition Release 9.2.0.1.0 но нет Oracle Text
как нам его установить |
|
|
Алексей Дмитровский |
24.09.07, 13:07 |
|
re: Oracle Text |
|
Обратитесь к Installation Guide, 4. Post-Installation Additional Oracle Product Installation and Configuration |
|
|