Александр |
14.04.09, 17:30 |
|
Поиск в рускоязычных документах в Oracle Portal |
|
Добрый день!
Моя проблема в следующем - есть много рускоязычных документов в формате PDF, размещенных в Oracle Portal 10.1.2. Необходимо настроить полнотекстовой поиск по содержимому этих документов (без учета словоформ) с использованием встроенных поисковых портлетов. Oracle Text для портала настроен, англоязычные PDF-документы ищутся по содержимому, а русские - нет. Кроме того, похоже, что русские документы даже не индексируются Oracle Text, в таблице индекса (DR$WWSBR_DOC_CTX_INDX$I) нет не одного русского слова, английских - много. Никак не могу понять - поддерживает ли Oracle Text индексацию русскоязычных PDF-документов или мне нужен еще и RCO?
Заранее спасибо за помощь. |
|
|
Плешко Владимир |
17.04.09, 21:55 |
|
re: Поиск в рускоязычных документах в Oracle Portal |
|
Oracle Text должен искать в pdf на русском языке. Это я видел в OSES, но не в портале. Может, что не так с кодовой страницей БД. Посмотрите, может в индексе много абаракадабр.
Одно могу сказать, в данном случае RCO for Oracle вам не поможет.
Попробуйте найти по английским словам какой-нибудь pdf на русском, а затем попробуйте посмотреть его токены через Oracle Text API. Может это даст вам подсказку.
|
|
|
Александр |
28.04.09, 17:01 |
|
re: re: Поиск в рускоязычных документах в Oracle Portal |
|
С проблемой частично разобрался, дело в том, что я тестировался на тестовом сервере, куда и загрузил несколько PDF документов. Эти документы были созданы Microsoft PDF Plugin For Offiice 2007. Так вот, эти документы не индексируются, или индексируются весьма частично :-) А вот например документы сделанные Adobe Acrobat Distiller 7.0 индексируются очень хорошо и соответственно, хорошо ищутся. |
|
|
Плешко Владимир |
29.04.09, 00:34 |
|
re: re: re: Поиск в рускоязычных документах в Oracle Portal |
|
Мы документацию в последнее время тоже делаем при помощи этого плагина. При случае тоже проверю. Надеюсь хоть ifilter от Adobe их обработает корректно. |
|
|
Александр |
29.04.09, 10:35 |
|
re: re: re: re: Поиск в рускоязычных документах в Oracle Portal |
|
Да, проверьте пожалуйста-очень интересно. Интересно еще вот что - а ifilter от Adobe можно использовать в Oracle Text вместо AUTO или INSO фильтров? Сервер на Linux. |
|
|
Александр |
04.08.09, 17:00 |
|
re: re: re: re: re: Поиск в рускоязычных документах в Oracle Portal |
|
Ну в общем так. Oracle 10.2.0.4 действительно индексировала документы (не важно PDF или DOC, созданные Word 2008) не правильно. Проблема решилась использованием фильтра от Oracle 11.1.0.7. В 10.2.0.5 обещали поправить. |
|
|