На главную О компании Продукты Технологии Публикации Партнерам in English: in English
На главную

   Помощь
Главная
Продукты
Общий форум для всех продуктов

RCO Law Reference Extractor SDK











Расширения стандартных решений
RCO for Oracle: поиск на русском языке
RCO for BackOffice: поиск на русском языке



Инструментарий разработчика
RCO Fact Extractor SDK
RCO Text Categorization Engine
RCO Address Parser
RCO Database Record Cleaner
RCO Morphology SDK
RCO Morphology Professional SDK
RCO Information Extraction Service



Приложения RCO Fact Extractor SDK
RCO Deduplicator SDK
RCO TopExtractor SDK
RCO Glossary Maker SDK
RCO Block Parser SDK
RCO Law Reference Extractor SDK



Инструментарий аналитика
RCO Fact Extractor Desktop
RCO Zoom



Архив продуктов (более не поддерживаются)
RCO Syntactic Engine SDK
RCO Semantic Network SDK
RCO Pattern Extractor SDK
RCO Entity Extractor SDK




Форум

Александр

 14.04.09, 17:30
Поиск в рускоязычных документах в Oracle Portal
Добрый день!

Моя проблема в следующем - есть много рускоязычных документов в формате PDF, размещенных в Oracle Portal 10.1.2. Необходимо настроить полнотекстовой поиск по содержимому этих документов (без учета словоформ) с использованием встроенных поисковых портлетов. Oracle Text для портала настроен, англоязычные PDF-документы ищутся по содержимому, а русские - нет. Кроме того, похоже, что русские документы даже не индексируются Oracle Text, в таблице индекса (DR$WWSBR_DOC_CTX_INDX$I) нет не одного русского слова, английских - много. Никак не могу понять - поддерживает ли Oracle Text индексацию русскоязычных PDF-документов или мне нужен еще и RCO?

Заранее спасибо за помощь.
Ответить

Плешко Владимир

 17.04.09, 21:55
re: Поиск в рускоязычных документах в Oracle Portal
Oracle Text должен искать в pdf на русском языке. Это я видел в OSES, но не в портале. Может, что не так с кодовой страницей БД. Посмотрите, может в индексе много абаракадабр.

Одно могу сказать, в данном случае RCO for Oracle вам не поможет.

Попробуйте найти по английским словам какой-нибудь pdf на русском, а затем попробуйте посмотреть его токены через Oracle Text API. Может это даст вам подсказку.
Ответить

Александр

 28.04.09, 17:01
re: re: Поиск в рускоязычных документах в Oracle Portal
С проблемой частично разобрался, дело в том, что я тестировался на тестовом сервере, куда и загрузил несколько PDF документов. Эти документы были созданы Microsoft PDF Plugin For Offiice 2007. Так вот, эти документы не индексируются, или индексируются весьма частично :-) А вот например документы сделанные Adobe Acrobat Distiller 7.0 индексируются очень хорошо и соответственно, хорошо ищутся.
Ответить

Плешко Владимир

 29.04.09, 00:34
re: re: re: Поиск в рускоязычных документах в Oracle Portal
Мы документацию в последнее время тоже делаем при помощи этого плагина. При случае тоже проверю. Надеюсь хоть ifilter от Adobe их обработает корректно.
Ответить

Александр

 29.04.09, 10:35
re: re: re: re: Поиск в рускоязычных документах в Oracle Portal
Да, проверьте пожалуйста-очень интересно. Интересно еще вот что - а ifilter от Adobe можно использовать в Oracle Text вместо AUTO или INSO фильтров? Сервер на Linux.
Ответить

Александр

 04.08.09, 17:00
re: re: re: re: re: Поиск в рускоязычных документах в Oracle Portal
Ну в общем так. Oracle 10.2.0.4 действительно индексировала документы (не важно PDF или DOC, созданные Word 2008) не правильно. Проблема решилась использованием фильтра от Oracle 11.1.0.7. В 10.2.0.5 обещали поправить.
Ответить
Новое сообщение






Контакты

тел./факс: +7 495 287-9887    e-mail: info@rco.ru