На главную О компании Продукты Технологии Публикации Партнерам in English: in English
На главную

   Помощь
Главная
Продукты
Общий форум для всех продуктов

RCO Law Reference Extractor SDK











Расширения стандартных решений
RCO for Oracle: поиск на русском языке
RCO for BackOffice: поиск на русском языке



Инструментарий разработчика
RCO Fact Extractor SDK
RCO Text Categorization Engine
RCO Address Parser
RCO Database Record Cleaner
RCO Morphology SDK
RCO Morphology Professional SDK
RCO Information Extraction Service



Приложения RCO Fact Extractor SDK
RCO Deduplicator SDK
RCO TopExtractor SDK
RCO Glossary Maker SDK
RCO Block Parser SDK
RCO Law Reference Extractor SDK



Инструментарий аналитика
RCO Fact Extractor Desktop
RCO Zoom



Архив продуктов (более не поддерживаются)
RCO Syntactic Engine SDK
RCO Semantic Network SDK
RCO Pattern Extractor SDK
RCO Entity Extractor SDK




Форум

Прохожий

 16.03.05, 11:45
RCO
может ли RCO помочь в том, что бы при поиске буквы "е" и "ё" воспринимались как одна. Т.е. если при поиске пользователь ввел слово "елка" нашлись и "елка" и "ёлка".
Ответить

Плешко Владимир

 16.03.05, 12:10
re: RCO
Морфоанализатор RCO всегда заменяет "Ё" на "Е". Так что с формированием запроса у вас проблем быть не должно. При индексировании текста у OracleText есть атрибут base_letter лексера BASIC_LEXER, о котором говорится в документации следующее:

Specify whether characters that have diacritical marks (umlauts, cedillas, acute
accents, and so on) are converted to their base form before being stored in the Text
index. The default is NO (base-letter conversion disabled).

Однако этот атрибут почему-то не работает для русского языка (по крайней мере, так было в наших экспериментах).

Теоретически есть два варианта решения проблемы:

1. Если вы собираетесь расширять запрос словоформами, т.е. индексировать текст как есть, то нужно использовать USER_DATASTORE и в процедуре руками менять "Ё" на "Е".
Тогда OracleText не увидит буквы "Ё" независимо от того, что хранится в таблице.

2. Если вы собираетесь использовать фильтр RCO и лемматизировать слова запроса, то ничего дополнительно делать не нужно. Однако в этом случае вы будете всегда искать с учетом словоформ и не сможете искать слова, как они указаны в тексте.
Ответить
Новое сообщение






Контакты

тел./факс: +7 495 287-9887    e-mail: info@rco.ru