RCO - Продукты

О компании

Продукты

Технологии

Публикации

Партнерам

in English:

Помощь

Главная

Продукты

Общий форум для всех продуктов

RCO Law Reference Extractor SDK

Расширения стандартных решений

	RCO for Oracle: поиск на русском языке

	RCO for BackOffice: поиск на русском языке

Инструментарий разработчика

	RCO Fact Extractor SDK

	RCO Text Categorization Engine

	RCO Address Parser

	RCO Database Record Cleaner

	RCO Morphology SDK

	RCO Morphology Professional SDK

	RCO Information Extraction Service

Приложения RCO Fact Extractor SDK

	RCO Deduplicator SDK

	RCO TopExtractor SDK

	RCO Glossary Maker SDK

	RCO Block Parser SDK

	RCO Law Reference Extractor SDK

Инструментарий аналитика

	RCO Fact Extractor Desktop

	RCO Zoom

Архив продуктов (более не поддерживаются)

	RCO Syntactic Engine SDK

	RCO Semantic Network SDK

	RCO Pattern Extractor SDK

	RCO Entity Extractor SDK

Форум

nick	30.01.06, 15:47

Есть ли возможность подключить поиск русских слов в utf-8?

а поиск по русски для MSSQL'a работает только в кодировке 1251? А если данные в формате utf-8? Как должен выглядеть запрос в таком случае?


Плешко Владимир	01.02.06, 13:19

re: Есть ли возможность подключить поиск русских слов в utf-8?

Дело здесь вовсе не в запросе. Запрос пишется в кодовой странице клиента. Затем при поступлении в mssql он преобразуется в кодовую страницу базы (в соответствии с collation). Далее запрос преобразуется в unicode и передается в mssearch. Таким образом, если текст корректно проиндексировался mssearch, то не важно, в какой он был кодировке. Теперь об utf-8... В mssql2000 способ хранения данных определяется параметром collation (кодовая страница, сортировки и т.д.). При индексации mssearch преобразует текст из кодовой страницы базы в unicode. Далее, исходя из языка колонки использует соответствующие лингвистические компоненты (например, rco for backoffice). Текст в mssql можно хранить либо в кодовой странице базы (varchar, text), либо в unicode (в бинарном представлении, а не текстовом - utf) (nvarchar, ntext). Т.е. в процессе индексации utf будет интерпретироваться просто как ascii последовательность символов. Что-то находиться конечно будет, даже можно каверкать запросы, чтобы находить слова как есть. Но об учете словоформ при поиске речи быть не может. Попробуйте почитать документацию к mssql2005. Там появился тип колонки XML. И вроде как есть стыковка с mssearch. Но там, по-моему, используется utf-16. Т.е. конвертировать документы придется. А если конвертировать, то можно и в обычный unicode или в 1251 :-) Напоследок замечу, что в oracle utf-8 поддерживается. Как вариант можете рассмотреть использование rco for oracle :-)

вернуться к списку сообщений

Контакты

тел./факс: +7 495 287-9887

e-mail: info@rco.ru