RCO - Продукты

О компании

Продукты

Технологии

Публикации

Партнерам

in English:

Помощь

Главная

Продукты

Общий форум для всех продуктов

RCO Law Reference Extractor SDK

Расширения стандартных решений

	RCO for Oracle: поиск на русском языке

	RCO for BackOffice: поиск на русском языке

Инструментарий разработчика

	RCO Fact Extractor SDK

	RCO Text Categorization Engine

	RCO Address Parser

	RCO Database Record Cleaner

	RCO Morphology SDK

	RCO Morphology Professional SDK

	RCO Information Extraction Service

Приложения RCO Fact Extractor SDK

	RCO Deduplicator SDK

	RCO TopExtractor SDK

	RCO Glossary Maker SDK

	RCO Block Parser SDK

	RCO Law Reference Extractor SDK

Инструментарий аналитика

	RCO Fact Extractor Desktop

	RCO Zoom

Архив продуктов (более не поддерживаются)

	RCO Syntactic Engine SDK

	RCO Semantic Network SDK

	RCO Pattern Extractor SDK

	RCO Entity Extractor SDK

Форум

Alexes	30.01.04, 12:37

Производительность RCO for BackOffice

Здравствуйте. О производительности RCO я нашёл следующее упоминание: "Скорость работы модуля морфологического анализа в режиме расширения слов запроса всеми словоформами на машине с CPU 1.3GHz составляет около 17 тысяч слов в секунду..." В MSDN указана производительность для English Word Breaker: "The English word breaker currently breaks approximately 1.1 million characters per second on a computer with the following hardware specifications: Single processor Pentium III, 400 megahertz (MHz) 256 megabytes (MB) of RAM " Можете ли вы привести показатели вашего Work Breaker?


Плешко Владимир	30.01.04, 14:03

re: Производительность RCO for BackOffice

Ответ на ваш вопрос - не можем, так как замеры не проводились. Ниже - не очень внятная попытка объяснить почему :) На всякий случай отмечу, что замер производительности функции расширения запроса всеми словоформами корректно сравнивать с производительностью компоненты Stemmer. Да и то с оглядкой, для какого языка она реализована. Кроме того, расширение запроса, является единичной операцией, так как существует не так много систем/сайтов, где происходит больше 1000 поисковых запросов в день (как правило, это несколько десятков/сотен запросов). Другой вопрос - работа word breaker, которая необходима при построении и обновлении поисковых индексов. Функция word breaker сводится к разбиению текста на слова (морфология там не используется). Приведенный вами замер 1.1 млн символов в сек - говорит не о производительности системы, а о производительности компоненты, иначе бы mssearch и cisvc индексировали бы со скоростью почти 4Gb в час (1.1 * 3600 Mb = 3.96 Gb) на допотопной технике. Почему-то я в этом сомневаюсь... Гораздо большие вычислительные ресурсы нужны для фильтрации (извлечения текста компонентой IFilter) и формирования индексов на диске. По сравнению с этими задачами, построение конечного автомата, разбивающего плоский текст на лексемы, является тривиальной и не может ощутимо повлиять на производительность системы в целом. Если вам очень важно получить данный замер, скачайте демонстрационную версию и напишите соответствующую утилиту или проиндексируйте один и тот же массив документов с нашим софтом и без. Возможно у вас найдутся доводы в пользу того, что это должны сделать мы ;)

вернуться к списку сообщений

Контакты

тел./факс: +7 495 287-9887

e-mail: info@rco.ru