Здравствуйте. О производительности RCO я нашёл следующее упоминание:
"Скорость работы модуля морфологического анализа в режиме расширения слов запроса всеми словоформами на машине с CPU 1.3GHz составляет около 17 тысяч слов в секунду..."
В MSDN указана производительность для English Word Breaker:
"The English word breaker currently breaks approximately 1.1 million characters per second on a computer with the following hardware specifications:
Single processor Pentium III, 400 megahertz (MHz) 256 megabytes (MB) of RAM "
Можете ли вы привести показатели вашего Work Breaker?
Ответ на ваш вопрос - не можем, так как замеры не проводились. Ниже - не очень внятная попытка объяснить почему :)
На всякий случай отмечу, что замер производительности функции расширения запроса всеми словоформами корректно сравнивать с производительностью компоненты Stemmer. Да и то с оглядкой, для какого языка она реализована. Кроме того, расширение запроса, является единичной операцией, так как существует не так много систем/сайтов, где происходит больше 1000 поисковых запросов в день (как правило, это несколько десятков/сотен запросов).
Другой вопрос - работа word breaker, которая необходима при построении и обновлении поисковых индексов. Функция word breaker сводится к разбиению текста на слова (морфология там не используется). Приведенный вами замер 1.1 млн символов в сек - говорит не о производительности системы, а о производительности компоненты, иначе бы mssearch и cisvc индексировали бы со скоростью почти 4Gb в час (1.1 * 3600 Mb = 3.96 Gb) на допотопной технике. Почему-то я в этом сомневаюсь...
Гораздо большие вычислительные ресурсы нужны для фильтрации (извлечения текста компонентой IFilter) и формирования индексов на диске. По сравнению с этими задачами, построение конечного автомата, разбивающего плоский текст на лексемы, является тривиальной и не может ощутимо повлиять на производительность системы в целом.
Если вам очень важно получить данный замер, скачайте демонстрационную версию и напишите соответствующую утилиту или проиндексируйте один и тот же массив документов с нашим софтом и без.
Возможно у вас найдутся доводы в пользу того, что это должны сделать мы ;)