На главную О компании Продукты Технологии Публикации Партнерам in English: in English
На главную

   Помощь
Главная
Продукты
Общий форум для всех продуктов

RCO Law Reference Extractor SDK











Расширения стандартных решений
RCO for Oracle: поиск на русском языке
RCO for BackOffice: поиск на русском языке



Инструментарий разработчика
RCO Fact Extractor SDK
RCO Text Categorization Engine
RCO Address Parser
RCO Database Record Cleaner
RCO Morphology SDK
RCO Morphology Professional SDK
RCO Information Extraction Service



Приложения RCO Fact Extractor SDK
RCO Deduplicator SDK
RCO TopExtractor SDK
RCO Glossary Maker SDK
RCO Block Parser SDK
RCO Law Reference Extractor SDK



Инструментарий аналитика
RCO Fact Extractor Desktop
RCO Zoom



Архив продуктов (более не поддерживаются)
RCO Syntactic Engine SDK
RCO Semantic Network SDK
RCO Pattern Extractor SDK
RCO Entity Extractor SDK




Форум

Alexes

 30.01.04, 12:37
Производительность RCO for BackOffice
Здравствуйте.
О производительности RCO я нашёл следующее упоминание:

"Скорость работы модуля морфологического анализа в режиме расширения слов запроса всеми словоформами на машине с CPU 1.3GHz составляет около 17 тысяч слов в секунду..."

В MSDN указана производительность для English Word Breaker:

"The English word breaker currently breaks approximately 1.1 million characters per second on a computer with the following hardware specifications:

Single processor
Pentium III, 400 megahertz (MHz)
256 megabytes (MB) of RAM
"

Можете ли вы привести показатели вашего Work Breaker?

Ответить

Плешко Владимир

 30.01.04, 14:03
re: Производительность RCO for BackOffice
Ответ на ваш вопрос - не можем, так как замеры не проводились. Ниже - не очень внятная попытка объяснить почему :)

На всякий случай отмечу, что замер производительности функции расширения запроса всеми словоформами корректно сравнивать с производительностью компоненты Stemmer. Да и то с оглядкой, для какого языка она реализована. Кроме того, расширение запроса, является единичной операцией, так как существует не так много систем/сайтов, где происходит больше 1000 поисковых запросов в день (как правило, это несколько десятков/сотен запросов).

Другой вопрос - работа word breaker, которая необходима при построении и обновлении поисковых индексов. Функция word breaker сводится к разбиению текста на слова (морфология там не используется). Приведенный вами замер 1.1 млн символов в сек - говорит не о производительности системы, а о производительности компоненты, иначе бы mssearch и cisvc индексировали бы со скоростью почти 4Gb в час (1.1 * 3600 Mb = 3.96 Gb) на допотопной технике. Почему-то я в этом сомневаюсь...

Гораздо большие вычислительные ресурсы нужны для фильтрации (извлечения текста компонентой IFilter) и формирования индексов на диске. По сравнению с этими задачами, построение конечного автомата, разбивающего плоский текст на лексемы, является тривиальной и не может ощутимо повлиять на производительность системы в целом.

Если вам очень важно получить данный замер, скачайте демонстрационную версию и напишите соответствующую утилиту или проиндексируйте один и тот же массив документов с нашим софтом и без.

Возможно у вас найдутся доводы в пользу того, что это должны сделать мы ;)
Ответить
Новое сообщение






Контакты

тел./факс: +7 495 287-9887    e-mail: info@rco.ru