Работая более 10 лет в области построения информационно-поисковых и информационно-аналитических систем, специалисты ЭР СИ О создали большое количество вспомогательных программных компонентов, без привлечения которых создание полноценного решения во многих случаях невозможно.
Вот ключевые задачи, решаемые этими компонентами:
- Распознавание языка и кодовой страницы документа;
- Обход веб-ресурсов, извлечение требуемых блоков текста, очистка от элементов оформления и навигации;
- Обнаружение информационных дублей документа;
- Автоматическое реферирование текста, в том числе по контекстому запросу;
- Подсветка найденных в документе слов со всеми словоформами.