На главную О компании Продукты Технологии Публикации Партнерам in English: in English
На главную

   Помощь
Главная
Технологии
Поиск с опечатками

Технологии






Поиск и классификация

Поиск на естественном языке

Поиск с опечатками

Поиск похожих фрагментов

Классификация текстов

Сопутствующие решения






Лингвистический анализ текста
Содержательный портрет текста
Упоминания персон и организаций
Упоминания особых объектов
Связи между объектами
Распознавание ситуаций
Отношение к объекту, анализ мнений
Анализ предметной области
Обработка знаний



Обработка особых текстов
Разбор частично-структурированного текста
Очистка информации в базах данных




Поиск с опечатками

Поиск с опечатками позволяет расширять запрос близкими по написанию словами, содержащимися в коллекции документов, по которым ведется поиск. Такой поиск целесообразно применять как при поиске документов, содержащих слова с опечатками, так и при наличии сомнения в правильном написании слов в запросе (имен, названий и т.п.). Так, запрос инкомбанк может быть расширен словами: инкомбан, инкобанки, винкомбанке. А если пользователь забыл точное название медицинского препарата ипрониазид, то можно задать что-нибудь похожее, например импронизид, — нужные документы будут найдены.

Оригинальный алгоритм, используемый при реализации поиска похожих слов, основан на особой системе ассоциативного доступа к словам, содержащимся в текстовом индексе полнотекстового хранилища документов, для чего создается дополнительный индекс. Скорость поиска пропорциональна логарифму от числа индексируемых слов и составляет менее одной секунды при индексе в несколько миллионов слов (такой полнотекстовый индекс соответствует нескольким гигабайтам полнотекстовых документов). Поиск способен найти все лексикографически близкие слова, отличающиеся заменами, пропусками и вставками допустимого количества символов.

Продукты, использующие технологию:


RCO for Oracle: поиск на русском языке







Контакты

тел./факс: +7 495 287-9887    e-mail: info@rco.ru