На главную О компании Продукты Технологии Публикации Партнерам in English: in English
На главную

   Помощь
Главная
Продукты
RCO for Oracle: поиск на русском языке

RCO for Oracle: поиск на русском языке






Расширения стандартных решений

RCO for Oracle: поиск на русском языке

Общая информация
Документация
Форум
Демо
Демо-версия
Цены


RCO for BackOffice: поиск на русском языке






Инструментарий разработчика
RCO Fact Extractor SDK
RCO Text Categorization Engine
RCO Address Parser
RCO Database Record Cleaner
RCO Morphology SDK
RCO Morphology Professional SDK
RCO Information Extraction Service



Приложения RCO Fact Extractor SDK
RCO Deduplicator SDK
RCO TopExtractor SDK
RCO Glossary Maker SDK
RCO Block Parser SDK
RCO Law Reference Extractor SDK



Инструментарий аналитика
RCO Fact Extractor Desktop
RCO Zoom



Архив продуктов (более не поддерживаются)
RCO Syntactic Engine SDK
RCO Semantic Network SDK
RCO Pattern Extractor SDK
RCO Entity Extractor SDK




Общая информация




Опрос


Какие продукты Oracle Вы используете?


Oracle Database


Oracle Portal


Oracle E-business Suite


Oracle Collaboration Suite


Планируем использовать





В последние годы наблюдается бурный рост рынка приложений, использующих полнотекстовый поиск в документоориентированных базах данных. Это связано с развитием Internet/Intranet технологий, систем документооборота, а также с появлением коммерческого программного обеспечения, интегрирующего стандартные возможности реляционных баз данных с возможностями полнотекстового поиска, семантического анализа и автоматической классификации документов. СУБД Oracle позволяет реализовать указанные возможности и имеет мощный инструментарий для создания приложений. СУБД Oracle работает с текстами на многих европейских языках, но при работе с документами на русском недостаточно эффективна, так как задействует лингвистические технологии, которые зависят от лексики, грамматики и семантики языка.

RCO for Oracle позволяет значительно расширить возможности Oracle в русскоязычных базах данных. RCO for Oracle предназначается для системных интеграторов и разработчиков приложений, использующих возможности информационного поиска, а также отделов автоматизации производства среднего и крупного бизнеса.

Преимущества

Являясь компонентом СУБД Oracle, Oracle Text представляет собой высокопроизводительную информационно-поисковую систему, обладающую широким спектром возможностей. RCO дополняет Oracle Text лингвистическим обеспечением, необходимым для полноценной поддержки русского языка. В частности, RCO позволяет осуществлять поиск с учетом словоформ русского языка, повышая полноту и точность выдаваемых результатов, выделять значимые темы документов, строить рефераты, классифицировать документы по рубрикам, на лету группировать списки документов в иерархии, наглядно представляя результаты поиска.

 RCO задействует для русского языка все преимущества используемых вами продуктов Oracle.

Такие продукты Oracle, как Oracle Secure Enteprise Search (бывший Oracle Ultra Search), Collaboration Suite, Internet Application Server, Content Mamagement SDK (бывший Internet File System) используют средства Oracle Text для организации полнотекстового поиска. Учет словоформ русского языка, предоставляемый RCO, значительно упростит поиск нужных документов при решении задач из различных предметных областей, в которых применяются перечисленные продукты.

 RCO упростит задачу поиска в корпоративных архивах.

По оценкам IDC, 90% корпоративной информации представлено в виде текста. Oracle Secure Enteprise Search совместно с RCO поможет объединить все корпоративные ресурсы в единое информационное пространство. Это позволит вам эффективно использовать опыт компании, накопленный в предыдущих проектах.

 RCO предоставляет не только поисковые, но и аналитические возможности.

Широкий спектр алгоритмов анализа текста и лингвистического обеспечения, входящего в RCO, позволит вам получить не только средство поиска документов, но и мощный аналитический инструмент, обладающий такими функциями как:

  • маршрутизация и классификация потока документов (например сообщения новостной ленты, электронная почта),
  • представление тематической структуры исследуемого информационного массива,
  • представление динамики изменения тематического поля вокруг интересующего предмета/объекта,
  • выявление ассоциативных связей между темами/объектами.

Постройте решение для своего аналитического отдела на базе RCO! Это повысит качество работы ваших аналитиков.

 RCO повысит качество услуг для ваших клиентов.

Если ваш корпоративный web-сайт или интернет-магазин работает на технологиях Oracle, используйте RCO, чтобы помочь вашему клиенту быстрее и проще найти требуемую информацию или товар.

 RCO поможет достичь преимущества перед конкурентами.

Если вы являетесь поставщиком решений на базе технологий Oracle в области организации электронных архивов, систем управления знаниями или документооборотом, добавление функциональности RCO поможет вам опередить конкурентов. Ваши конкуренты используют только контекстный поиск по точному совпадению, а поисковая служба вашего решения на базе RCO сможет давать ответы даже на неявные запросы!

Технические подробности

Oracle Text представляет собой поисковую машину, встроенную в Oracle Database. Это позволяет задавать в запросах одновременно контекстные и реляционные ограничения, а также выполнять администрирование реляционных и полнотекстовых индексов едиными средствами. Среди возможностей Oracle Text следует выделить следующие:

  • работа с документами, хранящимися как в СУБД Oracle, так и в файловой системе и в Web,
  • поддержка более 150 различных форматов документов,
  • богатый язык поисковых запросов, включающий логические связки, поиск с учетом расстояния между словами, использование метасимволов и т.д.,
  • мощные лингвистические опции, такие как поиск с учетом словоформ, нечеткий поиск, расширение запросов при помощи тезауруса, тематический анализ, реферирование, классификация, кластерный анализ.

Однако для русского языка Oracle Text реализует только базовые поисковые возможности. Недоступен ряд средств: различные виды расширения запроса (до версии Oracle 11g), выделение главных тем документа, построение резюме и другие. RCO for Oracle решает проблему полноценной реализации всех существующих функций Oracle Text для русского языка, а именно:

  • поиск документов с учетом всех грамматических форм слов запроса,
  • поиск слов, близких по написанию, нечеткий поиск (Oracle Text для нечеткого поиска в русскоязычных текстах неэффективен),
  • расширение запроса синонимами, более общими и более частными понятиями на основе тезауруса общей лексики русского языка (тезаурус, входящий в состав Oracle Text, предназначен только для английского и французского языков),
  • поиск документов по ключевым темам, которые автоматически выделяются при индексировании,
  • выявление смысловых связей между темами документов, что позволяет расширять или уточнять запрос ассоциативно близкими темами,
  • составление общих и тематических рефератов документов,
  • автоматическое построение иерархических рубрикаторов и классификация документов по рубрикам,
  • поддержка всех кодовых страниц русского языка.

Морфологический анализатор RCO позволяет обрабатывать более 110 тысяч слов, заданных в морфологическом словаре, а также любые неизвестные слова, анализируя их по аналогии с похожими известными словами. Используемый при этом словарь лингвистических данных для русского языка включает в себя, помимо словооснов, 6 тысяч окончаний, 1,5 тысячи моделей словоизменения, 200 суффиксов, что соответствует 2,5 миллионам распознаваемых словоформ.

Тезаурус RCO включает около 75 тысяч слов и словосочетаний, объединенных в 22 тысячи гипонимических рядов, то есть 22 тысячи гиперонимов (слов, связанных отношением «частное-общее»), в том числе 17 тысяч синонимических рядов, охватывающих 45 тысяч слов.

В состав RCO for Oracle Enterprise Edition входят средства актуализации морфологического словаря и тезауруса, содержащие их исходные тексты, средства сборки и верификации, а также приложения для автоматизированного пополнения морфологического словаря.

RCO основан на открытых стандартах и спецификациях Oracle. В RCO предусмотрена возможность интеграции с существующими приложениями, использующими Oracle Text, что позволяет расширить их функциональные возможности. Это касается не только прикладных решений, но и продуктов корпорации Oracle:

  • Oracle Secure Enteprise Search (бывший Oracle Ultra Search, средство для организации поиска по разнородным информационным ресурсам, бесплатно поставляется в составе Oracle database),
  • Oracle Internet Application Server (средство создания интернет и интранет приложений, содержит портлет для поиска по документам и формам портала, использующий Oracle Text),
  • Oracle Collaboration Suite (служит для организации коллективной работы, включающее электронную и голосовую почту, средства публикации, календарь, использующее поиск Ultra Search),
  • Oracle Content Management SDK (бывший Internet File System, средство управления документами различной природы с разграничением прав доступа, с возможностями поддержания структуры каталогов, ведения версий документов, использующее Oracle Text для поиска).

Платформы и версии:

В настоящее время существуют коммерческие версии продукта для Windows и различных UNIX-платформ (SUN Solaris, SCO UnixWare, Compaq Tru64 Unix, HP UX, IBM AIX).

 Последняя версия продукта - RCO for Oracle 5.0.0

 Зарегистрироваться и получить trial-версию

RCO 5.0.0

  • значительно переработана архитектура системы,
  • сервер RCO реализован не как многопроцессное, а как многопоточное приложение,
  • внутренние структуры тематического и нечёткого индексов получили отображение на реляционные таблицы, хранимые в базе данных, что увеличило масштабируемость и устойчивость приложения,
  • исходная настройка может быть использована для вызова функций RCO, оперирующих морфологическими данными, без предварительного создания контекстного индекса.

RCO 4.1.0

  • новые вспомогательные процедуры: PrepareStringSyn (заменяет все русские слова в строке запроса соответствующим синонимичным расширением в рамках используемого системой тезауруса), ThemeGetAlike (получает идентификатор строки DocRowId документа-образца и возвращает идентификаторов строк наиболее близких к образцу по тематике документов),
  • функция WordGetExtensions теперь возвращает более корректное множество расширений для форм глагола,
  • функция WordGetExtensions теперь возвращает более корректное множество расширений для форм глагола.


Документация
Форум
Демо
Демо-версия
Цены



Контакты

тел./факс: +7 495 287-9887    e-mail: info@rco.ru