На главную О компании Продукты Технологии Публикации Партнерам in English: in English
На главную

   Помощь
Главная
Продукты
Общий форум для всех продуктов

RCO Law Reference Extractor SDK











Расширения стандартных решений
RCO for Oracle: поиск на русском языке
RCO for BackOffice: поиск на русском языке



Инструментарий разработчика
RCO Fact Extractor SDK
RCO Text Categorization Engine
RCO Address Parser
RCO Database Record Cleaner
RCO Morphology SDK
RCO Morphology Professional SDK
RCO Information Extraction Service



Приложения RCO Fact Extractor SDK
RCO Deduplicator SDK
RCO TopExtractor SDK
RCO Glossary Maker SDK
RCO Block Parser SDK
RCO Law Reference Extractor SDK



Инструментарий аналитика
RCO Fact Extractor Desktop
RCO Zoom



Архив продуктов (более не поддерживаются)
RCO Syntactic Engine SDK
RCO Semantic Network SDK
RCO Pattern Extractor SDK
RCO Entity Extractor SDK




Новое сообщение



Владимир

 22.05.06, 13:40
re: re: re: re: О модели языка
Ну вот! Опять мне приходится оправдываться. Сэкономил пару кавычек между отдельными фразами, а получился призыв к тотальной войне с "неппроективностью". Ну не хотел я этого! 8=)
Что касается разного рода неоднозначностей при попытке формализации содержания текста, то действительно это ключевая проблема. Но на синтаксическом уровне она не решаема в принципе. Всякого рода статистические алгоритмы над символами равносильны гаданию на кофейной гуще. Необходимы развесистая концептуальная модель мира (или его некоторой части) и неслабая модель отображения между семиотической моделью естественного языка и концептуальной моделью мира.
Если первая из них имеет приемлемые решения ввиду самой природы языка, как знака, то со второй неизмеримо сложнее. Десятилетия за десятилетиями все новые поколения разработчиков штурмуют эту проблему, но дальше первого рубежа: синтаксического разбора, дело, увы, не продвигается. Скорее всего причина в неадекватности самого подхода: попытки построения несемиотической по природе сущности методами семиотического моделирования.
Остается довольствоваться манипулированием цепочками символов типа приведения их к нормальной форме и поиск по ним. Но для такого поиска есть тривальное решение: не использовать в поисковом запросе окончания слов. Разница в результатах между этими двумя методами не столь обременительна, поскольку в обоих случаях требуется вычитка результатов поиска.
Кстати! В связи с очередной волной "text mining'а" вспомнился шутливый рассказ Ильи Варшавского "СУС", напечатанный аж в 1963г. Там некий изобретатель выдвинул тезис, что отличие гения от дурака заключается не в количестве генерируемых идей, а в фильтрации их. Для такого рода фильтрации изобретатель построил машину Селектор Умственных Способностей, чтобы в команде с десятком дураков она была эквивалентом гения.
Насколько прозорливым оказался автор рассказа! 8=)


   Код: * В качестве кода введите цифры на изображении в порядке заданном кривой начиная с цифры в рамке:
Код доступа
   Автор: *
   E-Mail:
уведомлять при появлении новых сообщений
   Тема: *
   Текст:


   * - обязательные для заполнения поля

    Очистить






Контакты

тел./факс: +7 495 287-9887    e-mail: info@rco.ru