RCO - Продукты

О компании

Продукты

Технологии

Публикации

Партнерам

in English:

Помощь

Главная

Продукты

Общий форум для всех продуктов

RCO Law Reference Extractor SDK

Расширения стандартных решений

	RCO for Oracle: поиск на русском языке

	RCO for BackOffice: поиск на русском языке

Инструментарий разработчика

	RCO Fact Extractor SDK

	RCO Text Categorization Engine

	RCO Address Parser

	RCO Database Record Cleaner

	RCO Morphology SDK

	RCO Morphology Professional SDK

	RCO Information Extraction Service

Приложения RCO Fact Extractor SDK

	RCO Deduplicator SDK

	RCO TopExtractor SDK

	RCO Glossary Maker SDK

	RCO Block Parser SDK

	RCO Law Reference Extractor SDK

Инструментарий аналитика

	RCO Fact Extractor Desktop

	RCO Zoom

Архив продуктов (более не поддерживаются)

	RCO Syntactic Engine SDK

	RCO Semantic Network SDK

	RCO Pattern Extractor SDK

	RCO Entity Extractor SDK

Новое сообщение

Владимир	22.05.06, 13:40

re: re: re: re: О модели языка

Ну вот! Опять мне приходится оправдываться. Сэкономил пару кавычек между отдельными фразами, а получился призыв к тотальной войне с "неппроективностью". Ну не хотел я этого! 8=) Что касается разного рода неоднозначностей при попытке формализации содержания текста, то действительно это ключевая проблема. Но на синтаксическом уровне она не решаема в принципе. Всякого рода статистические алгоритмы над символами равносильны гаданию на кофейной гуще. Необходимы развесистая концептуальная модель мира (или его некоторой части) и неслабая модель отображения между семиотической моделью естественного языка и концептуальной моделью мира. Если первая из них имеет приемлемые решения ввиду самой природы языка, как знака, то со второй неизмеримо сложнее. Десятилетия за десятилетиями все новые поколения разработчиков штурмуют эту проблему, но дальше первого рубежа: синтаксического разбора, дело, увы, не продвигается. Скорее всего причина в неадекватности самого подхода: попытки построения несемиотической по природе сущности методами семиотического моделирования. Остается довольствоваться манипулированием цепочками символов типа приведения их к нормальной форме и поиск по ним. Но для такого поиска есть тривальное решение: не использовать в поисковом запросе окончания слов. Разница в результатах между этими двумя методами не столь обременительна, поскольку в обоих случаях требуется вычитка результатов поиска. Кстати! В связи с очередной волной "text mining'а" вспомнился шутливый рассказ Ильи Варшавского "СУС", напечатанный аж в 1963г. Там некий изобретатель выдвинул тезис, что отличие гения от дурака заключается не в количестве генерируемых идей, а в фильтрации их. Для такого рода фильтрации изобретатель построил машину Селектор Умственных Способностей, чтобы в команде с десятком дураков она была эквивалентом гения. Насколько прозорливым оказался автор рассказа! 8=)

Код: ^*

В качестве кода введите цифры на изображении в порядке заданном кривой начиная с цифры в рамке:

Автор: ^*

E-Mail:

уведомлять при появлении новых сообщений

Тема: ^*

Текст:

>Ну вот! Опять мне приходится оправдываться. Сэкономил пару кавычек между отдельными фразами, а получился призыв к тотальной войне с "неппроективностью". Ну не хотел я этого! 8=)
>Что касается разного рода неоднозначностей при попытке формализации содержания текста, то действительно это ключевая проблема. Но на синтаксическом уровне она не решаема в принципе. Всякого рода статистические алгоритмы над символами равносильны гаданию на кофейной гуще. Необходимы развесистая концептуальная модель мира (или его некоторой части) и неслабая модель отображения между семиотической моделью естественного языка и концептуальной моделью мира.
>Если первая из них имеет приемлемые решения ввиду самой природы языка, как знака, то со второй неизмеримо сложнее. Десятилетия за десятилетиями все новые поколения разработчиков штурмуют эту проблему, но дальше первого рубежа: синтаксического разбора, дело, увы, не продвигается. Скорее всего причина в неадекватности самого подхода: попытки построения несемиотической по природе сущности методами семиотического моделирования.
>Остается довольствоваться манипулированием цепочками символов типа приведения их к нормальной форме и поиск по ним. Но для такого поиска есть тривальное решение: не использовать в поисковом запросе окончания слов. Разница в результатах между этими двумя методами не столь обременительна, поскольку в обоих случаях требуется вычитка результатов поиска.
>Кстати! В связи с очередной волной "text mining'а" вспомнился шутливый рассказ Ильи Варшавского "СУС", напечатанный аж в 1963г. Там некий изобретатель выдвинул тезис, что отличие гения от дурака заключается не в количестве генерируемых идей, а в фильтрации их. Для такого рода фильтрации изобретатель построил машину Селектор Умственных Способностей, чтобы в команде с десятком дураков она была эквивалентом гения.
>Насколько прозорливым оказался автор рассказа! 8=)

^* - обязательные для заполнения поля

вернуться к списку сообщений

Контакты

тел./факс: +7 495 287-9887

e-mail: info@rco.ru