Ну вот! Опять мне приходится оправдываться. Сэкономил пару кавычек между отдельными фразами, а получился призыв к тотальной войне с "неппроективностью". Ну не хотел я этого! 8=) Что касается разного рода неоднозначностей при попытке формализации содержания текста, то действительно это ключевая проблема. Но на синтаксическом уровне она не решаема в принципе. Всякого рода статистические алгоритмы над символами равносильны гаданию на кофейной гуще. Необходимы развесистая концептуальная модель мира (или его некоторой части) и неслабая модель отображения между семиотической моделью естественного языка и концептуальной моделью мира. Если первая из них имеет приемлемые решения ввиду самой природы языка, как знака, то со второй неизмеримо сложнее. Десятилетия за десятилетиями все новые поколения разработчиков штурмуют эту проблему, но дальше первого рубежа: синтаксического разбора, дело, увы, не продвигается. Скорее всего причина в неадекватности самого подхода: попытки построения несемиотической по природе сущности методами семиотического моделирования. Остается довольствоваться манипулированием цепочками символов типа приведения их к нормальной форме и поиск по ним. Но для такого поиска есть тривальное решение: не использовать в поисковом запросе окончания слов. Разница в результатах между этими двумя методами не столь обременительна, поскольку в обоих случаях требуется вычитка результатов поиска. Кстати! В связи с очередной волной "text mining'а" вспомнился шутливый рассказ Ильи Варшавского "СУС", напечатанный аж в 1963г. Там некий изобретатель выдвинул тезис, что отличие гения от дурака заключается не в количестве генерируемых идей, а в фильтрации их. Для такого рода фильтрации изобретатель построил машину Селектор Умственных Способностей, чтобы в команде с десятком дураков она была эквивалентом гения. Насколько прозорливым оказался автор рассказа! 8=)