На главную О компании Продукты Технологии Публикации Партнерам in English: in English
На главную

   Помощь
Главная
Продукты
Общий форум для всех продуктов

RCO Law Reference Extractor SDK











Расширения стандартных решений
RCO for Oracle: поиск на русском языке
RCO for BackOffice: поиск на русском языке



Инструментарий разработчика
RCO Fact Extractor SDK
RCO Text Categorization Engine
RCO Address Parser
RCO Database Record Cleaner
RCO Morphology SDK
RCO Morphology Professional SDK
RCO Information Extraction Service



Приложения RCO Fact Extractor SDK
RCO Deduplicator SDK
RCO TopExtractor SDK
RCO Glossary Maker SDK
RCO Block Parser SDK
RCO Law Reference Extractor SDK



Инструментарий аналитика
RCO Fact Extractor Desktop
RCO Zoom



Архив продуктов (более не поддерживаются)
RCO Syntactic Engine SDK
RCO Semantic Network SDK
RCO Pattern Extractor SDK
RCO Entity Extractor SDK




Форум

Владимир

 17.05.06, 16:31
О модели языка
Существует ли доступное описание текущей (ограниченной) модели естественного языка, включаемой в комплект поставки? Описание, аналогичное формальным описаниям языков в ИТ-индустрии.
Экспериментирование с демо-версиями в режиме изучения "черного ящика" быстро утомляет 8=)
Ответить

Александр Ермаков

 17.05.06, 17:00
re: О модели языка
Совокупность реализованных в RCO алгоритмов и правил сложнее любой модели языка, которая практически может быть формально описана. Разбор текста на ЕЯ реализован нами на С++ и включает в себя разные парсеры и правила, часть из которых действительно могла бы быть описана в теримнах стандартных формализмов декларативных формальных языков, а часть - нет, в частности, потому что реализуется процедурным способом на стандартном языке программирования.
Описать эту часть декларативно я не вижу ни возможности, ни целесообразности.
Потому не могу предложить ничего иного, как изучать программу как интеллектуальный черный ящик. А если утомляет - приезжайте к нам, мы за час покажем Вам все фичи, убедим в том, что все работает и ничего даже близкого по качеству для русского языка никто не сделал - и Вы со спокойной душой приобретете наши замечательные продукты без утомительного тестирования!
Ответить

Владимир

 18.05.06, 10:22
re: re: О модели языка
Александр, спасибо за отклик!
Я понимаю, что любая программная система состоит из совокупности декларативных и процедурных компонент. Не о них речь. Реконструировать по упомянутым компонентам фичи системы - неблагодарное занятие.
Я имел в виду некое описание подмножества естественно-языковых конструкций, осиливаемых Вашей системой, и на основе которых генерируются формализованные предикатно-агрументные кирпичики возводимого архитектурного шедевра под названием "семантическое представление предметной области". Не хотелось бы нарваться на ограничение использовать только "готовые" ПА-структуры в виде фраз "Мама мыла раму. Маша ела кашу." 8=)
Изучение фичей в Вашем офисе в режиме "RCO для чайников"- это хорошо, однако, к сожалению (или к счастью - для кого как), когнитивный процесс подобных сложных проблем не так прост. Да и ездить к Вам далековато. Может быть есть альтернативы?
--
С наилучшими пожеланиями
Владимир
Ответить

Александр Ермаков

 19.05.06, 15:40
re: re: re: О модели языка
Если говорить только о правилах русского синтаксиса, заложенных в систему, то мы не дадим такого списка как по причине того, что его нет в готовом виде, так и по причине того, что система типа претендует на то, чтобы разбирать любое сколь угодно сложное, но грамотно написанное предложение, встречающееся, скажем, в текстах СМИ.
Правда, конкретную сильную непроективность мы не берем.
Т.е., речь совсем не идет о фразах типа "Маша ела кашу.". А вот что получается на практике и каково субъективно оцениваемое качество разбора - оценить для своих задач может только каждый конкретный человек, потестировав программу.
И мозги системы определяются вовсе не количеством синтаксических правил, формально в нее зашитых (это пара недель запрограммировать все правила русского синтаксиса), а тем, как система разрешает неоднозначность, которая на каждом шагу. Потому, в частности, мы не закладывали правила для парсинга непроективных конструкций - и без того система умудряется иногда находить такие варианты разбора, которые человеку и в голову не придут. Если еще позволить всюду предполагать неппроективность... Вообщем, система искусственного интеллекта не должна быть слушком умной, иначе она до такого додумается...
Ответить

Владимир

 22.05.06, 13:40
re: re: re: re: О модели языка
Ну вот! Опять мне приходится оправдываться. Сэкономил пару кавычек между отдельными фразами, а получился призыв к тотальной войне с "неппроективностью". Ну не хотел я этого! 8=)
Что касается разного рода неоднозначностей при попытке формализации содержания текста, то действительно это ключевая проблема. Но на синтаксическом уровне она не решаема в принципе. Всякого рода статистические алгоритмы над символами равносильны гаданию на кофейной гуще. Необходимы развесистая концептуальная модель мира (или его некоторой части) и неслабая модель отображения между семиотической моделью естественного языка и концептуальной моделью мира.
Если первая из них имеет приемлемые решения ввиду самой природы языка, как знака, то со второй неизмеримо сложнее. Десятилетия за десятилетиями все новые поколения разработчиков штурмуют эту проблему, но дальше первого рубежа: синтаксического разбора, дело, увы, не продвигается. Скорее всего причина в неадекватности самого подхода: попытки построения несемиотической по природе сущности методами семиотического моделирования.
Остается довольствоваться манипулированием цепочками символов типа приведения их к нормальной форме и поиск по ним. Но для такого поиска есть тривальное решение: не использовать в поисковом запросе окончания слов. Разница в результатах между этими двумя методами не столь обременительна, поскольку в обоих случаях требуется вычитка результатов поиска.
Кстати! В связи с очередной волной "text mining'а" вспомнился шутливый рассказ Ильи Варшавского "СУС", напечатанный аж в 1963г. Там некий изобретатель выдвинул тезис, что отличие гения от дурака заключается не в количестве генерируемых идей, а в фильтрации их. Для такого рода фильтрации изобретатель построил машину Селектор Умственных Способностей, чтобы в команде с десятком дураков она была эквивалентом гения.
Насколько прозорливым оказался автор рассказа! 8=)
Ответить

ЛЕОНИД

 04.06.06, 19:46
АЛГОРИТМ
ХОТЕЛ БЫ ВАС СПРОСИТЬ О СТРУКТУРЕ АЛГОРИТМА. МОЖНО ЛИ ВООБЩЕ ПРИМЕНЯТЬ ВАШУ ПРОГРАММУ ДЛЯ РАЗРАБОТКИ ТЕСТОВЫХ ПРОГРАММ. ГДЕ НЕОБХОДИМО ВВОДИТЬ ОТВЕТ НА ЗАДАННЫЙ ВОПРОС С КЛАВИАТУРЫ. ЕСЛИ ДА, ТО ПОДСКАЖИТЕ КАК ЭТО НУЖНО СДЕЛАТЬ!!! БУДУ РАД ЗА ОТВЕТ. ПОЖАЛУЙСТА ПОМОГИТЕ.
Ответить

Александр Ермаков

 05.06.06, 12:14
re: АЛГОРИТМ
> Уважаемый Леонид! Я не совсем понял Ваш вопрос. Если Вы говорите о построении вопросно-ответных систем, в которых необходим синтаксический анализ запроса на естественном языке, то наши алгоритмы вроде бы можно использовать и для разбора запросов... Весь вопрос в том, что Вы дальше с этим разбором запроса хотите делать, какова прагматическая цель и тот набор пользовательских фич, ради которых Вы хотите городить ЕЯ-интерфейс (я, в бытность свою специалист по системам распознавания речи, которые, хотя и не удались, но имели конкретные приложения, не могу взять в толк - на кой ляд надо печать запрос на клавиатуре и вступать в бузумный диалог с тупой машиной вместо того чтобы использовать один из стандартных компьютерных интерфесов?). В ограниченной области всегда можно "заточить" интерфейс системы так, что он будет лучше естественно-языкового, а в глобальный компьютерный интеллект, ищущий в интернете ответ на вопросы о смысле жизни, я, как, специалист, не верю...
Если хотите объяснить мне свои задачи, можете позвонить по телефону 930-8500.
Ответить

Владимир

 05.06.06, 13:10
re: re: АЛГОРИТМ
Полностью солидарен с Александром!
Кстати! Очень полезная книжка была у Дрейфуса
http://filosof.historic.ru/books/item/f00/s00/z0000859/

А по существу вопроса - действительно надо танцевать от цели, а не от инструмента.
Ответить
Новое сообщение






Контакты

тел./факс: +7 495 287-9887    e-mail: info@rco.ru