|
Основная форма работы компании - это выполнение заказных проектных решений с использованием готовых программных компонент собственной разработки. Ключевые из этих компонент предлагаются нами также в виде "коробочных" продуктов для разработки заказчиками своих собственных приложений. Они необходимы для создания современных информационно-поисковых и информационно-аналитических систем, эффективно работающих с электронными документами и базами данных на русском и английском языках.
Лингвистический анализ текста
|
Содержательный портрет текста
При обработке текста в информационно-поисковых системах возникает задача построения информационного портрета документа, который характеризовал бы в компактной форме основное содержание текста — описанные в нем предметы, лица, ситуации...
|
|
Упоминания персон и организаций
Объектом интереса в задачах компьютерной разведки чаще всего являются персоны или организации. Распознавание имен таких объектов, упоминавшихся в документе, выделение всех упоминаний об интересующих объектах из «текстовой помойки» являются необходимыми этапами, которые в том или ином виде присутствуют в любой технологической схеме извлечения из текста первичных знаний для обеспечения аналитической деятельности...
|
|
Упоминания особых объектов
Не только в базах данных, но и в текстах на естественном языке могут встречаться упоминания особых объектов, отличающихся специального вида написанием — наименования почтовых адресов, различных видов идентификационных и паспортных данных, марки товаров и модели устройств, формулы, ссылки на нормативные документы и т.п. Правила написания подобных объектов выходят за рамки грамматики естественного языка и обычно настраиваются на предметную область или тип документов...
|
|
Связи между объектами
Лингвистический анализ содержания текста позволяет выявить связи между описанными в нем событиями, именованными и неименованными сущностями. Сеть связей, построенная между интересующими типами объектов по коллекции текстовых документов, служит основой для решения различных аналитических задач...
|
|
Распознавание ситуаций
Распознавание ситуаций — событий или фактов заданного типа — необходимо для компьютерной разведки, например, для подбора материала к досье на заданную персону или для мониторинга выбранных сторон деятельности организации, освещаемых в прессе...
|
|
Отношение к объекту, анализ мнений
Речь идет о задаче компьютерного анализа текста на предмет выражения в нем положительного или отрицательного отношения к объекту (персоне, организации, товару): "кого и за что хвалят или ругают?"...
|
|
Анализ предметной области
Для эффективного решения задач автоматизированной обработки информации из выбранного типа источников необходим предварительный анализ предметной области с последующей настройкой информационной системы...
|
|
Обработка знаний
Наши практические исследования показывают, что автоматизированные системы извлечения и обработки знаний, не нашедшие пока практического применения за пределами узкоспециализированных областей, имеют реальную перспективу войти в повседневную жизнь в ближайшем будущем, в частности, используя Интернет как источник знаний.
|
Обработка особых текстов
|
Разбор частично-структурированного текста
На практике часть интересующей информации в текстовых документах уже бывает представлена в структурированном виде. В документах подобного вида лингвистический анализ может проводиться корректно только в пределах определенных изолированных блоков текста. При этом именно типы и расположение блоков документа, из которых извлекается текстовая информация, определяют смысл и связи этой информации с другой информацией в документе...
|
|
Очистка информации в базах данных
Поддержание базы данных большого объема требует включения в состав ETL-процессов (Extraction, Transformation, Loading) автоматизированного контроля качества данных, в том числе процедур автоматической проверки, исправления ошибок и стандартизации представления данных, называемых в комплексе процедурами очистки данных...
|
Поиск и классификация
|
Поиск на естественном языке
Проблема создания хороших информационно-поисковых систем на базе поисковых машин заключается в том, что пользователь системы часто желает формулировать свой запрос в виде простого набора слов, словосочетаний или фразы на естественном языке, ожидая от системы элементарного осмысления введенного текста...
|
|
Поиск с опечатками
Поиск с опечатками позволяет расширять запрос близкими по написанию словами, содержащимися в коллекции документов, по которым ведется поиск...
|
|
Поиск похожих фрагментов
Данный вид поиска позволяет для заданного текста найти другие тексты, содержащие фрагменты, похожие на какие-либо фрагменты заданного текста...
|
|
Классификация текстов
При создании электронных архивов документов традиционно встает задача упорядочения информационного массива, когда документы, близкие по определенным содержательным критериям, объединяются в группы, называемые категориями, рубриками, тематическими подборками, кластерами, сюжетами...
|
|
Сопутствующие решения
Работая более 10 лет в области построения информационно-поисковых и информационно-аналитических систем, специалисты ЭР СИ О создали большое количество вспомогательных программных компонентов, без привлечения которых создание полноценного решения во многих случаях невозможно...
|
|
|