Семантическая интерпретация
(СИ) определяет семантическое представление предложения. Результатом СИ должна быть модель в виде, например, семантической сети (см. лекцию 2) для отображения отношений между объектами предложения или лингвистического фрейма (ЛФ).
Исследование вопросов понимания английского естественного языка предложено в работах Хомского [65] (классическая книга по трансформационной грамматике), Вудса [66], Винограда [67] и других исследователей. Наибольшее распространение в 70-е годы получили расширенные сети переходов (РСП) Вудса и ATNL-грамматики. В английском языке проблема СИ упрощается за счет фиксированного порядка слов в предложении. Например, предложение на английском языке: «The dog has bitten John» переводится как «Собака укусила Джона» или «Джона укусила собака». В русском языке любой вариант перевода правильный и допустим. В английском языке возможен только единственный вариант построения такой фразы:
подлежащее (The dog)
сказуемое (has bitten) дополнение (John).Таким образом, использованию РСП и ATNL-грамматик для разбора русского ОЕЯ в чистом виде препятствуют нефиксированный порядок слов в предложениях русского языка, а также синтаксическая неоднозначность грамматических категорий в предложении. Эти ограничения на структуру фраз русского языка делают метод РСП малоэффективным.
Для СИ может быть использован метод семантических падежей К. Филмора [34], получивший развитие в работе [72]для разбора русского ОЕЯ. Рассмотрим этот метод подробнее. Предложения выражают чаще всего действия, которые будем отображать в виде предиката в модели на основе ЛФ. Под предикатом в данном случае понимается любой элемент или группа элементов, выполняющих функции сказуемого в предложении, а также атрибутивные формы глагола - причастие, деепричастие, инфинитив. Предикат имеет признаки (модальность, переходность, время, наклонение, возвратность, безличность и т.д.), которые являются необходимыми компонентами для правильной семантической интерпретации остальных членов предложения из внешней (грамматической) во внутреннюю (семантическую) структуру.
Остальные члены предложения разбиваются на группы сильносвязанных слов, в которых выделяется главное слово (как правило, существительное). В группу его актантов включаются причастия, прилагательные, числительные, местоимения, неопределенно-количественные слова и т.д. Главные слова группы являются актантами предиката и выполняют различные семантические «роли», которые можно описать на основе семантических падежей К. Филмора [34]: агент, объект, цель и т.д., а также дополнительные падежи: адресат, добавочный предикат, инструмент, время, место, определитель, указатель, количество, пример, деталь и т.п.
Целью СИ является однозначное выражение смысла предложения в известных системе внутренних понятиях, отношениях и фактах, а также выделение понятий «новой» декларативной информации, приказа для повелительных предложений и вопросительного элемента для вопросительных предложений. СИ включает в себя следующие этапы.
- Грамматическое и семантическое соотнесение очередного анализируемого элемента с уже разобранными элементами. Объединение элементов в группы сильносвязанных слов с проведением проверки «тестов ожидания» аналогично РСП. С помощью «тестов ожидания» можно проверить наличие фиксированных синтаксических конструкций, информация о которых хранится во входном словаре. Бинарная таблица отношений содержит пары определяемого и зависимого лексических элементов с указанием их грамматико-семантических признаков и семантической роли зависимого слова.
- Завершение оформления элементов в группы сильносвязанных слов с выделением главного слова, определением семантических ролей внутри группы и определением общих грамматических признаков группы (род, число, падеж и т.д.) на основе информации из словаря. Главное слово в группе выделяется с помощью фильтров модуля СУЩЕСТВИТЕЛЬНОЕ.
- Определение предиката и его признаков по словарю и выделение в случае группы предикатов главного, связки, глагола «быть», предикативных элементов. Форма предиката (простая, составная глагольная, составная именная) выделяется с помощью фильтров модулей ПРЕДИКАТ.
По грамматико- семантическим признакам предикаты разбиваются на несколько КЛАССОВ, указанных в словаре, которые необходимы для выбора формы предиката. КЛАССАМИ предикатов могут быть: ДЕЙСТВИЕ, ФАЗА, СОСТОЯНИЕ, ОБЛАДАНИЕ, РАСПОЛОЖЕНИЕ, ПЕРЕМЕЩЕНИЕ, МОДАЛЬНОСТЬ, КУПЛЯ, ПРОДАЖА, ОТВЛЕЧЕННОЕ ДЕЙСТВИЕ. - По окончании входной последовательности слов производится выбор ЛФ-шаблона по классу и типу предиката. В зависимости от типа (личные, безличные, страдательный залог) выбирается соответствующая модификация шаблона. Осуществляется заполнение ЛФ-шаблона с помощью таблиц бинарных отношений предикатов и существительных. В случае неопределенности происходит выделение дополнительных связей между группами существительного с помощью этих же бинарных таблиц. В случае неоднозначности связей используется ряд эвристических правил (принцип близости, принцип приоритетности предиката и т.д.) или обращение в базу знаний ИС.
Завершая описание этапа СИ, приведем результат семантической интерпретации нашего предложения «На мельнице хранятся разные сорта пшеницы» в виде семантической сети, показанной на рис. 5.2.
Рис. 5.2. Результат семантической интерпретации предложения
В виде лингвистического фрейма это выглядит следующим образом:
(предикат (хранятся) (агент (сорта) (материал (пшеницы)) (деталь (разные))) (место (на мельнице)))
В этом примере в группе сильносвязанных слов («разные сорта пшеницы») выделены свои семантические отношения «материал» и «деталь» у главного слова в группе («сорта»).