QA системы |
Литература | Ссылки | Зеркальный сайт | Зеркальный сайт |
ВОПРОСНО-ОТВЕТНЫЕ СИСТЕМЫ И ОБРАБОТКА ЗНАНИЙ – НЕСТАТИСТИЧЕСКИЙ ПОДХОД
В последнее время в связи с лавинообразным ростом объема информации особенно остро встала проблема ее поиска и классификации. Большинство доступных источников представляют собой тексты на естественном языке, обработка которых является нетривиальной задачей для компьютера. Существует огромное множество подходов к анализу текста с целью извлечения из него информации. Большинство из них основано на объединении синтаксического анализатора и некой статистической машины, которая определяет и накапливает информацию о семантической близости слов в тексте. Такие методы дают хорошие результаты при больших объемах однотипной информации. Но, к сожалению, они мало пригодны для построения так называемых вопросно-ответных систем, систем, которые должны давать максимально точный ответ на вопрос, используя минимальное количество исходных текстов. То есть, в отличие от типовых «искалок» Интернета, дающих сотни, а иногда и тысячи текстов, в которых встречаются ключевые слова из запроса, вопросно-ответная система должна дать ответ, сформулированный на естественном языке. Например – «Кто изобрел скрепку» или «Какие страны посетил Путин в 2001 году?» В работе дается описание первой версии простой вопросно-ответную системы, которая должна выбирать из списка известных вопросов (FAQ) тот, который по смыслу максимально соответствует вопросу пользователя. Такая система могла бы найти широкое применение в различного рода службах поддержки пользователей и call-центрах, где операторам приходится давать ответы на вопросы, число которых можно запросто уменьшить до пары десятков, просто изменяя порядок слов в предложении и иногда подставляя синонимы. Для решения этой задачи было решено использовать в качестве базовой лексической поддержки широко распространенный в мире стандартный когнитивный словарь WordNet. Этот словарь, построенный по принципу тезауруса, позволяет анализировать вопросы не статистическими методами, а сравнивая слова по смыслу. Базовой словарной единицей в WordNet является не отдельное слово, а так называемый синсет. Синсет это структура, определяющая значение слова. Именованные взаимосвязи между синсетами позволяют выделять синонимы, антонимы, гиперонимы базового слова и тем самым выявить семантическую структуру вопроса. Даже первый вариант системы показал хорошие результаты на вопросах общей направленности, однако показал неудовлетворительные результаты при анализе технических и других специальных текстов. Этот факт говорит о том, что для удовлетворительной работы системы необходим не только общий словарь, отражающий общезначимую лексику, но и свой особый словарь передметной или проблемной области (ПО), отражающий не общую, а ситуативно определенную ее специфику. При построении такого словаря, подобного по структуре Wordnet, можно более эффективно использовать методы тезаурусной обработки текста вопроса и текстов ПО для получения более точного ответа. В паре с общезначимым словарем ситуативный словарь Wordnet, может позволить решать и другие, более сложные задачи когнитивной обработки текстов, т.к. он дает объемное видение проблемной ситуации или предметной области. |