QA системы
Литература Ссылки Зеркальный сайт Зеркальный сайт
ВОПРОСНО-ОТВЕТНЫЕ СИСТЕМЫ И ОБРАБОТКА ЗНАНИЙ – НЕСТАТИСТИЧЕСКИЙ ПОДХОД

В последнее время в связи с лавинообразным ростом объема информации особенно остро встала проблема ее поиска и классификации. Большинство доступных источников представляют собой тексты на естественном языке, обработка которых является нетривиальной задачей для компьютера.
Существует огромное множество подходов к анализу текста с целью извлечения из него информации. Большинство из них основано на объединении синтаксического анализатора и некой статистической машины, которая определяет и накапливает информацию о семантической близости слов в тексте.
Такие методы дают хорошие результаты при больших объемах однотипной информации.
Но, к сожалению, они мало пригодны для построения так называемых вопросно-ответных систем, систем, которые должны давать максимально точный ответ на вопрос, используя минимальное количество исходных текстов. То есть, в отличие от типовых «искалок» Интернета, дающих сотни, а иногда и тысячи текстов, в которых встречаются ключевые слова из запроса, вопросно-ответная система должна дать ответ, сформулированный на естественном языке. Например – «Кто изобрел скрепку» или «Какие страны посетил Путин в 2001 году?»
В работе дается описание первой версии простой вопросно-ответную системы, которая должна выбирать из списка известных вопросов (FAQ) тот, который по смыслу максимально соответствует вопросу пользователя. Такая система могла бы найти широкое применение в различного рода службах поддержки пользователей и call-центрах, где операторам приходится давать ответы на вопросы, число которых можно запросто уменьшить до пары десятков, просто изменяя порядок слов в предложении и иногда подставляя синонимы.
Для решения этой задачи было решено использовать в качестве базовой лексической поддержки широко распространенный в мире стандартный когнитивный словарь WordNet. Этот словарь, построенный по принципу тезауруса, позволяет анализировать вопросы не статистическими методами, а сравнивая слова по смыслу. Базовой словарной единицей в WordNet является не отдельное слово, а так называемый синсет. Синсет это структура, определяющая значение слова. Именованные взаимосвязи между синсетами позволяют выделять синонимы, антонимы, гиперонимы базового слова и тем самым выявить семантическую структуру вопроса.
Даже первый вариант системы показал хорошие результаты на вопросах общей направленности, однако показал неудовлетворительные результаты при анализе технических и других специальных текстов.
Этот факт говорит о том, что для удовлетворительной работы системы необходим не только общий словарь, отражающий общезначимую лексику, но и свой особый словарь передметной или проблемной области (ПО), отражающий не общую, а ситуативно определенную ее специфику. При построении такого словаря, подобного по структуре Wordnet, можно более эффективно использовать методы тезаурусной обработки текста вопроса и текстов ПО для получения более точного ответа. В паре с общезначимым словарем ситуативный словарь Wordnet, может позволить решать и другие, более сложные задачи когнитивной обработки текстов, т.к. он дает объемное видение проблемной ситуации или предметной области.



Hosted by uCoz