Алгоритм составления тезауруса словаря. Тезаурус: что это такое. Словарь-тезаурус, который больше чем словарь. Отношения слов в тезаурусе

Вычислительные технологии

Том 12, Специальный выпуск 2, 2007

ТЕХНОЛОГИЯ СОЗДАНИЯ ТЕЗАУРУСА ПРЕДМЕТНОЙ ОБЛАСТИ НА ОСНОВЕ ПРЕДМЕТНОГО УКАЗАТЕЛЯ ЭНЦИКЛОПЕДИИ

В. Б. Барахнин

Институт вычислительных технологий СО РАН, Новосибирск, Россия

e-mail: [email protected]

В. А. Нехаева Новосибирский государственный университет, Россия e-mail: [email protected]

This work describes a technology for creation of object domain thesaurus, which is based on subject heading for specialized encyclopedia. Such technology offers a high quality description of the object domain using reliable terms thus allowing to build up a first stage of thesaurus with a minimal engagement of experts in this particular field of knowledge. The proposed technology also contains a thesaurus building algorithm and web based application implementing this algorithm.

Введение

Одним из важнейших факторов, обеспечивающих успешное выполнение интеграционных научно-исследовательских проектов, является эффективное научно-информационное обеспечение. В частности, совместная работа исследователей нескольких (притом не всегда смежных) специальностей требует тщательного согласования используемой терминологии, ибо одно и то же понятие может обозначаться в разных областях науки различными терминами, а одним термином - разные понятия.

Другая задача информационного обеспечения проектов - создание интегрированной картотеки библиографических описаний документов (т.е. статей, книг и т.д.) по тематике проекта, составленной путем объединения ресурсов совместно работающих исследователей, у каждого из которых за годы его работы уже накоплена картотека по той или иной тематике (в настоящее время подобные картотеки хранятся, как правило, на электронных носителях). Для облегчения поиска в картотеке желательно, чтобы ключевые слова, характеризующие документы, выбирались по возможности из единого словаря. Для автоматической классификации документов, включенных в картотеку или потенциально могущих быть занесенными в нее из электронных баз данных

© Институт вычислительных технологий Сибирского отделения Российской академии наук, 2007.

научных публикаций типа базы данных реферативных журналов, "Current Contents" и т. п., представляется целесообразным использовать алгоритм координатного индексирования . Этот алгоритм основан на учете классификационных признаков входящих в текст терминов (слов и словосочетаний), характеризующих ту или иную предметную область.

Решение всех перечисленных выше задач невозможно без создания словаря терминов предметной области, причем в этом словаре должны быть установлены связи между терминами и проведена классификация терминов. Такой словарь называется тезаурусом (см. подробнее в ). Тезаурус (или нормативный тезаурус) - это словарь-справочник, содержащий все лексические единицы информационно-поискового языка - дескрипторы (вместе с ключевыми словами, которые в пределах данной информационно-поисковой системы считаются синонимами этих дескрипторов), причем дескрипторы в словаре должны быть систематизированы по смыслу, а смысловые связи между ними эксплицитно выражены.

Однако составление тезауруса "с чистого листа" может потребовать весьма значительных трудозатрат специалистов-экспертов, которые должны собрать все термины, достаточно полно охватывающие предметную область, согласовать их значения, установить связи и провести классификацию. Подобные трудности, возникающие при решении хотя и важной, но все-таки вспомогательной задачи, способны негативно повлиять на перспективы ее решения.

Нами разработана и реализована технология создания тезауруса на основе предметного указателя специализированных энциклопедий. Эта технология обеспечивает высококвалифицированное описание предметной области с использованием надежно выверенных терминов, позволяя провести начальный этап построения тезауруса с минимальным привлечением специалистов - экспертов в данной предметной области. Подробное изложение и обоснование алгоритма даны в работе . Ниже приведено краткое описание алгоритма, а также реализующего его web-приложения.

1. Алгоритм создания тезауруса

В качестве списка ключевых слов и словосочетаний для тезауруса предлагается использовать предметный указатель специализированной энциклопедии (или нескольких энциклопедий) . Выбор конкретной энциклопедии осуществляет специалист по предметной области, и этот выбор зависит от целей, преследуемых при создании тезауруса. Так, для решения комплексных экологических задач целесообразно использовать энциклопедии (или, при их отсутствии, - энциклопедические словари) по физике, химии, геологии, биологии, медицине, математике и т. п. При должном выборе предметный указатель вполне пригоден если не в качестве полного, то, как минимум, в качестве базового списка ключевых слов, который при необходимости будет пополняться.

Предметные указатели большей части энциклопедий устроены сходным образом - в них содержатся термины, являющиеся названиями статей энциклопедии, термины, определения которых даны в статьях, а также упомянутые в статьях наиболее важные результаты.

В качестве дескрипторов (т. е. терминов, являющихся именами классов близких по смыслу понятий) полагаются названия статей энциклопедии, а связанными с ними по смыслу считаются слова из предметного указателя, встречающиеся в соответствующих

статьях. Основным преимуществом такого метода является то, что для установки типов связей между терминами не требуется быть экспертом в данной предметной области - вполне хватит общих знаний, позволяющих понять текст энциклопедии, - более конкретные сведения, необходимые в процессе классификации понятий, всегда можно почерпнуть из конкретной статьи.

Поскольку создаваемый тезаурус предназначен для работы с использованием протокола Z39.50, типы связей устанавливаются в соответствии с рекомендациями схемы /л lies , которая выделяет следующие типы:

ВТ - связь с родительским термином, т. е. с термином более широкого смысла;

NT - связь с дочерним термином, т. е. с термином более узкого смысла. Связь ВТ - NT является взаимно-обратной;

USE - связь с термином, который используется вместо этого;

UF - взаимно-обратная связь USE;

RT - связь, определяющая связанный по смыслу термин;

LE - связь между лингвистически эквивалентными терминами;

FE - полностью тождественные термины.

Далее проводится классификация дескрипторов в соответствии с разделами данной предметной области. Выбор конкретного классификатора, как и выбор энциклопедии, осуществляется специалистом-экспертом, причем в случае использования нескольких энциклопедий из разных предметных областей возможно использование нескольких специализированных классификаторов. Между дескрипторами и разделами классификатора устанавливаются связи вида NT, RT, LE (FE), при этом при классификации следует использовать, по возможности, разделы максимально низкого уровня.

После этого ключевым словам, связанным с дескриптором отношениями ВТ, USE, RT, LE и FE, приписывается тот же классификационный номер, что и дескриптору. Впрочем, это не исключает такой ситуации, что если дескриптор отнесен к классу не самого низкого уровня, то при последующей работе эксперта термины, связанные с дескриптором отношениями ВТ и USE, могут быть отнесены к классу более низкого уровня. В этом случае указанные термины сами станут дескрипторами.

В результате все термины, входящие в предметный указатель, оказываются расклассифицированы в соответствии с разделами данной предметной области.

2. Описание работы web-приложения

Тем не менее процесс построения тезауруса в соответствии с данной методикой подразумевает большой объем рутинной работы и, кроме того, требует участия человека, имеющего навыки программирования. Поэтому в дополнение к методике было разработано web-приложение, обладающее дружественным к пользователю интерфейсом и поддерживающее следующие функции:

1) автоматический перевод информации с оцифрованных страниц предметного указателя в таблицу базы данных;

2) выделение дескрипторов в общем списке терминов;

3) поиск терминов, связанных с данным дескриптором, и установка типов связей в соответствии со схемой Zthes.

Важно отметить, что для выполнения всех упомянутых выше операций навыков программиста не требуется.

Разработанное приложение является универсальным, т. о. может быть использовано для создания тезаурусов различных предметных областей. В настоящий момент перенастройку программы с предметного указателя одной энциклопедии на предметный указатель другой (а лишь на этом этане процессы построения тезаурусов разных предметных областей могут различаться) выполняет программист, однако ведутся работы но дополнению программы функциями, позволяющими проводить эту операцию пользователю. не имеющему навыков программирования.

Функционирует приложение следующим образом. Обработка оцифрованных страниц предметного указателя производится автоматически. Пользователь указывает местоположение текстового файла с данными, после чего происходит его построчное считывание и в базу данных заносятся сами термины, а также информация о номерах страниц энциклопедии, где они расположены (рис. 1).

Дескрипторы из общего списка ключевых слов выделяет сам пользователь, отмечая искомые термины в выведенном на экран списке. \¥оЬ-приложопио поддерживает также функцию исправления возможных ошибок (рис. 2). Напомним, что связанными с данным дескриптором считаются все термины, встречающиеся в посвященной ему статье энциклопедии.

Для облегчения поиска связанных терминов пользователю выводится только список ключевых слов, расположенных па той же странице, что и выбранный им дескриптор (собственно, для этого мы и заносили в базу данных по только термины, по и информацию о поморах страниц). Разумеется, поскольку статья может занимать не всю страницу целиком, в список попадут лишние термины. Пользователь, устанавливая связи,

Рис. 1. Занесение текстовых файлов с терминами из предметного указателя

№ Создание дескрипторного словаря - Microsoft Internet Explorer !- ым

Файл Правка Вид Избранное Сервис Справка

Q Назад " © " @ |í| & уР Поиск ^Избранное - . в

Адрес; |¡j§ http:^localhost/math_dict/Deskj-_Slovar/Descr/gen_ss.phtml ; V ¡¿3 Переход Ссылки у>

fiBár JOQQ- © - I * 1 ]0 л de:*- Ж

1 Абак | 1, 13 1111111

2 Абелев автомат | 1, 67 1111111

3 Абелев групповой объект | 1, 1149 111 1 | |

4 Абелев дифференциал 11.13-15 I 2, 240 111111

5 Абелев дифференциал, базис | 1, 13 1111111

6 Абелев дифференциал, дивизор | 1, 15 | | | | | 1 |

7 Абелев дифференциал нормальный | 1, 14 1111111

8 Абелев дифференциал нормированный | 1, 14 1111111

9 Абелев дифференциал, полярный период | 1, 14 | | | | | | |

10 Абелев дифференциал, циклический период | 1, 14 1111111

11 Абелев идемпотент 14, 941 1111111

12 Абелев интеграл 11,15-17 1111111

13 Абелев интеграл, Абеля теорема | 1, 17 1111111

14 Абелев интеграл канонический |1,16||||||

16 Абелев интеграл, матрица периодов |1,16||||||

15 Абелев интеграл нормальный | 1, 16|||||||

17 Абелев интеграл, полярный период | 1,16||||||| 1S Абелев интеграл, циклический период | 1, 16 | | | | |

19 Абелев потенциал | 2, 239 1111111

20 Абелев а группа 11,17-20 1111111

21 Абелева группа вполне разложимая |1,19||||||

22 Абелева группа делимая | 1, 19|||||||

23 Абелева группа конечно порожденная | 1,18 1111111

24 Абелева группа, Куликова критерий | 1, 18 | | | | | |

25 Абелева группа, нуль | 3,1082 1111111

26 Абелева группа, периодическая часть | 1, 18 111 | |

http://locdlhostymath_dict/Deskr_Slovar/Descr/goto, phtml?ss 1+4+1+А+1+3

j 5tartApache.bat

I Svoj.NET: PHP Edit

J Adobe Photoshop || w

^ Местная интрасеть

EN Щ/м К 21:0;

Рис. 2. Список ключевых слов и выделение дескрипторов

Рис. 3. Выбор связанных терминов

Рис. 4. Установление типов связей.

выберет лишь часть ключевых слов из предложенного списка, однако и такая автоматизация заметно снижает объем рутинной работы (рис. 3).

Тин связи между дескриптором и ключевым словом уточняется путем заполнения соответствующей формы (рис. 4).

Заключение

Работоспособность данного алгоритма и web-приложопия была проверена путем создания тезауруса ряда разделов предметной области "Математика" ("Дифференциальные уравнения", "Уравнения в частных производных", "Численный анализ", "Механика жидкости" и др.) па основе предметного указателя "Математической энциклопедии". Установлено, что для классификации терминов и установления связей между ними достаточно квалификации бакалавра (при условии привлечения в редких случаях для консультаций эксперта с ученой степенью). Это доказывает высокую эффективность разработанного алгоритма.

Список литературы

Михайлов А.И., Черный А.И., Гиляревский P.C. Основы информатики. М.: Наука, 1968.

Барахнин В.Б. Разработка тезауруса предметной области "Математика" // Матер, конф. "Вычислительные и информационные технологии в науке, технике и образовании". Ч. 1. Новосибирск; Алматы; Усть-Каменогорск, 2003. С. 111-115.

Zthes: a Z39.50 Profile for Thesaurus Navigation

http://lcweb.loe.gov/z3950/agency/profiles/zthes-04.html

В соответствии с выводами Главы 1, тезаурус, составлению и исследованию которого посвящена наша работа - это идеографический тематический словарь «Горный и пешеходный туризм». Он будет состоять из лексики русского и испанского языков.

Таким образом, чтобы составить тезаурус необходимо решить ряд задач:

Выделить термины, описывающие предметную область;

Провести логическое разделение терминов по семантическим группам;

Сопоставить термины русского и испанского языков;

Расположить группы в алфавитном порядке.

Методы и алгоритм ручного составления тезауруса

Информационно-поисковый тезаурус - словарь, составляемый вручную экспертом-лингвистом, специалистом в области построения словарей и семантических ресурсов. При составлении подобного словаря стоит задача получить тезаурусное описание одной или нескольких предметных областей, при этом, часто существует корпус текстов, который является основой для создания словаря. Эксперт проводит анализ корпуса текстов и руководствуясь технологией ручного построения тезауруса составляет список терминов описывающих заданную предметную область и включает их тезаурус в качестве дескрипторов. После этого термины группируются в концепты и между ними устанавливаются иерархические и ассоциативные отношения.

Для процесса ручного создания тезауруса характерны такие недостатки как высокая стоимость и длительность создания ресурса, обусловленность результата от квалификации эксперта, невозможность вручную проанализировать весь корпус текстов и некоторые другие. Очевидно, что при ручном составлении тезауруса эксперту необходимо использовать существующие методы поиска информации и поисковые интернет - системы.

Прежде всего, двуязычный тезаурус представляет не пословные переводы, его структура представляет собой организованный на основе близости семантического значения список лексем в русском языке - определение понятия на русском языке - определение понятия на иностранном языке - список текстовых вариантов на иностранном языке. При этом списки лексических единиц должны быть как можно более полными с каждой стороны, включая и те выражения, которые обычно не представлены в словарях, так как представляются очевидными для человека.

При создании традиционных двуязычных словарей основной целью является обеспечение совокупности наиболее частых переводов слова в различных текстах. Переводы даются как бы с запасом, в список переводов включаются и точные переводы, и переводы с более узким значением и с более широким (именно поэтому испано-русские и русско-испанские словари не являются обратимыми). Предполагается, что читающий разберется по контексту, какой перевод выбрать.

Основными этапами при составлении тезауруса являются следующие:

1) Предварительная обработка корпуса текстов с целью выделения ключевых слов.

2) Формирование множества слов и словосочетаний для включения в тезаурус и изучение связей между дескрипторами тезауруса. Эксперт, руководствуясь этим множеством, составляет список ключевых понятий предметной области.

3) Выделение иерархических отношений между дескрипторами (в нашем случае - алфавитные порядок) и их классификация (в нашем исследовании, классификация опирается на семантические отношения между дескрипторами).

4) Построение множества ассоциативных отношений между дескрипторами в русском и испанском языке.

Одним из новых основных понятий, появившихся в результате разработки машинных методов обработки информации, в частности, при переводе с одного языка на другой, поиска научно-технической информации и создания информационной модели предприятия в автоматизированных системах управления, явилось понятие тезауруса информационной системы. Термин «тезаурус» подразумевает совокупность знаний о внешнем мире - это так называемый тезаурус мира Т. Все понятия внешнего мира, выраженные с помощью естественного языка, составляют тезаурус, из которого можно выделить частные тезаурусы путем иерархического деления с учетом соподчинения отдельных понятий или путем выделения частей общего тезауруса мира. Тезаурус в информационно-поисковых системах играет важную роль в поиске нужного документа по ключевым словам. Поэтому построение тезауруса является сложной и ответственейшей задачей. Но эта задача также может быть автоматизирована.

Классификация в ее наиболее общем определении есть разбиение и упорядочение множеств. Ею называют распределение предметов по классам на основании общего признака, присущего данным явлениям или предметам и отличающего их от предметов и явлений, составляющих другие классы. При необходимости каждый класс может делиться на подклассы. Рубрикатор является особой разновидностью классификации . Поэтому они созданы на основе общих положений:
 научная основа построения классификации;
 отражение современного уровня развития науки;
 наличие системы ссылок и отсылок, а также ссылочно-справочного аппарата (ССА).

Однако рубрикатор является прагматической классификацией, создающейся на основе информационных потоков и потребностей специалистов . В этом его отличие от априорных классификаций, таких как УДК и МПК.

Основными функциями классификаций и, в частности, рубрикатора можно назвать следующие:
 тематическое разграничение информационных подсистем;
 формирование информационных массивов по любым признакам;
 систематизирование информационных материалов и изданий;
 текущий и ретроспективный поиск;
 индексирование документов и запросов;
 связь с другими классификационными схемами;
 нормативные функции.

Они строятся путем деления понятий - объектов классификации на основе установленных связей между признаками этих объектов в соответствии с определенными логическими принципами. Признак, по которому производится классификация, получил название основания деления классификации. В классификациях широко используются методы дедукции и индукции для фиксации групп, классов и выявления связей между ними. Это характерно для иерархических классификаций. Глубина классификации (количество уровней иерархии) может быть различной в зависимости от назначения. Одним из широко используемых рубрикаторов является государственный рубрикатор научно-технической информации (ГРНТИ).

Рубрикатор ГРНТИ разработан так, что возможно его совместное использование с другими классификациями типа УДК и МПК. Универсальная десятичная классификация (УДК) существует более 70 лет, но до сих пор не знает себе равных по широте распространения и используется во многих странах мира. УДК охватывает весь универсум знаний и успешно применяется для систематизации и последующего поиска самых разнообразных источников информации.

Помимо УДК на практике широко используется библиотечно-библиографическая классификация (ББК). ББК построена на принципах логической соподчиненности и представляет классификацию прикладного типа.
В Российской Федерации для классифицирования изобретений и систематизации отечественных фондов описаний изобретений используется международная патентная классификация - достаточно сложная многоаспектная классификация, построенная по функционально-отраслевому принципу. Одни и те же технические понятия могут находиться в МПК или специальных классах (по отраслевой принадлежности) или в функциональных классах (по принципу действия). Отраслевой принцип распределения понятий предполагает классифицирование объектов в зависимости от применения в той или иной исторически сложившейся отрасли техники, технологии.

Сравнительная характеристика рубрикатора ГРНТИ, УДК, ББК и МПК, приведена в таблице 1.

Таблица 1
Характеристика рубрикатора ГРНТИ, УДК, ББК и МПК

Наименование

Структура

Принцип расположения делений

Схема построения разделов

Иерархическая

Отраслевой

От общего к частному

Иерархическая

Тематический

Иерархическая

Функционально-отраслевой

От общего к частному

ББК для научных библиотек

Иерархическая

Отраслевой

От общего к частному, по видовому признаку


Таким образом, можно выделить главные отличительные особенности рубрикаторов и классификаторов:
 им свойственен прикладной характер и отраслевая направленность;
 это открытые системы, зависящие от развития науки и техники, потребностей и запросов специалистов;
 неорганичные системы, так как объекты возникают и развиваются в окружающей среде и из нее поступают в них. Элементы способны существовать самостоятельно вне системы. Эта черта тесно связана со второй особенностью;
 минимальным элементом является понятие, связанное со средой. Понятие представляет систему определений;
 между понятиями возникают связи как по «вертикали» (род-вид, целое-часть), так и по «горизонтали» (вид-вид, часть-часть), что свидетельствует об иерархичности систем.

Следовательно, структура и принципы организации классификаций и рубрикаторов делают возможным автоматизировать процесс построения тезаурусов предметной области, используя метод дедукции. Алгоритм построения тезауруса по методу дедукции приведен на рис. 1.

Основой для формирования тезауруса является поисковый образ документа, задание или заявка на поиск информации, заполняемая оператором. Следовательно, первым шагом становится исследование и анализ заявки. На первом этапе оператор указывает интересующую тему или проблему, возможные ключевые слова и их синонимы. В результате этого получаем поверхностное представление о предметной области.

Рис. 1. Алгоритм построения тезауруса по методу дедукции

Кроме того, формируется тезаурус ключевых слов КС по методу дедукции, для чего необходимы:
 массив КС, который задает сам пользователь, обозначенный на рисунке 1 как MP;
 массив КС, извлеченный из задания на поиск соответственно MZ.

Однако для более полного и глубинного представления о предметной области используем существующие рубрикаторы и классификационные схемы (ГРНТИ, УДК, ББК, МПК). С целью максимального охвата предметной области необходимо просмотреть все, имеющиеся в наличии. Массив рубрикаторов представляет MR. Алгоритм поиска по методу дедукции состоит из двух шагов:
1. Нахождение родовых понятий (рис. 2);
2. Нахождение внутри родовых понятий видовых терминов (рис. 3).


Рис. 2. Обработка родового понятия

Загружаем из массива первый рубрикатор и организуем цикл проверки наличия в рубрикаторах КС, введенных пользователем. Каждое КС ищется в рубрикаторе и сравнивается с родовым понятием или «гнездом», а затем проверяется условие - есть ли ссылка на видовые термины. Если такая ссылка имеется, то КС сравнивается с видовыми терминами. В случае если ссылки не обнаружено, переходим к следующему родовому понятию. Когда ключевые слова КС, введенные оператором, просмотрены, переходим к массиву КС, извлеченных из задания. Процедура проверки аналогична - ищем КС, соответствующие родовым понятиям, а затем их ссылки на видовые термины.


Рис. 3. Обработка видовых терминов

Отметим, внутри каждого родового понятия важно просмотреть все имеющиеся видовые термины с целью получения максимального представления о проблемной области. Результатом этих действий является формирование массива ключевых слов КС, представляющего собой полный тезаурус, соответствующего заданию на поиск информации или поисковому образу документа.

На базе полного набора поисковых образов документов (обозначим) можно создать отраслевые тезаурусы и единый классификатор библиотеки. Очевидно, что полный набор  сам представляет простейший тезаурус.

Однако, используя критерий отбора
, (1)
можем построить отраслевые тезаурусы. При этом множество всех отраслевых тезаурусов образует полный тезаурус
, (2)
разделы которого могут быть иерархически структурированы в соответствии с требованиями ГОСТов по основным классификаторам (ГРНТИ, УДК, ББК, МПК) или по внутреннему единому классификатору.

Автоматизация процесса построения тезауруса и классификации позволяет максимально облегчить труд оператора, работающего с распределенными информационными ресурсами.

Помимо построения тезауруса, на основе поискового образа документа предложенный подход можно использовать при автоматическом реферировании документа и кластеризации текстов.

Реферирование документов является одной из задач, направленных на обеспечение специалистов-экспертов достоверной информацией, необходимой для принятия управленческого решения о ценности полученных из сети Интернет документов. Реферированием называется процесс преобразования документальной информации, завершающийся составлением реферата, а реферат - это семантически адекватное изложение основного содержания первичного документа, отличающееся экономной знаковой оформленностью, постоянством лингвистических и структурных характеристик и предназначенное для выполнения разнообразных информационно-коммуникативных функций в системе научной коммуникации . Алгоритм реферирования документов представлен на рис. 4.


Рис. 4. Алгоритм реферирования документов

В общем случае алгоритм включает следующие основные этапы.
1. Производится выделение предложений из документа, закаченного из сети Интернет и находящегося в хранилище данных, путем выделения знаков препинания и сохраняем его в массиве.
2. Каждое предложение разбивается на слова путем выделения разделителей, и сохраняем их в массив, причем для каждого предложения массив разный.
3. Для каждого предложения, для каждого слова этого предложения считаем количество слов в других предложениях (до и после). Сумма повторов для каждого слова (до и после) и будет весом данного предложения.
4. Заданное число предложений с максимальным весовым коэффициентом и выбираем в реферат в порядке появления в тексте.

Предложенная модель построения тезауруса и тематических каталогов информационной системы представляет собой теоретическую основу для автоматизации смыслового поиска и позволяет специалисту-эксперту не только проводить поисковые работы, но и в автоматизированном режиме, реферировать документы, полученные в результате поиска в распределенных информационных системах сети Интернет.

Литература:
1. Барушкова Р.И. Классификационные схемы научно-технической информации. Учеб. пособие. - М., 1981. - 80с.
2. Барушкова Р.И. Рубрикатор как классификационная схема научно-технической информации. Методическое пособие. - М., 1980. - 38с.
3. Трусов А.В., Бабарыкин Е.П. Оценка границ области тематического информационного запроса в распределенных информационных системах. Материалы Всероссийской (с международным участием) конференции «Информация, инновации, инвестиции», 24-25 ноября 2004 года, г.Пермь /Пермский ЦНТИ. - Пермь, 2004. - С.76-79.
4. Яцко В.А. Логико-лингвистические проблемы анализа и реферирования научного текста. - Абакан: изд-во Хакасского гос. ун-та, 1996. - 128 с.

Под тезаурусом понимается сложный компонент словарного типа, в котором все значения словаря связаны между собой семантическими отношениями, отражающими основные соотношения понятий в описываемой предметной области знаний. В прошлом термином тезаурус обозначались по преимуществу словари, с максимальной полнотой представлявшие лексику языка с примерами её употребления в текстах.

В состав тезауруса входят лексемы , относящиеся к четырем частям речи: прилагательному, существительному, глаголу и наречию. Описания, соответствующие каждой части речи, имеют различную структуру.

Основными отношениями в тезаурусе являются:

  • синонимия – связь между словами одной части речи, различных по звучанию и написанию, но имеющих одинаковое или очень близкое лексическое значение, например: кавалерия – конница, смелый – храбрый;
  • антонимия – связь между словами одной части речи, различных по звучанию, имеющих прямо противоположные значения: правда – ложь, добрый – злой;
  • гипонимия/гиперонимия. Гипероним – слово с более широким значением, выражающее общее, родовое понятие, название класса (множества) предметов (свойств, признаков). Гипоним – слово с более узким значением, называющее предмет (свойство, признак) как элемент класса (множества). Эти отношения транзитивны и несимметричны. Гипоним наследует все свойства гиперонима. Являются центральными отношениями для описания существительных;
  • меронимия/партонимия – отношение «ЧАСТЬ-ЦЕЛОЕ». Внутри этого отношения выделяются отношения «быть элементом» и «быть сделанным из». Отношение определено только для существительных;
  • следствие (это отношение связывает между собой глаголы);
  • причина (также определено для глаголов).

Пример тезауруса:

Изба – деревянный крестьянский дом [гипероним]: жилое здание [мероним]: сельский населенный пункт [синоним]: дом

Все отношения создают сложную иерархическую сеть понятий, и знание о том, где находится понятие в этой сети, является важной частью знания об этом понятии. Свойства отношений различны при описании различных частей речи.

В разных системах тезаурус может выполнять разные функции:

  • источник специальных знаний в узкой или широкой предметной области, способ описания и упорядочения терминологии предметной области;
  • инструмент поиска в информационно-поисковых системах;
  • инструмент ручного индексирования документов в информационно-поисковых системах (так называемый контролирующий словарь);
  • инструмент автоматического индексирования текстов.

Начало тезаурусам как понятийным словарям положил Роже (или Роджет, английский физик), систематизировавший лексику английского языка по группам. Каждая группа представлена именем понятия («категории», которых насчитывалось сначала одна тысяча; это обычные слова, расположенные в алфавитном порядке, например AFFIRMATION ... AGENCY...), далее идут его синонимы по частям речи (существительные, глаголы, прилагательные, наречия), антонимы и затем списки родственных слов (их много, и некоторые представляют собой отсылки к именам других категорий, в словарной статье которых список «дальних родственников» может продолжаться, например, от AGENCY... see BUSINESS). Со времени издания тезауруса Роже в 1852г. и до сих пор продолжаются его переиздания в разных видах и для разных пользователей, тезаурус постоянно пополняется новой лексикой и связями, но за всеми вариантами остается имя создателя первой версии. Ценность этого тезауруса в его естественности, в том, что это описание всей лексики языка, а не только терминологии, а также в том, что его можно привлекать к использованию в системах информационного поиска как средство увеличения семантической силы системы.

Тезаурусы остаются до настоящего времени наиболее принятой формой описания знаний предметной области, пригодной для восприятия человеком. Примерами современных иностранных тезаурусов являются WordNet и EuroWordNet.

Тезаурус английского языка WordNet появился в 1990г. и начал активно привлекаться в различные сферы автоматической обработки текстов. WordNet охватывает около 100 тыс. различных единиц (из них почти половина – словосочетания), организованных в 70 000 понятий.

В настоящее время начинает разрабатываться многоязычный тезаурус EuroWordNet. Первоначально для четырех языков (датского, итальянского, испанского и американского английского) разрабатывается сеть значений слов, связанная семантическими отношениями и позволяющая находить близкие по смыслу слова различных языков. В отличие от тезауруса Роже и сети WordNet, которые создавались для описания лексической и понятийной системы английского языка, EuroWordNet создается в первую очередь для решения практических задач автоматической обработки больших массивов текстов. Важнейшими задачами, которые предполагается решать с помощью этого тезауруса, являются следующие:

  • обеспечение многоязычного информационного поиска;
  • увеличение полноты информационного поиска;
  • формулирование запроса на естественном языке;
  • семантическое индексирование документов и др.

Кроме этих отношений вводятся также тематические отношения, которые связывают понятия одной предметной области. Предполагается также ввести специальные пометки на отношения между понятиями, обозначающие дизъюнкцию или конъюнкцию отношений. Если некоторое понятие в сети имеет несколько одноименных отношений, то они могут быть дизъюнктивными, т. е. реально реализуется одно из этих отношений, или конъюнктивными, т. е. для понятия действительны все эти отношения.

В отечественных институтах создано более сотни отраслевых тезаурусов, удовлетворяющих определенному государственному стандарту на словари подобного типа. Они так и именуются – ИПТ – информационно-поисковые тезаурусы. Из всех возможных смысловых отношений между понятиями в них зафиксированы три: синонимические, родовидовые (к которым относят обычно и отношение «ЧАСТЬ-ЦЕЛОЕ») и «все прочие», называемые также ассоциативными.

Стандартные ИПТ предназначены в основном для ручного индексирования документов, а также для формулировки и варьирования запросов при поиске. Есть нестандартные тезаурусы, которые ставят задачу скорее выборочной систематизации терминологии в конкретной области знаний – это особенно актуально для новых предметных областей. Растет тенденция к обогащению тезаурусов определениями терминов, что важно для различения неоднозначности терминов, особенно в случае смежных дисциплин и при выходе из границ узких предметных областей.

Все чаще в многочисленных проектах, книгах, брошюрах, интернет-ресурсах можно встретить понятие "тезаурус". Словно таинственное явление, оно пугает своей неизведанностью, ведь куда проще сказать "словарь", нежели использовать странное определение.

Тезаурус: что это? Чем он отличается от обычного словаря? Попытаемся изучить данные вопросы более подробно и доступно.

Трактовка термина

Первоначально понятие тезауруса рассматривалось с точки зрения словаря, представлявшего лексику языка с примерами употребления в тексте.

Ожегов трактует тезаурус как словарь конкретного языка, отражающий лексику в полной мере, в то время как Ефремова рассматривает данный феномен с точки зрения систематизированного набора данных в определенной области знания.

Наиболее конкретное определение используется в филологии, там под тезаурусом понимается компонент словарного типа, где все значения слов связаны семантическими отношениями между собой и отражают ключевые соотношения понятий в определенной предметной области.

Как мы видим, довольно сложно ответить на вопрос: "Тезаурус: что это?" однозначно. Для более узкого изучения термина рассмотрим историю возникновения, виды и отношения лексических единиц в словаре подобного типа.

История возникновения

Отцом-основателем тезаурусов считается английский физик Роже, именно он в 1852 г. систематизировал распределив ее по группам. При этом каждая группа была представлена названием понятия, а далее шли его синонимы по определенным частям речи, списки родственных наименований, а также отсылки к именам других категорий. Идея такой классификации была очень ценной, поскольку словарь считался самым естественным, описывал лексику языка в самой полной мере. При этом он мог быть применен в качестве быстрого поиска важных понятий. Со времен первого тезауруса и до сих пор происходит регулярная трансформация данного типа словаря, который применяется во многих областях знаний и пользуется широкой популярностью во всем мире. При этом изучение темы: «Тезаурус: что это?» актуально во многих учебных заведениях.

До настоящего времени тезаурусы остаются наиболее популярным способом описания знаний в любой области, необходимой для эффективного восприятия человеком.

Отношения слов в тезаурусе

Самыми распространенными отношениями в классическом тезаурусе считаются:

  1. Синонимия - явление, при котором связываются слова одной части речи, сходные по лексическому значению. Например: держава-отчизна, бригада-отряд, алый - красный и т.д.
  2. Антонимия - связь слов одной части речи, имеющих противоположное лексическое значение. Например: тишина - грохот, ласковый - грубый .
  3. Гиперонимия (гипонимия) - ключевые отношения с целью описания существительных. Гипероним имеет широкое лексическое значение, выражает родовое, общее наименование класса (множества) объектов, предметов, а именно его свойств и признаков. Гипоним обладает узким значением, он называет предмет (признак, свойство) как элемент конкретного множества или класса. Для того чтобы эти отношения стали понятными, приведем простейший пример. Слова зверь и тигр связаны между собой, при этом общее наименование - зверь - является гиперонимом по отношению к гипониму тигр.
  4. Меронимия (партонимия) - отношения для существительных, складываются по принципу «часть - целое». В качестве примера рассмотрим слова самолет, шасси , иллюминатор . В данном случае общее наименование транспорта - холоним (целое, имя), а его составные части - меронимы.
  5. Следствие (отношения между глаголами). Например, слова идти и прийти связаны процессом и его следствием (результатом).
  6. Причина (также допустимо только для глаголов). Рассмотрим пример таких отношений, возьмем слова: болеть - пропустить . В этом случае прослеживается причина - пропустить, потому что были проблемы со здоровьем.

Что тезаурус представляет собой, увидим из следующего примера.

Кровать - приспособление для сна.

[гипероним]: мебель
[мероним]: дом
[синоним]: лежанка, полати.

Это лишь классический пример тезауруса русского языка, однако все словари данного типа строятся именно по такому принципу.

Функции тезауруса

Словарь-тезаурус несет важные социальные, коммуникационные, научные и другие функции.

Он является:

  • источником специальных знаний в широкой либо узкой предметной области, способом упорядочения, описания терминов ;
  • инструментом поиска в информационном потоке;
  • инструментом ручного анализа документации в поисковых системах;
  • инструментом автоматического индексирования сложных текстов.

Виды тезаурусов

Многообразие словарей требует рассматривать не только вопрос: "Тезаурус: что это?", но и обращать внимание на виды. Это поможет нам лучше усвоить особенности данного типа словарей.


Заключение

Мы надеемся, что смогли доступным языком объяснить, что такое тезаурус. Благодаря примерам легко понять, чем он отличается от остальных словарей. Также мы осветили вопрос об информационно-поисковых тезаурусах, которые широко используются информационной системой для быстрого поиска и систематизации миллионов наименований.