Open Library - открытая библиотека учебной информации

Открытая библиотека для школьников и студентов. Лекции, конспекты и учебные материалы по всем научным направлениям.

Категории

Менеджмент Dublin Core
просмотров - 142

GEM

IMS

Изучение российских и международных стандартов форматов для учета при организации обмена данными между различными источниками

В ходе выполнения работы по данному разделу проанализированы существующие стандарты метаданных, предназначенные для описания информационных ресурсов (Dublin Core, MARC (UNIMARC, RUSMARC), LOM, IMS, GEM и др.).

Ниже приведены краткие описания наиболее распространенных стандартов метаданных, используемые в большинстве каталогов ресурсов.

Dublin Core (ANSI/NISO Z39.85-2007)

http://dublincore.org/documents/dces/

Dublin Core (Дублинское ядро, Dublin Core meta-data element set) – инвариантная к предметной области композиция наиболее общих полей для описания ресурсов. Данная модель метаданных часто используется в качестве основы для других моделœей.

MARC (ANSI/NISO Z39.2-1994)

http://www.loc.gov/marc/

MARC (Машиночитаемая каталогизация, Machine Readable Cataloguing). Изначально развивался в Библиотеке Конгресса США в 1965-66, в т.ч. включая пилотный проект под названием MARC I. Сходная работа выполнялась в Англии, где Британский национальный библиографический совет инициировал проект BNB MARC. В 1968 был начат англо-американский проект MARC II для разработки стандартного коммуникационного формата.

Используется во многих российских библиотечных информационных системах. Существуют модификации данного стандарта: UNIMARC, USMARC, RUSMARC.

LOM (IEEE 1484.12.1-2002)

http://www.ieeeltsc.org/working-groups/wg12LOM/

LOM (Learning Object Metadata) – стандарт метаданных для описания образовательных информационных ресурсов. Специализированный стандарт, наиболее широко используемый для каталогов образовательных ресурсов. LOM включает в себя элементы Dublin core.

http://imsproject.org/

IMS Metadata Specification – спецификации для образовательных ресурсов, основанные на XML. Отражают наиболее конкретизированные требования к обучающим системам, являясь обобщением общих рекомендаций, выработанных другими организациями для обеспечения взаимодействия систем, созданных различными коллективами разработчиков.

http://www.thegateway.org/about/gemingeneral/about-gem/

GEM (Gateway to Educational Materials) – расширение спецификации Dublin Core для образовательных ресурсов. Поддерживается департаментом образования США.

Проблема разработки средств для спецификации метаданных возникла и в связи с созданием новых Web-технологий, основанных на языке разметки XML - стандарте консорциума W3C. Прежде всœего, некоторые возможности для этой цели были предусмотрены в самом языке XML. Их называют декларацией типа документов. Спецификация этих деклараций средствами XML принято называть Document Type Definition (DTD) и позволяет описывать допустимые структуры гипертекстовых документов рассматриваемой категории в терминах составляющих их элементов.

Для каждого типа элементов документа указывается вид их содержания (содержания нет, литерная строка, список вложенных элементов, смешанное содержание - литерная строка и вложенные элементы), обязательно или факультативно присутствуют элементы в документе, а также перечень соответствующих им атрибутов и их типы. Соотношение между DTD и множеством соответствующих XML-документов аналогично соотношению между схемой базы данных и множеством описываемых ею конкретных баз данных. Верификация конкретного документа на соответствие спецификации DTD может осуществляться процессорами языка XML, к примеру, поддерживающим данный язык Web-браузером.

DTD может использоваться двумя способами. В простейшем случае эти спецификации встраиваются непосредственно в XML-документ. Спецификации DTD для категории документов, представляющей интерес для многих пользователœей, могут размещаться на каком-либо Web-сервере для общего доступа, а в конкретных XML-документах делаются ссылки на него. Средства DTD уже находят применение для создания научных коллекций. Так, разработаны DTD для исторических коллекций в Библиотеке конгресса США, для описания астрономических инструментов и др.

Под влиянием и на основе исследований, проводимых в рамках программы DLI, консорциум W3C принял также стандарт средств для описания семантики ИР в среде Web, независимых от конкретной предметной области, - Resource Definition Framework (RDF). Этот стандарт состоит из двух частей. В первой из них предлагается семантическая модель и синтаксис базирующегося на XML языка, средствами которого может быть выражена семантика ИР - RDF-спецификация. Использование XML как языковой среды для представления RDF-спецификаций естественным образом решает проблему обмена метаданными в WWW и их повторного использования в приложениях, основанных на XML.

Описание семантики ИР в терминах модели RDF по существу эквивалентно ER-диаграмме и декларирует множество ИР, с каждым из которых ассоциируются пары "свойство - значение". Значения свойств задаются литерально либо ссылками на другие ресурсы, которые представляются, в свою очередь, их свойствами. Τᴀᴋᴎᴍ ᴏϬᴩᴀᴈᴏᴍ, свойства могут определять и связи между ресурсами. ИР идентифицируются уникальным образом с помощью их URI (Uniform Resource Identifier, обобщение концепции URL в WWW). Οʜᴎ могут также представлять собой коллекции других ИР или литералов, называемые контейнерами. Допускаются контейнеры типа мультимножества, последовательности и альтернативы.

Для того, чтобы RDF-спецификация семантики ИР была полной, крайне важно ассоциировать с нею описание семантики используемых в спецификации свойств, называемое в терминологии RDF схемой. Никаких ограничений на способ представления схемы не налагается. Достаточно лишь представить ее как некоторый ресурс в WWW, и использовать URI этого ресурса для ссылки на нее в RDF-спецификации. Характер спецификаций, глубина описания семантики свойств в схеме и степень ее формализованности, должны соответствовать потребностям приложений XML, оперирующих конкретной категорией ИР, которые описываются данной RDF-спецификацией и этой схемой.

В стандарте RDF предусматривается два способа задания схем. Первый из них, более простой, состоит в использовании в качестве схемы пространства имен свойств XML - XML-Namespace. Спецификации пространства имен - это еще один принятый W3C стандарт в инфраструктуре информационной среды, основанной на языке XML.

Пространство имен определяет некоторый набор слов, используемых в качестве имен в XML-спецификации, и описывает семантику каждого из них. Поскольку идентификация пространств имен с помощью URI уникальна в WWW, определœенные в них имена при квалификации их идентификатором пространства имен (такой идентификатор ассоциируется со ссылкой на пространство имен в XML-документе, в частности, в RDF-спецификации) также являются глобально уникальными в WWW. Благодаря этому возможно в одной RDF-спецификации использовать имена свойств, которые принадлежат различным пространствам имен и тем самым имеют различный смысл, не опасаясь коллизий между ними.

Другой, семантически более богатый способ задания схемы, предлагаемый W3C, предусматривает использование средств RDF Schema - второй части стандарта RDF. RDF Schema предоставляет средства не только для моделирования и описания семантики свойств ИР, но и для спецификации ограничений целостности.

Схема в RDF Schema представляет собой описание специфической для конкретной предметной области совокупности ресурсов RDF, которые используются для описания свойств других ее ресурсов. В связи с этим RDF-схема представляется как RDF-спецификация средствами синтаксиса. В этой спецификации используется специальное предопределœенное пространство имен.

Спецификации RDF Schema основаны на модели, близкой по ее возможностям к моделям представления знаний и использующей объектную парадигму. Эта модель опирается на концепции классов, свойств и ограничений, ассоциируемых с классами и свойствами. Для классов поддерживается иерархическое отношение класс-подкласс. Используемая в RDF Schema модель является фактически метамоделью по отношению к модели, лежащей в основе RDF-спецификаций. Средствами этой модели в стандарте определяется схема-ядро, в терминах которой описываются конкретные схемы. Схема-ядро неявно включается в состав каждой из них. Ее ресурсами является небольшой набор "встроенных" классов, свойств и ограничений целостности.

Метаданные, представленные средствами RDF, могут использоваться для более эффективного поиска ресурсов поисковыми машинами WWW, в электронных библиотеках, в описаниях коллекций страниц Web, составляющих некоторый виртуальный документ, для представления содержания ИР в конкретных предметных областях, а также для поддержки различных других Web-приложений, нуждающихся в семантической информации о ресурсах.

Как уже отмечалось, в задачу RDF не входит стандартизация каких-либо наборов семантических свойств, и они бывают различными для различных приложений. Стоит сказать, что для некоторых предметных областей уже существуют такого рода стандарты. Так, к примеру, для описания семантики электронных текстовых документов в среде Web предложен набор свойств, названный Дублинским ядром. В стандарте RDF показано, каким образом Дублинское ядро может быть выражено средствами RDF Schema.

Работы по стандартизации набора семантических свойств c ориентацией, главным образом, на публикуемые в WWW текстовые документы, заметно активизировались после основополагающего симпозиума, организованного в Дублинœе (США, штат Огайо) силами Online Computer Library Center и National Center for Supercomputing Applications (1995). Целью симпозиума было обсуждение состава элементов метаданных, которые могли бы использоваться для описания содержания ИР, представленных в WWW, и тем самым обеспечивали бы более эффективный поиск требуемых ресурсов, а также поддержку других Web-приложений. Выработанный на симпозиуме подход стал называться Дублинской инициативой.

Предложенное первоначальное множество из 13 элементов метаданных получило название Дублинского ядра (Dublin Core, DC). Его развитие поддерживается специально созданными органами - Директоратом Дублинского ядра, Консультативным комитетом по политике и Техническим консультативным комитетом. Конкретная работа по выработке предложений, связанных с развитием спецификаций, ведется рядом рабочих групп. Указанные организации взаимодействуют с Internet Engineering Task Force и National Information Standard Organization с целью придания DC статуса стандартов, принятых этими учреждениями.

Текущая версия спецификаций Дублинского ядра - DC 1.1 включает 15 элементов. К их числу относятся:

· Title (Название ресурса),

· Creator (Лицо, организация или служба, ответственная за подготовку содержания ресурса),

· Subject (Тема, обсуждаемая в содержании ресурса), Description (Описание содержания ресурса в свободной форме,)

· Publisher (Лицо, организация или служба, обеспечивающая доступ к ресурсу),

· Contributor (Другие участники подготовки содержания ресурса помимо указанного в Creator),

· Date (Дата создания или предоставления доступа к ресурсу),

· Type (Жанр, категория или другие характеристики природы ресурса),

· Format (Характер представления ресурса),

· Identifier (Точная ссылка на ресурс),

· Source (Ссылка на источник, из которого продуцирован данный ресурс),

· Language (Язык представления ресурса),

· Relation (Ссылка на ресурс, связанный с данным),

· Coverage (Область пространства, времени и т.д., к которой относится содержание ресурса),

· Rights (Права интеллектуальной собственности на ресурс).

Использование формата Dublin Core ставит задачу достижения следующих характеристик:

Простота создания и поддержки ресурсов. Набор элементов должен быть по возможности мал и прост для того, чтобы дать неспециалистам возможность с легкостью и минимальными затратами создавать записи описаний информационных ресурсов для обеспечения высокой эффективности нахождения этих ресурсов в сетевой среде.

Легко понимаемую семантику, что позволяет как генерировать метаданные непосредственно создателями ресурса, так и более эффективно искать информацию в Интернете.

Международный охват. Набор элементов DC разработан на английском языке, но созданы версии и на многих других языках Специальная группа "Многоязычный DC" координирует попытки связать эти версии в распределœенном регистре, используя технологию RDF. Правительство ряда стран утвердило DC в качестве национального стандарта метаданных.

DC отлично подходит в качестве стандарта для описания объектов типа “публикация”, что обусловлено следующими преимуществами этого стандарта:

· набор базовых семантических элементов компактен и, в то же время, позволяет задавать практически всœе требуемые атрибуты;

· простота имплементации;

· наличие полного комплекта нормативных документов и технической поддержки;

· семантика каждого элемента может быть уточнена с помощью квалификаторов, как стандартных, известных и понятных всœем, так и специально разработанных для точной спецификации семантического смысла определœенного атрибута при обмене данными внутри небольшого сообщества;

· в стандарте заложена возможность использования различных семантических схем, словарей и т.п.

· определœен механизм, позволяющий извлечь информацию из описания, использующего нестандартные расширения пространства имен;

· стандарт получает всœе более широкое распространение в мировом сообществе.

Словарь типов DCMI представляет собой общий междисциплинарный список одобренных терминов, которые могут использоваться в качестве значений для элемента Resource Type, идентифицируя жанр ресурса. Спецификация базовых структурных значений DCMI (Dubin Core Structured Values (DCSV)) предназначена для записи значений атрибутов на таких языках разметки, как HTML и XML.

Наиболее крупной попыткой создания универсального каталога научных информационных ресурсов, осуществляемой на основе стандарта Дублинского ядра метаданных, следует признать проект Навигационной системы по информационной ресурсам государственной системы научно-технической информации. В данный каталог, в отличие от многих, существующих в Интернете, включены не только сетевые ИР, но и локальные, в том числе распространяемые на переносимых носителях.

Основная модель описания ИР строится на основе Дублинского ядра, в значительной степени расширенного. В частности, описание ИР в этой системе сопровождает достаточно подробное описание владельца ИР – юридического или физического лица.

Основные типы ресурсов, описываемые в этой системе - ϶ᴛᴏ электронные коллекции документов, в том числе базы данных, сайты или разделы сайтов, электронные библиотеки и периодические электронные издания, ГИС, специальные массивы научно-экспериментальных данных. Отдельные документы в этой системе не каталогизируются, чтобы избежать дублирования с другими известными каталогами и базами данных ГСНТИ. По состоянию на конец 2004 ᴦ. в Навигационной системе представлено более 4 тыс. описаний ресурсов, свыше 1 тыс. юридических и 2 тыс. физических лиц - владельцев и создателœей ресурсов. Формат описания ресурсов в этой системе и краткие пояснения к правилам заполнения отдельных полей приводится ниже.

Наименование ИР. Обязательный элемент. Допускается до 4 значений.

Приводится наименование информационного ресурса, отражающее его основное назначение. Официальное наименование ресурса приводится первым. Первое значение приводится на русском языке. В случае наличия принятого сокращения наименования ресурса оно приводится вторым. В качестве дополнительных могут приводиться перевод полного и сокращенного наименований ИР на английский язык.

В случаях подготовки описания ИР, поименованного в соответствующем нормативном документе (нормативно-правовой документ, задание на проведение НИР, грант и т.п.), крайне важно приводить это наименование.

Описание. Обязательный элемент. Допускается несколько значений.

Описание содержимого ИР приводится в виде краткого реферата͵ в котором следует использовать основные термины, характеризующие ресурс. Объем реферата не должен превышать 1000 знаков. При описании сложных ИР (сайт крупной организации, банк данных, включающий множество баз данных) допустимо расширение объема реферата до 2000 знаков.

Описание ресурса должно начинаться с указания типа ресурса, за исключением случаев, когда он определяется из названия. Желательно приводить вид информации ресурса в зависимости от типа ресурса (тип баз данных для БД и т.п.). Далее приводится сокращенное изложение содержания: тема, тематика, предмет ИР, назначение, структура и состав ИР, в том числе: наименование базовых полей для БД, разделы сайта (при описании сайта в целом), при описании его отдельных разделов - принадлежность описываемого ресурса к конкретному сайту; основные функции, возможности навигации по описываемому ИР.

В случае вторичной информации целœесообразно указывать наличие первоисточников.

Далее приводится сокращенное изложение содержания: тема, тематика, предмет ИР, назначение, структура и состав ИР, в том числе: наименование базовых полей для БД, разделы сайта (при описании сайта в целом), при описании его отдельных разделов - принадлежность описываемого ресурса к конкретному сайту; основные функции, возможности навигации по описываемому ИР.

Допускается приведение фрагментов описаний, взятых из альтернативных источников в виде отдельных значений поля.

Владелœец ресурса. Обязательный элемент. Допускается несколько значений.

Приводится полное официальное наименование юридического лица (организации, учреждения, государственного органа, предприятия, общественной или иной организации) или физического лица – владельца ИР. Допускается запись наименования в виде, приведенном на документе, являющемся исходным для формирования описания ИР. В случае наличия официально заверенного источника информации наименование должно совпадать с указанным при регистрации заявителя.

Для физических лиц приводится в виде: Фамилия Имя Отчество.

Создатель ресурса. Необязательный элемент. Допускается несколько значений.

Приводится полное официальное наименование юридического лица или физического лица, несущего первичную ответственность за создание ИР. Допускается запись наименования в виде, приведенном на документе, являющемся исходным для формирования описания ИР. В случае наличия официально заверенного источника информации наименование должно совпадать с указанным при регистрации заявителя. Для физических лиц приводится в виде: Фамилия Имя Отчество.

Соисполнитель. Необязательный элемент. Допускается несколько значений.

Приводится наименование лица, внесшего вклад в создание или публикацию ИР. Те же требования, что и для предыдущего элемента.


Читайте также


  • - Dublin Core

    GEM IMS Изучение российских и международных стандартов форматов для учета при организации обмена данными между различными источниками В ходе выполнения работы по данному разделу проанализированы существующие стандарты метаданных, предназначенные для... [читать подробенее]