Текст книги "Исторические информационные системы: теория и практика"
Автор книги: Динара Гагарина
Жанр: Прочая образовательная литература, Наука и Образование
сообщить о неприемлемом содержимом
Текущая страница: 5 (всего у книги 16 страниц) [доступный отрывок для чтения: 5 страниц]
2.4. XML-разметка текстов и исторические системы
Обеспечение доступа к историческим источникам – важная задача развития информационной инфраструктуры гуманитарных наук. С одной стороны, размещение источников в сети – залог успешного выполнения этой задачи, а с другой – формирование единой информационной среды зависит от качества создаваемых ресурсов и используемых методов, среди которых технологии XML-разметки имеют существенное значение, расширяя функциональные возможности систем.
XML – это язык глубокой разметки текстов, предназначенный для решения широкого круга задач: программной обработки документов; описания, структурирования, хранения и передачи данных; их отображения для просмотра пользователями. Разметка представляет собой набор тегов, позволяющих выделить элементы текста и его внешние особенности для компьютерной идентификации и сортировки информации. В частности, XML-разметка позволяет придавать унифицированные значения сущностям в тексте.
XML используется для того, чтобы размечать тексты согласно исследовательским или пользовательским задачам, в которых уровни разметки, смысловая нагрузка и дробность текстовых единиц могут быть различными. Все размеченные единицы текста семантически могут быть объединены в единую сеть. В этом заключается одно из ключевых удобств и преимуществ XML. Исследователи отмечают обширные возможности XML в повышении информационной отдачи исторических источников [Nellhaus, 2001; Варфоломеев, Иванов, 2006; Варфоломеев, Иванов, 2013].
Использование языка разметки XML в современных историко-ориентированных информационных системах сводится к решению следующих основных задач:
• обеспечение поиска информации, повышение эффективности навигации по данным;
• создание единой коллекции документов или взаимосвязанных коллекций на основе стандартизированных структур и описания;
• решение определенных научно-исследовательских задач при изучении источника;
• создание единого пространства исторических источников, развитие гуманитарной составляющей Semantic Web.
Применение XML-разметки возможно по отношению к метаописанию объектов, что широко используется в современных системах репрезентации исторических источников разных типов.
XML-разметка предоставляет широкие возможности для работы с машиночитаемыми текстовыми источниками. Уровни разметки зависят от назначения и цели ее использования и могут быть следующими:
1) разметка метаданных источников;
2) разметка структуры текстовых источников для создания сложных электронных публикаций;
3) разметка отдельных наборов ключевых слов и иных смысловых и формальных структурных элементов в тексте – маркировка географических объектов, персоналий, дат, событий и т. д.;
4) глубокая разметка и выделение смысловых единиц для решения определенных научно-исследовательских задач и расширения возможностей использования источников.
Развитие информационных технологий позволяет использовать при реализации проектов все уровни разметки одновременно.
В историко-ориентированных информационных системах XML-раз метка используется для обозначения метаданных, к которым в том числе относятся: сведения, позволяющие идентифицировать источник или коллекцию (данные об авторе, происхождении, историческом периоде, типе источника и т. д.); структурные метаданные, отображающие взаимосвязи и отношения элементов информационной системы; метаданные административного характера, отображающие сведения об основных процессах (например, об архивировании и хранении данных в системе и т. д.). XML позволяет оперировать размеченными данными, структурировать и извлекать необходимую информацию посредством запросов. При этом текстовые источники, представленные в системе, могут не являться машиночитаемыми и быть опубликованными в форматах изображений, т. е. в таких случаях обработке на основе XML подвергаются только метаданные. Разметка метаданных позволяет структурировать информацию для ее эффективной обработки, поиска, хранения и передачи.
Наборы метаданных источников в историко-ориентированных информационных системах могут быть краткими или расширенными. Детализированная разметка метаданных предоставляет, соответственно, более широкие возможности для последующего поиска необходимых пользователю ресурсов. Использование XML-разметки при структурировании метаданных не всегда означает ее применение в самих текстах опубликованных источников. Так, в проекте The Early Americas Digital Archive[24]24
Th e Early Americas Digital Archive [Электронный ресурс]. URL: http://eada.lib. umd.edu (дата обращения: 27.03.2020).
[Закрыть], посвященном публикации документов по ранней американской истории (1492–1820-е годы), в качестве метаданных источников размечены авторство, предметно-тематическая рубрика, принадлежность к временному периоду, географическая принадлежность, жанр, тип текстового источника и форма. При этом тексты источников также опубликованы в машиночитаемом формате на сайте проекта (и реализован контекстный поиск), но сами тексты не размечены дополнительно с помощью XML.
Широкие возможности для использования имеют информационные системы с XML-разметкой текстов публикуемых источников.
В настоящее время многие текстовые источники, в особенности рукописные, представляются преимущественно в форматах изображений. Это связано и с необходимостью репрезентации внешнего вида источника, и с затратностью распознавания и транскрибирования текста. Представление текстовых источников исключительно в форматах изображений несет массу ограничений: поскольку они не идентифицируются как текст, то, соответственно, не могут быть обработаны на содержательном уровне компьютеризированными методами. В связи с этим возникает необходимость разнопланового представления данных – в качестве текста (в совокупности его содержательных особенностей, слоев и смысловых уровней) и изображения источника. Современные информационные системы позволяют представить документы в многоформатном отображении; для решения этой задачи используется XML.
Разметка особенностей текстовых источников на основе XML позволяет в более полной мере передать аутентичный характер источника. Многие источники имеют слабоструктурированный характер, поэтому их публикация в традиционных для цифрового мира форматах (как, например, HTML) несет существенные ограничения. Использование XML-разметки для публикации текстовых источников имеет значительные преимущества перед традиционными типами электронной публикации ввиду возможностей репрезентации комплексного характера источников. Использование языка XML в историко-ориентированных информационных системах позволяет повысить качество представления цифровых версий документов. Разметка структуры документов (заголовков, абзацев, строк и других элементов текста), особенностей синтаксиса и морфологии позволяет максимально полно представить многослойность источника без потери информативности.
На данный момент реализовано множество проектов публикации текстовых источников с использованием XML-разметки, в том числе информационная система, посвященная актовым книгам судов Великого княжества Литовского[25]25
LDK Teismų knygų [Электронный ресурс]. URL: http://www.teismuknygos.mb.vu.lt (дата обращения: 10.07.2020).
[Закрыть], которые хранятся в библиотеке Вильнюсского университета [Тимченко, 2013]. Другим крупным проектом публикации транскрибированных рукописных источников является «Манускрипт. Древние славянские памятники»[26]26
Манускрипт. Древние славянские памятники [Электронный ресурс]. URL: http://manuscripts.ru (дата обращения: 10.07.2020).
[Закрыть].
Создатели электронных публикаций ориентируются на пользователя, выбирая формы представления текстовых источников, максимально соответствующие оригиналу или отредактированные в разной степени для расширения возможностей его прочтения менее подготовленной аудиторией. XML позволяет представить один и тот же источник в разной степени редактирования. Примером такого подхода является проект публикации цифровых версий документов Medieval Nordic Text Archive[27]27
Medieval Nordic Text Archive [Электронный ресурс]. URL: http://clarino.uib. no/menota/document-element (дата обращения: 10.07.2020).
[Закрыть], в котором представленные документы кодированы несколькими уровнями разметки. Факсимильная разметка предполагает представление документа максимально близко к тексту источника; дипломатическая – означает изменения, внесенные в текст для облегчения прочтения документа; в нормализованной версии текста полностью обновлена орфография.
Использование разметки XML в кодировании текстов рукописных источников связано с возможностями этого языка в обработке столь специфичных документов, поскольку рукописные источники часто отличаются многослойностью. XML является эффективным инструментом представления всей совокупности информационных пластов исторического источника. К многослойным документам могут относиться как палимпсесты или рукописи, которые с течением времени дополнялись и изменялись внесением поправок, так и иные источники, например музыкальные нотные альбомы, содержащие информацию музыкального характера (совокупность строк и знаков – сами ноты, нотный стан и т. д.) и текстовую информацию. Технология XML позволяет эффективно учесть и извлечь источниковую информацию. Это подтверждают существующие информационные системы, содержащие источники указанного типа, например проект TheDanish National Digital Sheet Music Archive[28]28
The Danish National Digital Sheet Music Archive // The Royal Danish Library [Электронный ресурс]. URL: http://www.kb.dk/en/nb/samling/ma/digmus (дата обращения: 27.03.2020).
[Закрыть].
Электронная публикация рукописных источников имеет дополнительные сложности, связанные с разнообразием языков и диалектов, различными способами написания, вариативностью шрифтового оформления и иными особенностями. Фиксация этих источниковых особенностей в электронной версии может быть успешно осуществлена с помощью инструментария XML. В качестве иллюстрации подобного рода многоязычных электронных коллекций можно привести информационный ресурс, посвященный арабским рукописям, Arabic Manuscripts Online[29]29
Arabic Manuscripts Online [Электронный ресурс]. URL: http://wamcp.bibalex. org (дата обращения: 27.03.2020).
[Закрыть]. В информационной системе представлено более 12 тыс. рукописей и 4 тыс. печатных книг на 43 языках. Достоинством этой системы является транскрибирование фрагментов текстов источников на основе XML-разметки (в основном это заголовки, некоторые ключевые слова и персоналии), а также представление оригинального арабского текста и его транскрипции на латинице.
XML-разметка позволяет связывать и семантику текстов. Самый простой уровень – разметка ключевых слов, в первую очередь географических объектов и персоналий. Такой подход дает возможность поисковой системе вывести полный список документов, в которых упоминается искомое ключевое слово. В случае с персоналиями – возможность найти документы с инвариантными написаниями имени одного человека. Примером информационной системы, в которой в документах размечены географические объекты и персоналии, является проект The Fuggerzeitungen[30]30
The Fuggerzeitungen. An early modern informative medium and its indexing [Электронный ресурс]. URL: http://fuggerzeitungen.univie.ac.at (дата обращения: 01.08.2018).
[Закрыть], посвященный рукописному периодическому изданию раннего Нового времени в Европе. Информационная система, созданная при реализации этого проекта, позволяет видеть различные форматы отображения источников, а также их размеченный электронный текст. Схема разметки включает информацию о персоналиях и географических объектах. Часть схемы разметки, посвященной персоналиям, содержит прямые и непрямые указания на конкретные личности из газет, а также сведения о них – даты жизни, другие имена (в случае смены имени), титулы, сферы деятельности. Элементы разметки географических объектов обозначают названия стран и регионов, рек, озер, гор, городов и районов всей Римской империи. На основе размеченных текстов удалось создать регистры персоналий и географических объектов, упоминающихся в источниках. XML-разметка позволила объединить элементы (в том числе персоналии и географические объекты) независимо от написания и языка источника. Таким образом, данная информационная система способна формировать по результатам поисковых запросов списки источников с упоминанием необходимых элементов.
Многие исторические информационные системы объединяют различные по типу источники и используют в структуре разметки более разнообразные сущности, как, например, проект Founders Online[31]31
Founders Online [Электронный ресурс]. URL: http://founders.archives.gov (дата обращения: 22.03.2020).
[Закрыть], посвященный отцам-основателям США и выполненный при сотрудничестве различных архивов, академических учреждений и правительственных организаций Соединенных Штатов Америки. В основе информационной системы проекта ― текстовые исторические источники, размеченные на основе XML. Схема разметки содержит разнообразные элементы, описывающие персоналии, географические объекты разных типов, даты и временные характеристики события и другие элементы. Разметка текстов обеспечивает широкие возможности поиска по коллекции документов, связывая тексты по общности характеристик и упоминаемым элементам (в том числе персоналиям, географическим объектам и т. д.). Однако не все опубликованные источники размечены с одинаковой степенью глубины. Проект является продолжающимся, и в состав системы периодически добавляются новые текстовые источники, обеспечивая работу проекта в режиме work-in-progress. По состоянию на март 2020 г. в информационную систему введено более 183 тыс. документов. Чтобы обеспечить работу со всеми источниками, в том числе и с теми, которые находятся на ранней стадии обработки и аннотирование которых продолжается, было принято решение открыть к ним предварительный доступ (Early Access). Работа с такими документами осуществляется через специально разработанное веб-приложение Document Compass. Архитектура информационной системы Founders Online основана на платформе управления данными MarkLogic, а также использует приложения для индексации и обработки текстового контента, размеченного на основе XML. Поисковая система способна реализовывать многозадачные запросы для получения релевантной выгрузки.
Стандартизация тегов разметки метаданных и текстов исторических источников является ключевым вопросом для обеспечения устойчивости, долговременности и эффективности развития гуманитарной информационной среды в целом и историко-ориентированных информационных ресурсов в частности. В этом плане важную роль играет консорциум TEI (Text Encoding Initiative)[32]32
Консорциум TEI был создан в 1997 г. и имел целью разработать формат обмена данными для использования его в гуманитарных науках. См.: TEI P5: Guidelines for Electronic Text Encoding and Interchange / ed. by L. Burnard, S. Bauman. S. l., 2010. Последняя версия TEI P5 с Руководством версии 4.0.0 размещена онлайн; URL: http://www.tei-c.org/release/doc/tei-p5-doc/en/html/ index.html (дата обращения: 27.03.2020).
[Закрыть], основная цель функционирования которого – развитие и поддержка стандарта представления текстов в цифровой форме, а также помощь создателям электронных ресурсов в кодировании текстов методом глубокой разметки по единому стандарту, разработанному TEI. Этот консорциум включает различные организации, в числе которых издательства, университеты, а также индивидуальных ученых, использующих и развивающих стандарт TEI в гуманитарной сфере.
Целесообразность использования единого стандарта описания (с 2007 г. действует Руководство версии TEI P5) связана с тем, что исследователи и разработчики проектов по разметке текстов, с одной стороны, могут пользоваться стандартными элементами разметки и при необходимости добавлять отсутствующие теги в стандарт TEI, а с другой – при использовании единого стандарта становится принципиально возможным интегрирование данных различных корпусов (проектов) и обмен ими.
На сайте консорциума TEI доступен список проектов, выполненных с помощью разметки по стандарту TEI[33]33
Projects Using the TEI [Электронный ресурс]. URL: http://www.tei-c.org/ Activities/Projects (дата обращения: 27.03.2020).
[Закрыть]. Значительная доля этих проектов является историко-ориентированными ресурсами. Среди них, например, проект Menota (Medieval Nordic Text Archive), посвященный норвежским рукописям[34]34
Menota (Medieval Nordic Text Archive) [Электронный ресурс]. URL: http:// clarino.uib.no/menota/page (дата обращения: 27.03.2020).
[Закрыть]; CELT Project: TheCorpus of Electronic Texts[35]35
CELT Project: The Corpus of Electronic Texts [Электронный ресурс]. URL: http://www.ucc.ie/celt (дата обращения: 24.03.2020).
[Закрыть]; Chronicling America, связанный с американскими газетами 1836–1922 гг.[36]36
Chronicling America [Электронный ресурс]. URL: http://chroniclingamerica. loc.gov (дата обращения: 24.03.2020).
[Закрыть], и др.
В рамках инициативы TEI развиваются также и специализированные стандарты, связанные с описанием исторических источников одного типа. Таким стандартом является TheCharters Encoding Initiative (CEI)[37]37
The Charters Encoding Iniciative (CEI) [Электронный ресурс]. URL: http:// www.cei.lmu.de (дата обращения: 24.03.2020).
[Закрыть] – стандарт описания средневековых хартий, интегрированный в TEI. Основой для стандартизированного описания хартий стал разработанный словарь соответствия терминов для этих документов, написанных на французском, немецком, английском, итальянском, латинском и испанском языках[38]38
The Vocabulaire International de la Diplomatique / ed. by M. Milagros Cárcel Ortí. 2а ed. Valéncia, 1997.
[Закрыть]. Для представления хартий была создана информационная система Monasterium.net (МОМ)[39]39
MOM [Электронный ресурс]. URL: https://www.monasterium.net/mom (дата обращения: 20.03.2020).
[Закрыть], объединяющая 664 372 хартии из 182 европейских учреждений хранения (преимущественно архивов) и регулярно пополняемая новыми источниками. Размещение хартий на портале сопровождается созданием краткой аннотации, в которой отражаются библиографические и архивоведческие данные о документе и его история. XML-разметка аннотации предполагает дублирование каждого размеченного элемента на национальном (по принадлежности документа к учреждению хранения) и английском языках. Информационная система MOM включает встроенный XML-редактор EditMOM для обработки и разметки документов в режиме онлайн. Веб-приложение EditMOM позволяет пользователю работать с несколькими слоями документа одновременно и наряду с изображением иметь доступ к размеченному тексту источника, а также размечать тегами или редактировать (транскрибировать) текст документа.
Структура разметки, используемой при обработке и публикации исторических источников, может содержать как элементы археографического описания, так и расширенную информацию об источнике, его особенностях, состоянии, форме и содержании, а также сведения об электронной текстовой версии и другие данные. Элементы с идентификаторами (id, name и др.) в структуре тега фиксируют персоналии и географические места, упоминаемые в тексте документов. Например, при анализе указателей к стенографическим отчетам с применением XML-разметки [Поврозник, 2018] использовались теги с идентификаторами, в том числе для связывания персоналий со всеми разделами данных о деятельности каждого депутата во всех сессиях созыва Государственной Думы начала XX в. Структура тега с идентификатором персоны выглядит так:
<deputy id=”370”><deputiname>Свешников, Михаил Иванович</ deputiname>.
Идентификаторы позволяют, например, объединить все упоминания о деятеле в источнике, а также одинаковые по смыслу, но варьирующиеся по написанию значения. Такая унификация на основе тегов является основой для более полного поиска по всей совокупности документов системы.
Отдельная группа элементов разметки может описывать работу над электронным документом, даты его изменений и историю (как, например, сведения о новых тегированных данных)[40]40
Подробнее о CEI и разметке средневековых хартий см.: Burkard B., Vogeler G., Gruner S. Informatics for Historians: Tools for Medieval Document XML Markup, and their Impact on the History-Sciences // Journal of Universal Computer Science. 2007. Vol. 14. № 4. P. 193–210 [Электронный ресурс]. URL: http://www. jucs.org/jucs_14_2/informatics_for_historians_tools/jucs_14_2_0193_0210_ burkard.pdf (дата обращения: 20.03.2020).
[Закрыть]. Группа вспомогательных тегов используется для корректного отображения факсимиле источников в браузере, по аналогии с обычным представлением HTML-документов[41]41
Documentation EditMOM // MOM [Электронный ресурс]. URL: http:// monasterium.net/mom/editmom-documentation (дата обращения: 20.03.2020).
[Закрыть].
Использование разметки XML по единым стандартам способствует более активному развитию Semantic Web в плане наполнения семантическими публикациями исторических источников. Несмотря на массу средств и технологических решений, созданных для Семантической паутины, XML является одним из наиболее простых в использовании [Варфоломеев, Иванов, 2013].
Кроме электронных публикаций, XML востребован и для анализа текстов источников. Одним из направлений является компьютерная лингвистика и использование XML-разметки текстов при изучении языка и его развития, когда с помощью XML обозначаются морфологические и синтаксические признаки единиц текста (могут быть размечены как отдельные буквы и символы, так и их совокупности, а также слова, словосочетания, предложения и т. д.). Другой областью применения XML является текстометрический анализ, используемый в гуманитарных исследованиях.
В исторических информационных системах также применяется XML для анализа текстов. При этом системы имеют разные возможности и инструментарий для работы с историческими источниками. Так, на портале «Парламентская история позднеимперской России»[42]42
Парламентская история позднеимперской России [Электронный ресурс]. URL: http://parliament.psu.ru (дата обращения: 20.03.2020).
[Закрыть] опубликованы размеченные на основе XML указатели к стенографическим отчетам Государственной Думы начала XX в. Схема разметки разработана для изучения деятельности парламентариев (рис. 2.6) и анализа динамики развития указателей как исторического источника (рис. 2.7). Информационная система предоставляет доступ к размеченным файлам с возможностью их скачивания и дальнейшего анализа.
Для анализа, обработки данных и публикации источников, тексты которых размечены с помощью XML, требуется дополнительное программное обеспечение. Многие программные продукты для этих целей являются коммерческими. Однако в Лионском университете (Франция), в лаборатории ICAR, была разработана платформа TXM с открытым кодом[43]43
Projet Textométrie [Электронный ресурс]. URL: http://textometrie.ens-lyon.fr (дата обращения: 27.08.2018); см. также: Lavrentiev A., Heiden S., Decorde M. Analyzing TEI encoded texts with the TXM platform // The Linked TEI: Text Encoding in the Web. TEI Conference and Members Meeting 2013. Rome, Italy, 2013 [Электронный ресурс]. URL: http://halshs.archives-ouvertes.fr/ halshs-01118120 (дата обращения: 20.03.2020).
[Закрыть]. Данная платформа является программным обеспечением, предназначенным для работы в наиболее распространенных операционных системах (Windows, Mac OC X, Linux), а также поддерживает онлайн-публикацию источников при помощи веб-навигаторов с возможностью контроля доступа к ресурсам и их редактированию. Платформа TXM имеет широкие возможности для проведения текстометрического анализа текстов источников.
Рис. 2.6. Пример организации данных по деятельности парламентариев на основе XML-разметки указателей к стенографическим отчетам
Рис. 2.7. DTD-документ показывает структуру размеченных на основе XML указателей к стенографическим отчетам Государственной Думы I–IV созывов начала XX в.
Другие информационные системы интегрируют исследовательский инструментарий и источники и позволяют оперировать возможностями разметки. Так, в Ланкастерском университете (Великобритания) разработана платформа Corpus Query Processor для работы с созданными корпусами текстов[44]44
CQPWEB [Электронный ресурс]. URL: https://cqpweb.lancs.ac.uk (дата обращения: 20.03.2020).
[Закрыть]. Платформа содержит опубликованные корпусы текстов на различных языках, среди которых как национальные, так и специализированные корпусы, в том числе исторические (в первую очередь это совокупность корпусов периодической печати Великобритании с XVIII в. по настоящее время). Часть корпусов исторических текстов размечена на основе XML. Инструментарий платформы обеспечивает поиск по контексту с выбором необходимых метаданных, а также предоставляет широкие возможности для анализа текстов по заданной структуре разметки.
Развитие информационного пространства исторических источников и использование единых стандартов XML-разметки являются важной основой формирования гуманитарной семантической сети информационных ресурсов. Объединение создаваемых ресурсов – вопрос будущего, однако наработки в этом направлении свидетельствуют об эффективности и ценности такого подхода. Таким инструментом является Fawcett Toolkit [Robertson, 2009] – свободно распространяемая компьютерная программа для агрегирования исторических данных, размеченных на основе XML, и их визуализации в виде карт, таймлайнов и анимаций. Fawcett Toolkit агрегирует XML-теги, использованные редакторами ресурсов по действующему стандарту TEI P5. Таким образом, программа позволяет выявлять разнообразные ресурсы, размеченные общими тегами, в том числе персоналии, географические объекты, исторические события, даты и т. д.
Развитие Semantic Web и использование XML-разметки в исторических исследованиях открывают возможности для более глобальных научных изысканий, связанных с Data Mining [Meroño-Peñuela, Ashkpour, van Erp, Mandemakers, Breure, Scharnhorst, Schlobach, van Harmelen, 2014].
Таким образом, использование языка разметки XML при создании информационных систем позволяет учитывать содержание, структуру и иерархию текста; фиксировать различные прочтения и интерпретации источниковой информации; эффективно работать с многослойными текстовыми источниками; сделать заметной для машины ту информацию, которую историк считывает на интуитивном уровне, между строк. Использование разметки XML обеспечивает широкие возможности для обработки текстов, представления документов и анализа информации; позволяет повысить эффективность информационной отдачи источников, углубить представление об их информационном потенциале, получить скрытую для анализа традиционными методами источниковую информацию.
Внимание! Это не конец книги.
Если начало книги вам понравилось, то полную версию можно приобрести у нашего партнёра - распространителя легального контента. Поддержите автора!Правообладателям!
Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.Читателям!
Оплатили, но не знаете что делать дальше?