Семантическая модель описания почв и почвенная информационная система (2012)

Научные статьи по почвоведению и наукам о Земле
Ответить
Аватара пользователя
Ортштейн
Администратор форума
Сообщения: 63
Зарегистрирован: Сб фев 23, 2013 5:28 pm

Семантическая модель описания почв и почвенная информационная система (2012)

Сообщение Ортштейн » Пн ноя 12, 2018 7:45 pm

Ссылка для цитирования: Выделить всё

Иванов А.В., Рыбальский Н.Н. Семантическая модель описания почв и почвенная информационная система // Использование и охрана природных ресурсов в России. — 2012. — Т. 2, № 122. — С. 55–64.
УДК 004.942

СЕМАНТИЧЕСКАЯ МОДЕЛЬ ОПИСАНИЯ ПОЧВ И ПОЧВЕННАЯ ИНФОРМАЦИОННАЯ СИСТЕМА


Иванов А.В., доктор биологических наук, в.н.с. кафедры географии почв факультета почвоведения МГУ им. М.В. Ломоносова;
Рыбальский Н.Н., аспирант кафедры географии почв факультета почвоведения МГУ им. М.В. Ломоносова


Ключевые слова:
Почвенная информационная система, база данных, почва, принцип квантования, формализация, модель, семантическая, минимальная информационная почвенная единица, цифровая, форма хранения, квант, показатель, метод, значение, объект, хранилище.


Аннотация:
В статье описан принцип квантования почвенной информации и предложен метод описания почвенных данных и передачи почвенной информации, не зависящий от формы хранения данных. Показано применение семантической модели описания почв в виде почвенной информационной системы описания предметной области – почвоведения, позволяющей связать свойства почв с объектами, из которых состоит почвенное тело, в единую систему, обеспечивая взаимодействие между ними при помощи формальной логики на базе набора определенных алгоритмов.



Введение

Расширение спектра возможностей получения почвенных данных, обусловленное развитием современных цифровых методов, основанных на применении информационных технологий (ИТ), приводит к острой необходимости разработки почвенных информационных систем (ИС). Исследование современного состояния российских и зарубежных разработок в области использования ИТ для работы с почвенными данными показало, что наиболее актуальными являются почвенные ИС третьего поколения, в которых присутствуют три компонента: реляционные базы данных (БД), геоинформационные системы (ГИС) и использование сети Интернет (Иванов, Сафрошкин, Рыбальский, 2008).

На данный момент известно несколько десятков региональных систем, более 10 почвенных ИС национального уровня – (Australian Soil Resource Information System, Австралия; National Soil Information System, США и др.), а также несколько мультинациональных и глобальных систем (European Soil Database, Европа; Soils and Terrain Digital Databases, глобальная почвенная ИС и др.) (Finke, 2001; Brough, 2006; van Engelen, 1996). В 70-80-х гг. XX в. российскими почвоведами был внесен существенный вклад в разработку общих идей построения почвенных ИС на первом этапе – разработке атрибутивных баз данных (Рожков, 1983, 1989). Несмотря на повышение интереса к подобным разработкам (Белоусова, Мешалкина, 2009; Крыщенко, Голозубов, 2010), в РФ до сих пор не существует актуальной действующей почвенной ИС (Рожков и др., 2010), поэтому одной из важнейших задач является создание отечественной системы.

Невзирая на стремительное развитие зарубежных почвенных ИС, все еще остается актуальной проблема сохранения первичного смысла исходной информации о почвах при переводе почвенной информации из текстового, «бумажного» формата в электронную форму. Эта проблема является следствием слабо проработанной модели описания предметной области и для ее решения необходимо создание системы формализации разнородных почвенных данных, отражающей в себе все многообразие почвенных объектов и свойств почвы, и позволяющей избежать искажения получаемой информации, слабой масштабируемости и трудоемких ручных приемов работы. Кроме того, формализация связана с решением фундаментальной проблемы математизации почвоведения (Рожков, 2007) – отсутствием класса моделей, позволяющих включить в активное использование специфические почвенные категории и понятия.


Обзор почвенных ИС

Чтобы определить параметры и требуемые ресурсы для разработки отечественной системы, было проанализировано более двух десятков зарубежных почвенных ИС различного масштаба. Выявлено, что концепция проекта SOTER, основанная на связи атрибутивных и геоинформационных БД (Столбовой, Савин, 1996), сейчас де-факто является международным стандартом и большинство существующих почвенных ИС выполнено по методологии SOTER. Несмотря на это, основополагающая часть SOTER – атрибутивная БД почвенных свойств, имеет серьезные недостатки. Вот лишь некоторые из них: использование упрощенной модели данных (описывается только два объекта – профиль и горизонт); указание методов только для части показателей; использование дополнительного (промежуточного) шифрования; ограниченность возможностей использования формально-логического аппарата выборки и операций с данными; слабая масштабируемость (ограниченность имеющегося и потенциально возможного списочного состава показателей); неэффективность при работе с системой нескольких пользователей; отсутствие единого системного подхода и, как следствие, возврат к ручным методам работы с данными.

Кроме этих недостатков есть более глубокая проблема – существующая процедура преобразования аналоговых (визуально доступных) форм хранения в цифровую (электронную) и обратная операция восстановления из электронных форм в визуальную, приводит к потерям и искажению информации. Это основная проблема существующих систем: модели хранения данных в электронных формах основаны не на внутренних закономерностях и связях между понятиями предметной области, а частными практическими задачами. Отсюда ограниченность и узость набора показателей, используемых в конкретном исследовании и проектируемой для этого системы.

Сведенные вместе, эти недостатки складываются в две важнейшие проблемы - проблему моделей описания почв и проблему формализации описательного языка предметной области.


Анализ модельных представлений о почвах

Установлено, что недостаток модельных представлений о почвах вызван сложностью физической интерпретации аргументов-факторов почвообразования и что создание почвенных ИС тесно связано с решением фундаментальной проблемы – созданием класса моделей, соединяющих предметную составляющую почвоведения с формально-логической. Символьное определение почвы, данное В.В. Докучаевым, является первой постановкой проблемы математического описания почвы (Докучаев, 1899). Спустя 40 лет, подход Г. Йенни позволил осуществить переход к частным физико-математическим моделям описания свойств почв (Jenny, 1941). В конце 70-х гг. ХХ в. Т.Г. Гильманов попытался вернуть почвенное содержание в физико-математическое моделирование с помощью системного подхода и провел анализ уравнения Докучаева с точки зрения его использования в моделировании при помощи ЭВМ (Гильманов, 1977). В 2003 г. А. МакБратни модифицировал уравнение Докучаева, добавив в него пространственное расположение почвенного профиля, представил его как систему уравнений и заложил его в основу концепции цифрового почвенного картографирования (ЦПК) (McBratney, 2003).

Таким образом, анализ модельных представлений дал возможность выявить три основные группы почвенных моделей – классификационные, физико-математические и информационные, являющиеся наиболее современными и представляющие собой смесь физико-математических и классификационных моделей.

Классификационные модели оперируют категориями и понятиями, имеющими смысловое значение почвенных объектов. Формализация в таких моделях преимущественно сводится к какому-либо методу кодирования или шифрования с целью сжатия и сокращения потоков передаваемой информации. Почва в них описывается в виде вербальных модельных объектов – классов, а процессы и факторы – в форме вербальной логики высказываний. Примером таких моделей являются различные классификации почв.

Физико-математические модели, в отличие от классификационных, работают с категориями и понятиями, имеющими смысл показателей свойств почвенных объектов; объект упрощается. Этот класс моделей позволяет привлекать широкий спектр математических методов исследования, однако в используемый математический аппарат практически невозможно включить специфические показатели и понятия, используемые при изучении почв. В этих моделях фокус внимания сосредоточен на взаимосвязи показателей, а объект в его естественном виде заменяется упрощенным представлением об объекте.

В информационных моделях фокус внимания сосредоточен на объектах – почвенном профиле и горизонте; эти модели представляют собой симбиоз классификационных и физико-математических моделей. Основанные на использовании ИТ, они позволяют описывать почву с любой степенью точности и преодолевать основные недостатки описанных выше классов моделей, что дает возможность выявить количественные и качественные взаимосвязи между свойствами почв и почвенными объектами. Такие модели позволяют сохранить семантику почвенных категорий и понятий, создать единый алгоритм их описания и использования.


Принцип квантования

Анализ процессов информационного обмена данными, содержащимися в почвенных описаниях – основном способе записи и хранения фактических материалов изучаемой предметной области, показывает, что элементарный акт обмена информацией состоит из передачи однотипного набора вербальных утверждений (рис. 1):

- объект o характеризуется значением v показателя i, определенного методом m, где o, i, m и v – конкретные имена и термины предметной области.
soil-scheme.jpg
Рис. 1. Семантика элементов структуры утверждения в почвоведении

В качестве примера рассмотрим текстовой фрагмент описания почвенного разреза: “В горизонте АЕL дерново-подзолистой глееватой почвы обильно представлены железисто-марганцевые конкреции размером 1-2 мм. Этот горизонт характеризуется следующими значениями: pHводн. – 4,0; pHсолев. – 3,2” (Апарин и др., 2007).

Этот фрагмент содержит информацию о следующих именах: 4 объектах – почве, почвенном горизонте, железо-марганцевых конкрециях, образце; 8 показателях – наименовании почвы, индексе почвенного горизонта, новообразованиях, обилии новообразований, нижней границе размеров новообразований, верхней границе размеров новообразований, pH водной и солевой суспензий; 8 значениях – дерново-подзолистая, AEL, обильно, железо-марганцевые конкреции, 1, 2, 4,0, 3,2; 7 методах – согласно Классификации почв (2004), Справочнику индексов почвенных горизонтов (2004), классификации видов новообразований, справочнику обилия новообразований, авторский метод, потенциометрический метод, метод не указан.

Использование обычных наименований для структурных элементов o, i, m, v (табл. 1) позволяет превратить общую формулу информационного утверждения в конкретное осмысленное выражение простой подстановкой текстовых фрагментов из ячеек таблицы. Например, “объект почвенный горизонт характеризуется значением AEL показателя индекс горизонта, определенного методом согласно справочнику индексов почвенных горизонтов (2004)” или “значение 1 мм показателя нижняя граница размеров новообразований, определенное авторским методом принадлежит объекту железо-марганцевые конкреции”.
Таблица 1.
Информационный разбор текстового фрагмента почвенного описания

Объект Показатель Метод Значение
Почва Наименование почвы По Классификации почв (2004) Дерново-подзолистая глееватая
Почвенный горизонт Индекс горизонта По Справочнику индексов почвенных горизонтов (2004) AEL
Морфологический элемент Новообразования По Классификации видов новообразований Железо-марганцевые конкреции
Морфологический элемент Обилие новообразований По Справочнику обилия новообразований Обильно
Почвенный горизонт Нижняя граница размера новообразований Авторский 1
Почвенный горизонт Верхняя граница размера новообразований Авторский 2
Образец pH водной суспензии Потенциометрический 4,0
Образец pH солевой суспензии Не указан 3,2

Таким же образом возможно представить любое описание характеристик предметной области, что позволяет сформулировать принцип квантования: информация предметной области формулируется и передается в дискретной форме, имеющей однородную структуру содержательных элементов и отношений между ними.

Конкретное смысловое значение (семантика) элементов структуры каждого утверждения определяется предметной областью. Будем формально записывать конструкцию этих высказываний с помощью набора четырех элементов [o, i, m, v], а сами утверждения назовем минимальной информационной единицей предметной области – Umin=[o, i, m, v].


Семантическая модель описания почвы

Рассмотрим базовые понятия:

- показатель свойства почвы – именованное понятие, характеризующее какое-либо свойство объекта и раскрывающее физический смысл показателя свойства почвы (например, для профиля это могут быть географические координаты, классификационное положение, микрорельеф; для почвенного горизонта – цвет, индекс горизонта, гранулометрический состав);

- метод определения значения показателя свойства почвы – именованный способ определения значения показателя свойства почвы (одному показателю могут соответствовать несколько методов, например, для показателя географических координат могут быть следующие методы: с использованием GPS, топографической карты, GoogleEarth и т.д.; для показателя SiO2 в почве: гравиметрический, фотометрический, атомно-абсорбционный и др.);

- значение показателя свойства почвы – именованное понятие, выражающее интенсивность проявления или степень выраженности показателя свойства почвы (например, значения показателя географических координат по методу «с использованием GPS» – 55.69167 37.53433, «с использованием Google Earth» – 55°45′20.83″ с. ш., 37°37′03.48″ в. д.);

- почвенный объект – именованная часть или элемент иерархического строения почвы, характеризуемая каким-либо показателем как условно однородная часть почвенного тела. Модель предусматривает следующее разделение объектов: профиль и горизонт являются аксиоматическими объектами (т.е. объектами, наличие которых является необходимым условием описания почвы), а морфон, конкреция и т.д. – дуальными или порождаемыми объектами (т.е. объектами, которые иногда могут встретиться при описании аксиоматических объектов).

Рассматривая подходы, которые используют почвоведы, описывая свою предметную область, весьма удобно использовать иерархию пространственной вложенности условно однородных элементов строения почвы: профиль → горизонт → морфологический элемент в двух вариантах: уровня профиля – ProfileID, HorizonID, ElementID, где конкретные объекты обозначаются уникальными числовыми значениями идентификаторов; и в форме прямого уровневого описания иерархического дерева объектов (ObjectID), где вложенные элементы описываются системой идентификаторов (ParentOID), ссылающихся на идентификатор родительского объекта (таб. 2).
Таблица 2.
Иерархические уровни и типы почвенных объектов

             Объект
Уровень
C P H L M E S
LevelID=0 Разрез
LevelID=1 Профиль - - - - -
LevelID=2 - Горизонт Слой Морфон - -
LevelID=3 - - - - Морфологический элемент Образец

В обоих случаях каждый объект характеризуется дополнительным индексом, указывающим на различие объектов, находящихся на одном и том же координатном уровне или ветви вложенности (ObjectTypeID). Подобная структура обеспечивает возможность отчуждения (независимости существования) аксиоматических и порождаемых объектов.

Согласно смысловому значению, имена этих элементов можно объединять в группы и говорить о соответствующих пространствах и подпространствах:

- пространство почвенных объектов – множество категорий и понятий, характеризующих пространственное строение почвенного тела – с учетом специфики его изучения можно выделить: профили, горизонты, морфологические элементы и образцы при изучении вертикального строения почвы; площадные (контуры, полигоны), линейные (трансекты, катены) и точечные элементы (разрезы, профили), используемые при географическом изучении почв.

- пространство почвенных показателей – множество категорий и понятий, отражающих смысл, степень проявления и метод определения значения свойств почв – его составляют: показатели свойств почв, их значения и методы определения значений показателей.

Пространство почвенных показателей может быть выражено с помощью индексированного показателя свойства почвы – формализованного описания характеристики почвенного объекта, который состоит из трех числовых индексов (IndicatorID, MethodID, ValueID), через которые устанавливается связь с содержательным смыслом показателей, методов и значений, описанным и зафиксированным в форме метаописаний в соответствующих таблицах реляционной БД (indicator, method, value).

В основу формализации подобных пространств заложена индексация – метод упорядочения и установления связей между информационными объектами с использованием индексов. Чаще всего индексирование подразумевает однонаправленную задачу – нахождение объекта по его индексу и наоборот. Вторая функция индексации, кроме упорядочения, – установление реляционных отношений между индексируемыми объектами по одинаковым индексам. Индексация пространства объектов и показателей позволяет создать «хранилище», содержащее глобальные индексы (рис. 2).

soil-semantics.jpg
Рис. 2. Семантическая модель описания почв

Для эффективной работы с хранилищем данных необходима возможность ввода данных, их обработки и извлечения информации. Данные приобретают смысл только тогда, когда субъект способен восстановить их исходные связи и взаимоотношения. Можно выделить статические связи – это постоянные связи, существующие между данными и динамические связи – это связи, возникающие между данными при обращении к ним. Статические связи существуют всегда, динамические – возникают как результат обращения к данным – запроса. При этом сами данные и статические связи между данными были и остаются неизменными. Динамически меняется состав запроса, в результате которого на выходе появляется интерпретация результата запроса – информация. Выявление постоянных, устойчивых связей между явлениями природы – центральный вопрос научного естествознания.

Таким образом, несмотря на различные возможности представления и визуализации почвенных данных, они всегда имеют постоянную четкую структуру (табл. 3).
Таблица 3.
Структура почвенного описания при разных способах представления данных

Форма Объект Показатель Метод Значение
Вербальная Почвенный горизонт Индекс горизонта Согласно Справочнику индексов
 почвенных горизонтов
AEL
Обобщенная o i m v
Формализованная 2 31 4 13
Хранилище ObjectID IndicatorID MethodID ValueID/Value

Центральное понятие семантической модели описания почвы – минимальная информационная почвенная единица (SUmin) – наименьший однородный набор информационных элементов, связывающий пространство почвенных показателей и почвенных объектов. Можно определить минимальную информационную почвенную единицу как однородный информационный элемент, состоящий из индексированного показателя свойства почвы и типа почвенного объекта:
SUmin = [IndicatorID, ValueID, MethodID, ProfileID, HorizonID, ElementID, ObjectTypeID]), где
SUmin – наименьшая однородная по составу и структуре порция данных, в совокупности необходимая и достаточная для того, чтобы пользователь данных мог или сформулировать определенный информационный вывод или сделать запрос о каком-либо единичном свойстве какого-либо единичного почвенного объекта с максимальной логической достоверностью - SUmin=true [истина] или SUmin=false [ложь], т.е. она играет роль своеобразного кванта почвенной информации, которым описывается многообразие почвенных тел. Ее внутренняя структура связывает категории пространств почвенных показателей и объектов: с одной стороны, позволяя по значению показателя восстановить объект, к которому относится показатель или, наоборот, по объекту восстановить показатели, которыми характеризуется данный объект; а с другой стороны, позволяет описывать почвенное тело как множество однородных элементов с формальными правилами и языком, определяемыми индивидуально для всей совокупности элементов SUmin⦗i⦘, выборки из SUmin⦗i⦘ и отдельных элементов внутренней структуры информационного кванта. Информационный (физический) смысл SUmin в том, что она фиксирует максимально полную информацию в минимальной однородной форме - как факте связи элементарного (единичного) объекта и элементарного (единичного) свойства объекта.

Использование минимальной информационной почвенной единицы для описания почвенного профиля S имеет простую математическую и географическую интерпретацию:

S = [ID, SUmin], где S – почва (счетное множество минимальных информационных единиц), идентификатор ID – номер элемента, SUmin – бесконечное множество натуральных чисел; или
S = [ID, IndicatorID, MethodID, ValueID, ProfileID, HorizonID, ElementID, ObjectTypeID].
В координатном представлении S – это массив индексированных показателей свойств почв, отбираемых из глобальной выборки SUmin⦗i⦘ по условию ProfileID=const, а в объектном – дерево многомерных ассоциативных массивов гетерогенных данных индексированных показателей свойств почв в индексированном пространстве почвенных объектов. Если в состав показателей уровня почвенного профиля включены известные географические координаты, то математический объект S представляет собой развернутое описание почвенного профиля в вертикальном направлении (в пространстве профильных осей почвенной системы координат) и точечный (пиксельный) элемент на географической карте (в пространстве географических осей координат). На основе разработанной концепции разработана инфологическая модель БД (рис. 3) и словарь терминов (см. интернет-ресурс http://open.soil.msu.ru).

soil-database.jpg
Рис. 3. Инфологическая модель почвенной БД

Разработка системы формализации почвенных метаданных

Для того чтобы описать отношения между объектами и показателями предметной области и структуру хранения данных, необходимо формализовать предметную область – провести перевод простейших почвенных утверждений, используемых при работе с почвенными данными, в формализованный эквивалент. Анализ свойств минимальной информационной единицы показывает, что необходимым условием формализации предметной области, кроме использования разнообразной символики для обозначений понятий предметной области – семантики имен, является описание взаимоотношений между ними – семантики отношений. Подобная формализация отличается от «традиционной» формализации, когда понятиям присваивают индексы, тем, что в систему формализации включают метаданные (структурированные данные, представляющие собой характеристики описываемых сущностей для целей их идентификации, поиска, оценки и управления ими) с набором определений понятий, их способом хранения и их отношений между собой. С помощью метаданных возможно отдельно описать отношения между объектами и показателями предметной области и структуру хранения данных. Каждый показатель должен быть описан в виде индексированного показателя свойства почвы, каждому имени (термину, наименованию) должна соответствовать запись в таблице, содержащая определение и метаданные, позволяющие описать отношения этих имен между собой.

Однако невозможно создать эффективный механизм формализации языка почвоведения в среде визуальных форм хранения данных, это можно сделать только в БД с помощью метаданных, в которых описываются отношения между объектами и показателями предметной области, а также структура хранения данных. Были выделены две основные группы наборов атрибутов, раскрывающих и передающих смысловое содержание понятия в среде: с визуально доступными формами хранения и коммуникации (вербальная часть): Name – имя, краткий термин, наименование понятия; Description – полное описание понятия; Unit – единицы измерения, ValueSetName – имя значения показателя свойства почвы и т.д.; электронных форм хранения и коммуникации (метаданные): LevelID – идентификатор иерархического уровня показателя свойства почвы; ObjectTypeID – тип почвенного объекта; Multi – кратность использования значения показателя; MethodSet – идентификатор множества методов определения значения показателя; ValueSet – идентификатор множества значений показателя и т.д.

Разработка системы формализации включала в себя следующие этапы:

1) составление списка критериев для отбора показателей, методов, значений и объектов, используя драфт-версию списка формализованных показателей из дипломной работы (Рыбальский, 2008); результат этих работ – перечень метаданных для описания пространства почвенных показателей, методов, значений, объектов и вспомогательной информации; система формализации описана в 11 таблицах и включает 124 поля с описанием метаданных, ниже представлены таблицы по инфологическим блокам:

а) блок хранения измеренных почвенных данных, состоящий из четырех таблиц: r_data – таблица хранения ссылочных данных, n_data – целочисленных данных, f_data – дробных данных и c_data – символьных данных (фактически, это «хранилище» почвенных данных);

б) блок индексированных показателей свойств почв, состоящий из таблиц метаданных: показателей свойств почв – indicator, методов их определения – method и значений показателей свойств почв – value. Для примера в сокращенном виде приведена одна из таблиц (табл. 4).

Таблица 4.
Indicator – Таблица метаданных показателей свойств почв

Поле Описание Тип
IndicatorID Уникальный идентификатор показателя Integer(5)
Parent Ссылка на родительский идентификатор – организация иерархических зависимостей показателей в табл. indicator Integer(5)
Name Краткое наименование показателя – для организации пользовательских интерфейсов Char(100)
Description Подробное описание показателя Text
Unit Единица измерения – единицы измерения хранящихся в БД значений Char(18)
Property Краткое наименование свойства почвы, которое оценивает показатель Char(54)
LevelID Идентификатор иерархического уровня показателя - уровень организации морфологического строения профиля (профиль, горизонт, морфологический элемент и т.д.) Char(1)
ObjectType Тип почвенного объекта: P – профиль (LevelID=P), H – горизонт (LevelID=H), M –морфон (LevelID=M), S – образец (LevelID=M) и т.д. Char(1)
ViewForm Признак формы вывода значения показателя в БД – вспомогательное поле, используемое для организации форм ввода/вывода показателей: L, если значения показателя выводятся по одному в строку; S – по несколько в одну строку; T – таблицей; G – в нескольких вариантах Char(1)
Order Порядок вывода, вспомогательное поле, используемое для дополнительной организации порядка вывода списков показателей Integer(5)
Required Обязательность ввода. Вспомогательное поле. Показывает требования к вводу значения показателя в БД. 1 – обязательно, 0 – не обязательно Binary(1)
DataType Тип данных, используемый для хранения значений показателя: Integer – целочисленные данные, Float – дробные данные с плавающей запятой, Char – символьные данные Char(12)
ScaleType Тип шкалы, характеризующий множество значений показателя:  NM – номинальная, OR – ординальная, IN – интервальная, DF – разностей, RT – отношений или пропорций, AB – абсолютная шкала Char(2)
Multi Кратность использования показателя: сколько значений показателя используется при описании одного и того же почвенного объекта: 1 – одно значение; N – больше одного значения Char(1)
Input Метод ввода значения показателя: 0 – ссылочный для значений, перечисленных в таблице value, 1 – вводимый, если значения показателя вводятся корреспондентом Binary(1)
TableData Имя таблицы, в которой хранится значение показателя:  r_data – ссылочных данных, перечисленных в value; n_data – целочисленных данных, вводимых корреспондентом;  f_data – дробных данных, вводимых корреспондентом; c_data – символьных данных, вводимых корреспондентом Char(6)
Symbol Символьный код показателя – название поля показателя при генерации данных в табличной форме (из символов, входящих в англоязычные термины соответствующих величин с ограничением на длину не больше 8 символов) Char(8)
MethodSet Идентификатор методов определения значения показателя – для организации связи между показателем и методами определения значения показателя, перечисленными в табл. method. Значение поля формируется из символьного кода показателя Symbol и следующего суффикса, добавляемого через символ подчеркивания: C – при прямой ссылке на справочник, классификатор или указатель значений, если для определения значения показателя используется один общепринятый метод; M – при необходимости предварительного выбора одного из нескольких методов определения значения показателя; А – для любых иных вариантов методов Char(10)
ValueSet Идентификатор набора ссылочных значений показателя – предназначен для организации связи между показателем и набором значений показателя, перечисленных в табл. Value (значение поля формируется из символьного кода показателя Symbol и суффикса V, добавляемого через символ подчеркивания, если метод ввода значения показателя определен как 1 – вводится, то поле принимает значение NULL) Char(10)
TagName Имя тега в DTD-шаблоне XML-документа описания почвенных данных – для обеспечения обмена почвенными данными между разными приложениями Char(30)
OnOff Указатель использования текущей записи – для подключения или отключения использования показателя в БД Binary(1)

в) блок почвенных объектов, состоящий из таблиц почвенных профилей – profile и почвенных объектов – object и реализующий иерархические отношения в виде метаданных, что позволяет уменьшить количество таблиц в модели и вводить сколько угодно иерархических объектов;

г) блок источников почвенных данных, представленный таблицей источников данных – source, в которой указаны характеристики источника данных, например: название публикации, издания, год публикации и т.д;

д) блок пользователей, состоящий из таблицы пользователей – user, которая описывает характеристики пользователей системы (например, статус пользователя: администратор, корреспондент, эксперт, обычный пользователь) и необходимый для реализации модели в открытой системе, использующей Интернет;

2) составление пространств почвенных показателей и объектов, их формализация и унификация – для разработки подпространства показателей были использованы списки методов, показателей и значений показателей, составленные В.М. Колесниковой, на основе которых, после некоторой доработки (добавление новых показателей и исправления ошибок) был создан формализованный массив, описывающий все показатели, методы, значения и объекты атрибутивной части почвенной БД – около 300 показателей, 600 методов и 2100 индексированных значений;

3) апробация созданной системы формализации при помощи данных, предоставленных сотрудниками Почвенного института им. В.В. Докучаева;

4) проведение дополнительных работ по формализации данных и адаптации форматов и почвенной терминологии с используемыми за рубежом, которые показали, что разработанная процедура формализации работает на основе универсального алгоритма, не зависящего от принадлежности формализуемого показателя к той или иной национальной или научной школе.

Таким образом, работая в рамках создания почвенно-географической базы данных (ПГБД) России, разрабатываемой факультетом почвоведения МГУ им. М.В. Ломоносова и Почвенным институтом им. В.В. Докучаева (Колесникова, Алябина и др., 2010), была проведена работа по переводу показателей, методов и значений, предлагаемых для ПГБД в формализованный массив, описывающий все показатели, методы, значения и объекты атрибутивной части почвенной БД. Формализация позволяет использовать естественный научный язык для описания почв без необходимости символьного кодирования и шифрования. Формализация также включала в себя унификацию формализованных понятий, что позволило уменьшить количество разнородных интерпретаций одного и того же свойства почвы.

Проведенная формализация позволяет дать почвенному профилю простую математическую интерпретацию: почвенный объект – ассоциативный массив показателей. Тогда почвенный профиль – дерево ассоциативных массивов показателей свойств почв в пространстве почвенных объектов или дерево многомерных ассоциативных массивов гетерогенных данных индексированных показателей свойств почв в индексированном пространстве почвенных объектов:
S = P + H + E = [pi] + [hj,k] + [en,k,l],
где:
P = [pi] – одномерный массив показателей уровня почвенного профиля (i=1,…,iP);
H = [hj,k] – двумерный массив показателей уровня почвенного горизонта (j=iP+1,…,jH, k=1…N, N – количество горизонтов);
E = [en,k,l] – трехмерный массив показателей уровня почвенного морфологического элемента (n= jH+1,…,jE, k=1,…,N, l=1,…,L, L – количество морфологических элементов).

Для того чтобы проводить логико-математические операции в пределах всех описанных понятий предметной области – множеством показателей, методов, значений и объектов, а также данных, содержащихся в хранилище, была разработана почвенная атрибутивная БД, которая, как уже было замечено, является единственным возможным способом реализации семантической модели предметной области.


Проектирование и создание основы почвенной ИС – атрибутивной БД

Проектирование БД происходило в три стадии: разработка инфологической модели (семантической модели предметной области), даталогической модели (создание схемы базы данных в виде набора схем отношений) и непосредственно реализация физической модели для конкретной СУБД. Инфологическая модель БД была разработана основываясь на понятии минимальной информационной почвенной единицы и других идеях семантической модели предметной области (см. рис. 2). В основу даталогической модели (рис. 4) положена блочная структура, состоящая из 6 блоков.

Каждый блок представляет собой набор характеристик, который описывает определенные модули БД: 1) блок хранения измеренных почвенных данных (базовые таблицы: r_data, n_data, f_data, c_data); 2) блок индексированных показателей свойств почв (табл.: indicator, method, value, object, profile, выходной параметр – идентификатор почвенного объекта (ObjectID); 3) блок источников почвенных данных (табл. source), блок пользователей (табл. user); 4) блок добавочных данных (табл.: images, commentary).

Даталогическая структура БД сконвертирована в физическую БД, работающую на основе системы управления базой данных (СУБД) MySQL. Запуск СУБД позволил начать тестирование БД, и в ходе тестирования был проведен ряд работ по апробации различных вариантов почвенных описания в рамках функционирующей БД, в результате чего были разработаны алгоритмы конвертации данных из устаревших почвенных ИС.

soil-database-scheme.jpg
Рис. 4. Схема атрибутивной части почвенной БД

Разработанная система позволяет осуществить ввод (рис. 5) и вывод (рис. 6) полноценного описания почвенного разреза в том же виде, в котором он существовал на бумажном носителе, что по сути является сохранением смысловых и логических связей между почвенными показателями и объектами.

soil-interface.jpg
Рис. 5. Интерфейс ввода почвенной карточки

Реализовано несколько способов вывода почвенных описаний – в виде традиционных карточек или же в виде таблицы MS Excel. Подобный способ вывода информации принципиально отличается от символизации в обычной форме, воспринимаемой без технических средств. Помимо этого, для визуализации профиля непосредственно из почвенных описаний, был разработан алгоритм, позволяющий генерировать схематический рисунок профиля, используя цвета горизонтов, занесенные в БД. Благодаря семантической модели описания предметной области, потери и искажения информации возможны только на этапе разбора текстов почвенных описаний и зависят от качества и полноты описания элементов, из которых собирается минимальная информационная почвенная единица. Контроль потерь и искажений определяется полнотой и точностью описания множеств значений элементов o, i, v, m. Гибкость системы обеспечивается сочетанием элементов глобального управления множествами i, v, m и возможностями настроек ввода-вывода под персональные потребности пользователя с сохранением всех возможностей глобальной системы; при этом алгоритм обработки данных и извлечения информации не изменяется при изменении состава индексированных показателей.

soil-card.jpg
Рис. 6. Фрагмент почвенной карточки, выведенной из БД

Еще одно достоинство системы – процесс гармонизации возможно выполнить принципиально новым способом. Разработанная модель позволяет в любой момент провести неоднократную гармонизацию измеренных данных (содержащихся в описаниях конкретных почвенных разрезов, т.е. полученных и обработанных авторами описаний), при этом полученные расчетные данные (полученные в результате любой обработки измеренных данных, например, при гармонизации) будут сохранены отдельно от исходных, благодаря чему система может быть заполнена ими из совершенно разных источников. Это позволяет использовать измеренные данные в дальнейшем, как для новой гармонизации по другим параметрам, так и для стат. обработки или же возвратиться к ним для уточнения информации, чего так не хватает в существующих почвенных ИС, где подобная функция крайне трудно реализуема в силу несовершенства модели БД.


Вывод картографической информации в Интернет

Работая над геоинформационной компонентой почвенной ИС, в Интернет была выведена карта почвенно-экологического районирования (ПЭР) России (М 1:2500000, под ред. Г.В. Добровольского и И.С. Урусевской). Также осуществлена возможность отображения карты административного деления РФ (М 1:1000000) и точек разрезов с GPS-координатами, добавленными в БД. Карты возможно просматривать как в традиционной конической равнопромежуточной проекции, так и в проекции Меркатора, совместно со слоем Google Maps. Интерактивная составляющая позволяет выводить как все слои одновременно, так и по отдельности, например, верхняя иерархическая единица – почвенная зона, представленная 16-ю основными контурами, может быть преобразована в отдельный слой с 67 почвенными провинциями. Подобный вывод картографической информации облегчает ее восприятие и обеспечивает комфортную образовательную и научную работу. Архитектура системы позволяет выводить информацию о почвах через SQL-запросы к атрибутивной почвенной БД, что соответствует функционалу зарубежных систем.

Стоит отметить, что структура пространственных данных отвечает принципу квантования информации, что в совокупности с разработанной семантической моделью описания предметной области – почвоведения, открывает возможности перехода к совершенно новым технологиям, таким как ЦПК, система вероятностной оценки точности данных, динамически изменяемые контуры почвенных ареалов и др.


Заключение

1) Основными недостатками имеющихся методов перевода почвенных данных из аналоговой в цифровую форму хранения и созданных на их основе атрибутивных почвенных баз данных являются: потеря части данных на этапе их ввода, искажение и неопределенность информации на этапах их обработки и вывода, и как следствие, возвращение исследователя к ручным методам работы с почвенными данными. Эффективность использования почвенных данных, хранимых в электронной форме, определяется моделью описания предметной области, основанной на использовании фундаментальных информационных закономерностей и связей, возникающих между понятиями предметной области, выражаемых их естественными именами, и позволяющих соединить предметную составляющую почвоведения с формально-логической. Показано, что электронные формы хранения данных в форме баз данных являются не только средством хранения формализованных почвенных данных, но и инструментом, позволяющим описывать закономерные отношения, возникающие и имеющие место в предметной области – почвоведении.

2) Сформулирован принцип квантования почвенной информации и предложен метод описания почвенных данных и передачи почвенной информации, не зависящий от формы хранения данных. Метод основан на использовании инвариантных свойств определенного в исследовании понятия – минимальной информационной почвенной единицы – SUmin. В визуальной среде хранения SUmin описывает отдельные единичные акты обмена почвенными данными набором вербальных утверждений: объект o характеризуется значением v показателя i, определенного методом m, где o, i, m и v – конкретные имена понятий и термины предметной области. В среде электронного хранения SUmin описывается с использованием метаданных – совокупностью специфических для электронной формы хранения данных и их спецификаций, дополняющих каждый вербальный элемент, связанный с ними в одном кортеже. Инвариантность SUmin проявляется в том, что она позволяет переходить из одной формы хранения данных к другой, используя эту дополнительную связь как однозначное отношение двух наборов данных [о, v, i, m] = [ObjectID, ValueID, IndicatorID, MethodID].

3) Разработана семантическая модель описания почвы, описывающая отношения, имеющие место в предметной области, как отношения между именами (терминами) базовых понятий предметной области – показателей, значений, методов определения значений показателей свойств почв, и характеризуемых ими почвенных объектов. Разработана и создана схема базы данных, реализующая семантическую модель описания почвы с раздельным описанием предметной области и хранилища почвенных данных. По единой унифицированной методике разработан и создан формализованный массив данных, описывающий предметную область и множество потенциально хранимых почвенных данных. Дана физическая интерпретация почвенных объектов.

4) Формализация, проведенная в рамках семантической модели описания почв, позволяет дать математическую интерпретацию описанию единичного почвенного объекта как ассоциированного массива значений показателей свойств почв, и почвенного профиля в целом – как дерева ассоциированных массивов значений показателей свойств почв в пространстве почвенных объектов:
S = P + H + E = [pi] + [hj,k] + [en,k,l],
Такая интерпретация позволяет легко устанавливать и выражать связи между любыми элементами строения почвы и показателями свойств почв через формальные логические отношения.

5) На основе концепции минимальной информационной почвенной единицы разработана почвенная ИС описания предметной области – почвоведения, которая объединяет в себе показатели, описывающие свойства почвы, с объектами, из которых состоит почвенное тело, в единую систему, обеспечивая взаимодействие между ними при помощи формальной логики на базе набора определенных алгоритмов, что теоретически позволяет работать с бесконечным множеством данных. Благодаря созданной процедуре формализации, разработанная почвенная ИС описания предметной области, реализованная в виде атрибутивной БД, позволяет переводить данные из текстовых почвенных описаний в электронную форму и восстанавливать их из электронной формы хранения в визуальную без потерь и искажения информации – точность авторского описания и полнота перевода определяется не техническими возможностями электронной формы хранения, а полнотой источника почвенного описания и контролируется полнотой метаданных, описывающих предметную область.


Литература

1) Иванов А.В., Сафрошкин В.Ю., Рыбальский Н.Н. Сетевые почвенные информационные системы и цифровые модели почв // Научный сервис в сети Интернет: решение больших задач: тр. Всеросс. научной конф. (22-27 сентября 2008 г., Новороссийск), 2008. – С. 448-450.
2) Finke P., Hartwich R., Dudal R., Ibàñez J., Jamagne M., King D., Montanarella L., Yassoglou N.. Georeferensced Soil Database for Europe. Manual of procedures. Version 1.1. – European Soil Bureau, 2001. – 166 p.
3) Brough D.M., Claridge J., Grundy M.J. Soil and landscape attributes: A report on the creation of a soil and landscape information system for Queensland. – Brisbane, Australia: Natural Resources, Mines & Water 2006. QNRM06186. – 80 p.
4) Van Engelen V.W.P., Wen T.T. Global and National Soils and Terrain Digital Databases (SOTER): Procedures Manual. International Soil Reference and Information Centre, 1995. – 126 p.
5) Рожков В.А. Автоматизированные информационно-поисковые системы в почвоведении. – М.: Изд-во Госстандарта, 1983. – 52 с.
6) Рожков В.А. Почвенная информатика. – М.: ВО «Агропромиздат», 1989. – 222 с.
7) Белоусова Н.И., Мешалкина Ю.Л. Методические аспекты создания почвенно-атрибутивной базы данных // Бюлл. Почвенного института им. В.В. Докучаева, 2009. Т. 64. – С. 23-33.
8) Крыщенко В.С., Голозубов О.М., Овчаренко М.М., Темников В.Н. База данных широкомасштабного почвенно-экологического мониторинга агроландшафтов: реляционный подход // Агрохимический вестник, 2010. № 1. – С. 12-16.
9) Рожков В.А., Алябина И.О., Колесникова В.М., Молчанов Э.Н., Столбовой В.С., Шоба С.А. Почвенно-географическая база данных России // Почвоведение, 2010. №1. – С. 3-6.
10) Рожков В.А. Тектологическая концепция почвоведения. Основные разделы отчета за 2007 г. по гранту РФФИ № 07-04-00248а., 2007. – 8 c.
11) Столбовой В.С., Савин И.Ю. Опыт использования технологий SOTER для создания цифровой базы данных почв и суши России // Почвоведение, 1996. №11. – С. 1295-1302.
12) Докучаев В.В. Доклад Закавказскому статистическому комитету об оценке земель вообще и Закавказья в особенности. Почвенные, горизонтальные и вертикальные зоны. – Тифлис, 1899. – 19 с.
13) Jenny H. Factors of soil formation. – N.Y.: McGraw-Hill, 1941. – 191 p.
14) Гильманов Т.Г. Интерпретация формул Докучаева и Йенни в терминах системного анализа // Вестн. Моск. ун-та. Сер. Почвоведение, 1977. № 3. – С. 32-39.
15) McBratney A.B., Mendoça Santos M.L., Minasny B. On digital soil mapping // Geoderma, 2003. 117 (1-2). – Pp. 3-52.
16) Апарин Б.Ф., Касаткина Г.А., Матинян Н.Н., Сухачева Е.Ю. Красная книга почв Ленинградской области. – СПб.: Аэроплан, 2007. – C. 231.
17) Классификация и диагностика почв России / Шишов Л.Л., Тонконогов В.Д., Лебедева И.И., Герасимова М.И. Смоленск: Ойкумена, 2004. – 342 с.
18) Рыбальский Н.Н. Разработка и создание сетевых информационных систем по почвоведению: дипломная работа. – М.: ф-т почвоведения МГУ, 2008. – 166 с.
19) Иванов А.В., Алябина И.О., Иванов С.А., Колесникова В.М., Рыбальский Н.Н., Сафрошкин В.Ю., Шоба С.А. Почвенно-географическая база данных: структура данных и метаданные (версия 1.0) // Доклады по экологическому почвоведению, 2010. Вып. 14. № 2. – С. 1-118.

Ссылка для цитирования: Выделить всё

Иванов А. В., Рыбальский Н. Н. Семантическая модель описания почв и почвенная информационная система // Использование и охрана природных ресурсов в России. — 2012. — Т. 2, № 122. — С. 55–64.

SEMANTIC MODEL OF SOIL DESCRIPTION AND SOIL INFORMATION SYSTEM


Ivanov A.V., Doctor of Biological Sciences, Senior Researcher of Department of Soil Geography, Soil Science Faculty, Moscow State University
Rybalskiy N.N., PhD student of Department of Soil Geography, Soil Science Faculty, Moscow State University


Key Words:
Soil Information System, database, soil, principle of quantum, formalization, semantiс, model, minimal soil information unit, digital, form of storage, quantum, indicator, method, value, object, storage.


Summary:
The purpose of this publication is to describe the soil information quantum principle and propose a new method of describing the soil data and soil data transmission which does not depend on the form of data storage. It was showed that the use of the soil description semantic model as the soil information system for the description of the subject area – soil science – makes it possible to combine the soils properties with the objects which make up the soil body into a single system, providing the interaction between them by means of a formal logic based on a set of the specific algorithms.

Ответить