Реферат: кластерный анализ и метод горной кластеризации

Методы решения задач распознавания

Для
построения решающих правил нужна
обучающая выборка. Обучающая выборка – это множество
объектов, заданных
значениями признаков и принадлежность которых к тому или иному классу
достоверно известна «учителю» и сообщается учителем обучаемой
системе. По обучающей выборке система строит решающие правила. Качество
решающих правил оценивается по контрольной (экзаменационной) выборке, в
которую
входят объекты, заданные значениями признаков, и принадлежность которых
тому
или иному образу известна только учителю. Предъявляя обучаемой системе
для
контрольного распознавания объекты экзаменационной выборки, учитель в
состоянии
дать оценку вероятностей ошибок распознавания, то есть оценить качество
обучения. К обучающей и контрольной выборкам предъявляются определённые
требования

Например, важно, чтобы объекты экзаменационной выборки не
входили в
обучающую выборку (иногда, правда, это требование нарушается, если
общий объём
выборок мал и увеличить его либо невозможно, либо чрезвычайно сложно)

Обучающая
и экзаменационная выборки
должны достаточно полно представлять генеральную совокупность
(гипотетическое
множество всех возможных объектов каждого образа).

Итак,
для построения решающих правил
системе предъявляются объекты, входящие в обучающую выборку.

4.2 Алгоритм BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies)

Дивизимная
группа методов характеризуется последовательным разделением исходного
кластера,
состоящего из всех объектов, и соответствующим увеличением
числа кластеров. В начале работы алгоритма все объекты принадлежат
одному кластеру, который на последующих шагах делится на меньшие
кластеры, в результате
образуется последовательность расщепляющих групп.

В
этом алгоритме предусмотрен двухэтапный процесс кластеризации.

Назначение:
кластеризация очень больших наборов числовых данных. Ограничения:
работа с только числовыми данными. Достоинства:
двухступенчатая кластеризация, кластеризация больших объемов данных,
работает
на ограниченном объеме памяти, является локальным
алгоритмом, может работать при одном сканировании входного
набора данных, использует тот факт, что данные неодинаково распределены
по
пространству, и обрабатывает области с большой плотностью как единый
кластер. Недостатки: работа с только числовыми данными,
хорошо выделяет только кластеры сферической формы,
есть необходимость в задании пороговых значений.

Описание
алгоритма []:

Фаза
1. Загрузка данных в память.

Построение
начального кластерного дерева (CF Tree) по данным (первое сканирование
набора данных) в памяти;

Подфазы
основной фазы происходят быстро, точно, практически нечувствительны к
порядку.

Алгоритм
построения кластерного дерева (CF Tree):

Кластерный
элемент представляет из себя тройку чисел (N, LS, SS), где N –
количество
элементов входных данных, входящих в кластер, LS – сумма
элементов входных данных, SS – сумма квадратов элементов
входных данных.

Кластерное
дерево – это взвешенно сбалансированное дерево с двумя
параметрами: B –
коэффициент разветвления, T – пороговая величина. Каждый
нелистьевой узел дерева имеет не более чем B
вхождений узлов следующей формы: , гд i = 1, 2,
…, B; Childi – указатель на i-й дочерний узел.

Каждый
листьевой узел имеет ссылку на два соседних узла. Кластер состоящий
из элементов листьевого узла должен удовлетворять следующему условию:
диаметр или радиус полученного кластера должен быть не более пороговой
величины T.

Фаза
2 (необязательная).
Сжатие (уплотнение) данных.

Сжатие
данных до приемлемых размеров с помощью перестроения и уменьшения
кластерного дерева с увеличением пороговой величины T.

Фаза
3. Глобальная кластеризация.

Применяется
выбранный алгоритм кластеризации на листьевых компонентах кластерного
дерева.

Фаза
4 (необязательная). Улучшение кластеров.

Использует
центры тяжести кластеров, полученные в фазе 3, как основы.

Перераспределяет
данные между «близкими» кластерами. Данная фаза гарантирует
попадание одинаковых данных в один кластер.

Работа — потенциальная сила

Потенциальными называются силы, работа которых зависит только от начального и конечного положения движущейся материальной точки или тела и не зависит от формы траектории. При замкнутой траектории работа потенциальной силы всегда равна нулю. К потенциальным силам относятся силы тяготения, силы упругости, элект-ростатические силы и некоторые другие.

Закон сохранения механической энергии вытекает из (2.48), если входящую в его правую часть работу потенциальных сил выразить через изменение потенциальной энергии. Отметим, что работу внешних потенциальных сил можно оставить в явном виде в правой части (2.56), но под механической энергией системы Е в этом случае следует понимать сумму кинетической энергии и потенциальной энергии только взаимодействия частиц системы друг с другом.

Силы, работа которых не зависит от формы пути, называются потенциальными, или консервативными. При отсутствии сил трения работа потенциальных сил, совершаемая при перемещении тела по произвольной замкнутой траектории, равна нулю.

Рассмотрим замкнутую механическую систему, взаимодействие между телами которой осуществляется с помощью потенциальных сил. В силу замкнутости системы работа потенциальных сил определяет изменение потенциальной энергии системы. Поскольку тела системы под действием этих сил находятся в состоянии движения относительно одного из тел, с которым связана система отсчета, то работа потенциальных сил определяет также изменение кинетической энергии системы.

Потенциальная энергия количественно определяется через работу потенциальных сил. Рассмотрим, например, некоторое тело в однородном поле тяжести Земли, которую из-за ее большой массы будем считать неподвижной.

Этот результат выражает основное свойство потенциального силового поля. Более точно можно сказать, что работа потенциальной силы зависит лишь от того, с какой поверхности уровня и на какую перемещается точка.

Следовательно, работа потенциальной силы равна разности значений силовой функции в конечной и начальной точках пути и от вида траектории движущейся точки не зависит. При перемещении по замкнутой траектории U2Ui и работа потенциальной силы равна нулю.

Следовательно, численно сила в потенциальном поле больше там, где поверхности уровня проходят гуще. Отмеченные свойства позволяют наглядно представить картину распределения сил в потенциальном силовом поле с помощью поверхностей уровня. Кроме того, как видно из равенства ( 57), работа потенциальной силы зависит в конечном счете только от того, с какой поверхности уровня и на какую происходит перемещение точки.

Рассмотрим замкнутую механическую систему, взаимодействие между телами которой осуществляется с помощью потенциальных сил. В силу замкнутости системы работа потенциальных сил определяет изменение потенциальной энергии системы. Поскольку тела системы под действием этих сил находятся в состоянии движения относительно одного из тел, с которым связана система отсчета, то работа потенциальных сил определяет также изменение кинетической энергии системы.

ВВ и силы рг на перемещении DD одинаковы, так как равны Cs — CV Но поскольку DD: ВВ, то должно быть F Ft. Следовательно, величина силы в потенциальном поле больше там, где поверхности уровня проходят гуще. Отмеченные свойства позволяют наглядно представить картину распределения сил в потенциальном силовом поле с помощью поверхностей уровня. Кроме того, как видно из равенства ( 57), работа потенциальной силы зависит в конечном счете только от того, с какой поверхности уровня и на какую происходит перемещение точки.

ВВ и силы / 2 на перемещении DD одинаковы, так как равны С2 — GI. Следовательно, величина силы в потенциальном поле больше там, где поверхности уровня проходят гуще. Отмеченные свойства позволяют наглядно представить картину распределения сил в потенциальном силовом поле с помощью поверхностей уровня. Кроме того, как видно из равенства ( 57), работа потенциальной силы зависит в конечном счете только от того, с какой поверхности уровня и на какую происходит перемещение точки.

Центральные поля

Рассмотрим силы, действующие на расстоянии: гравитационное взаимодействие и электростатическое взаимодействие. При таком взаимодействии на тело действуют силы в различных точках пространства. Любое распределение физической величины по разным точкам пространства называется полем. Будем рассматривать поля силы, то есть векторные поля. Векторные поля удобно иллюстрировать силовыми линиями (см. рис. 2).

Рис. 2. Силовые линии

Силовая линия – это такая линия, касательная к которой в каждой точке совпадает с направлением действия силы. Например, в данной точке пространства (см. рис. 3) сила, действующая на тело, направлена вдоль силовой линии.

Рис. 3. Направление силы в выбранной точке пространства

Плотность силовых линий, то есть количество силовых линий, приходящихся на единичную поперечную площадку, пропорционально величине силы, то есть модулю вектора. Ближе к центру количество силовых линий, приходящихся на единичную площадку, большое (см. рис. 4), то есть величина силы, действующая на тело, большая.

Рис. 4. Большая плотность силовых линий

Чем дальше отходить от центра, тем меньше эта величина силы (см. рис. 5).

Рис. 5. Меньшая плотность силовых линий

Такие поля могут быть потенциальными. В потенциальном поле необходимо так расположить силы, чтобы при движении тела по некоторому замкнутому контуру полная работа оказывалась равной 0. В основном центральные поля (см. рис. 2) являются потенциальными. Центральныеполя – это поля, в которых силы расположены сферически симметрично по отношению к некоторому центру (см. рис. 2), а величина этой силы (плотность силовых линий) зависит только от расстояния до центра. В центральных полях работа по замкнутому контуру всегда равна 0.

Но не все силовые поля могут быть потенциальными. Рассмотрим пример силового поля, изображённого силовыми линиями (см. рис. 6), которое не является потенциальным.

Рис. 6. Силовое поле

В верхней области поля силовые линии проходят густо, это означает, что сила большая (см. рис. 7).

Рис. 7. В данной области действует большая сила

В нижней области силовые линии проходят редко (см. рис. 8) – следовательно, здесь сила маленькая.

Рис. 8. В данной области действует меньшая сила

Если перенести некоторое пробное тело по пунктирному контуру, то, двигаясь по верхней части этого контура (см. рис. 9), нужно совершать большую механическую работу, потому что в этой области сила большая.

Рис. 9. Движение в области с большей силой

Двигаясь по вертикальным частям этого контура, никакую механическую работу совершать не будем, потому что направление действия силы и перемещение тела будут перпендикулярны , а  (см. рис. 10), поэтому механическая работа равна 0.

Рис. 10. Вертикальное движение

Работа по переносу тела по нижней части этого контура имеет знак, противоположный работе в верхней области контура, перемещение одинаково, а сила в этой области меньшая, следовательно, суммарная работа по переносу тела по этому контуру не равна 0. В таком поле невозможно ввести понятие потенциальной энергии.

4.1 Алгоритм CURE (Clustering Using REpresentatives)

При
иерархической кластеризации выполняется последовательное объединение
меньших
кластеров в большие или разделение больших кластеров на меньшие [].

Агломеративная
группа
методов характеризуется последовательным объединением исходных
элементов и соответствующим уменьшением числа кластеров. В начале
работы алгоритма все объекты являются
отдельными кластерами. На первом шаге наиболее похожие
объекты объединяются в кластер. На последующих шагах объединение
продолжается
до тех пор, пока все объекты не будут составлять один кластер.

Алгоритм
CURE выполняет
иерархическую кластеризацию с использованием набора определяющих точек
для определения объекта в кластер. Назначение:
кластеризация очень больших наборов числовых данных. Ограничения:
эффективен для данных низкой размерности, работает только на числовых
данных. Достоинства: выполняет кластеризацию на высоком
уровне даже при наличии выбросов, выделяет кластеры
сложной формы и различных размеров, обладает линейно зависимыми
требованиями к
месту хранения данных и временную сложность для данных
высокой размерности. Недостатки: есть
необходимость в задании пороговых значений и количества кластеров.

Описание
алгоритма []:

Шаг 1. Построение дерева кластеров, состоящего из каждой
строки входного набора данных.

Шаг 2. Формирование «кучи» в оперативной памяти, расчет
расстояния до ближайшего кластера (строки
данных) для каждого кластера. При формировании кучи кластеры
сортируются по
возрастанию дистанции от кластера до ближайшего кластера.
Расстояние между кластерами определяется по двум ближайшим
элементам из соседних кластеров. Для определения расстояния между
кластерами используются «манхеттенская»,
«евклидова» метрики
или похожие на них функции.

Шаг
3. Слияние ближних кластеров в один кластер. Новый
кластер получает все точки входящих в него
входных данных. Расчет расстояния до остальных кластеров для
новообразованного
кластера. Для расчета расстояния кластеры делятся на две группы:
первая группа – кластеры, у которых ближайшими кластерами
считаются кластеры, входящие в новообразованный кластер, остальные
кластеры –
вторая группа. И при этом для кластеров из первой группы,
если расстояние до новообразованного кластера меньше
чем до предыдущего ближайшего кластера, то ближайший кластер меняется
на
новообразованный кластер. В противном случае ищется новый ближайший
кластер, но при этом не берутся кластеры, расстояния
до которых больше, чем до новообразованного кластера. Для кластеров
второй
группы выполняется следующее: если расстояние до
новообразованного кластера ближе, чем предыдущий ближайший
кластер, то ближайший кластер меняется. В противном случае ничего не
происходит.

Шаг
4. Переход на шаг 3, если не получено требуемое
количество кластеров.

Работа силы тяжести при движении тела по криволинейной траектории

Мы получили выражение для работы силы тяжести такое же, как в случае вертикального движения тела. Можно сделать вывод: если траектория тела не является прямолинейной и тело движется под действием силы тяжести, то работа силы тяжести определяется только изменением высоты тела над некоторым нулевым уровнем и не зависит от траектории движения тела.

Рис. 3. Движение тела по криволинейной траектории

Докажем предыдущее утверждение. Пусть тело движется по некоторой криволинейной траектории (см. Рис. 3). Эту траекторию мысленно разбиваем на ряд малых участков, каждый из которых можно считать маленькой наклонной плоскостью. Движение тела по всей траектории можно представить как движение по множеству наклонных плоскостей. Работа силы тяжести на каждом из участков будет равна произведению силы тяжести на высоту данного участка. Если изменения высот на отдельных участках равны , то работы силы тяжести на них равны:

Полная работа на всей траектории равна сумме работ на отдельных участках:

Так как

 – полная высота, которую преодолело тело,

То

Таким образом, работа силы тяжести не зависит от траектории движения тела и всегда равна произведению силы тяжести на разность высот в исходном и конечном положениях. Что и требовалось доказать.

При движении вниз работа положительна, при движении вверх – отрицательна.

Ссылка на основную публикацию