- 1
- 2
- 3
- . . .
- последняя »
ДЕРЖАВНА ПОДАТКОВА СЛУЖБА УКРАЇНИ
НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ ДЕРЖАВНОЇ ПОДАТКОВОЇ СЛУЖБИ УКРАЇНИРеферат
На тему: «Методи кластеризації: процедура Мак-Кина, метод К-методів, сітчасті методи»Ірпінь 2013
ВступКластерний аналіз (англ. Data clustering) - задача розбиття заданої вибірки об'єктів (ситуацій) на підмножини, що називаються кластерами , так, щоб кожен кластер складався з схожих об'єктів, а об'єкти різних кластерів істотно відрізнялися. Завдання кластеризації відноситься до статистичної обробки, а також до широкого класу завдань навчання без вчителя . Кластерний аналіз - це багатовимірна статистична процедура, яка виконує збір даних, що містять інформацію про вибірку об'єктів і потім упорядковує об'єкти в порівняно однорідні групи - кластери (Q-кластеризация, або Q-техника, власне кластерний аналіз).
Основна мета кластерного аналізу - знаходження груп схожих об'єктів у вибірці. Спектр застосувань кластерного аналізу дуже широкий: його використовують в археології, антропології, медицині, психології, хімії, біології, державному управлінні, філології, маркетингу, соціології та інших дисциплінах. Однак універсальність застосування привела до появи великої кількості несумісних термінів, методів і підходів, що утруднюють однозначне використання і несуперечливу інтерпретацію кластерного аналізу.
Формальне визначення кластеризації: Нехай- множина об'єктів,- множина номерів (імен, міток) кластерів . Задано функцію відстані між об'єктами . Є кінцева вибірка об'єктів . Потрібно розбити вибірку на непересічні підмножини, що називаються кластерами , так, щоб кожен кластер складався з об'єктів, близьких по метриці, а об'єкти різних кластерів істотно відрізнялися. При цьому кожному об'єктуприписується номер кластера.
Алгоритм кластеризації - це функція , яка будь-якому об'єктуставить у відповідність номер кластера. Множинав деяких випадках відома заздалегідь, проте частіше ставиться завдання визначити оптимальне число кластерів , з погляду деякого критерію якості кластеризації.
Кластерний аналіз виконує наступні основні завдання:
Розробка типології або класифікації .
Дослідження корисних концептуальних схем групування об'єктів.
Породження гіпотез на основі дослідження даних.
Перевірка гіпотез або дослідження для визначення, чи дійсно групи, виділені тим чи іншим способом, присутні в наявних даних.
Незалежно від конкретної сфери, застосування кластерного аналізу передбачає наступні етапи:
Відбір вибірки для кластеризації.
Визначення множини характеристик, по яких будуть оцінюватися об'єкти у вибірці.
Обчислення значень тієї чи іншої міри схожості між об'єктами.
Застосування одного з методів кластерного аналізу для створення груп схожих об'єктів. Перевірка достовірності результатів кластеризації.
Якщо кластерному аналізу передує факторний аналіз, то вибірка не потребує коректування - викладені вимоги виконуються автоматично самою процедурою факторного моделювання. В іншому випадку вибірку потрібно коректувати. Об'єднання схожих об'єктів у групи може бути здійснене різними способами. Саме для цього етапу існує цілий ряд методів:середніх (K-means) .
Мак-Кина.
Нечітка кластеризація C-середніх (C-means) .
Графові алгоритми
- 1
- 2
- 3
- . . .
- последняя »
Похожие работы
Интересная статья: Основы написания курсовой работы