[slides] Data Mining%3A Concepts and Techniques

**Cluster Analysis: Basic Concepts and Methods** - **Definition**: Cluster analysis groups data objects based on their similarity, aiming to produce high-quality clusters. - **Applications**: Used in various fields, such as biology for taxonomic classification. - **Quality Measures**: Clustering quality is assessed using dissimilarity or similarity metrics. - **Partitioning Approaches**: - **K-Means**: Minimizes the sum of squared distances to centroids. - **K-Medoids**: Uses medoids (data points) instead of centroids. - **CHAMELEON**: A hierarchical clustering method using dynamic modeling. - **OPTICS**: A cluster-ordering method that identifies clusters and outliers. - **DBSCAN**: Sensitive to parameters but effective for density-based clustering. - **STING**: A statistical information grid approach for continuous data. - **CLIQUE**: Automatically finds high-dimensional subspaces with high-density clusters. - **Density-Based Clustering**: Focuses on density-connected points. - **Link-Based Clustering**: Uses similarities based on links between objects. - **Aggregation-Based Similarity Computation**: Reduces computational complexity by aggregating similarities. - **SimRank**: Measures similarity between objects based on their linked objects. - **LinkClus**: Efficient clustering via heterogeneous semantic links. - **Quantization & Transformation**: Transforms data into a grid structure for better clustering. **References**: - D. Gibson, J. Kleinberg, and P. Raghavan. Clustering categorical data: An approach based on dynamic systems. In Proc. VLDB'98. - G. J. McLachlan and K.E. Bkasford. Mixture Models: Inference and Applications to Clustering. John Wiley and Sons, 1988.**Cluster Analysis: Basic Concepts and Methods** - **Definition**: Cluster analysis groups data objects based on their similarity, aiming to produce high-quality clusters. - **Applications**: Used in various fields, such as biology for taxonomic classification. - **Quality Measures**: Clustering quality is assessed using dissimilarity or similarity metrics. - **Partitioning Approaches**: - **K-Means**: Minimizes the sum of squared distances to centroids. - **K-Medoids**: Uses medoids (data points) instead of centroids. - **CHAMELEON**: A hierarchical clustering method using dynamic modeling. - **OPTICS**: A cluster-ordering method that identifies clusters and outliers. - **DBSCAN**: Sensitive to parameters but effective for density-based clustering. - **STING**: A statistical information grid approach for continuous data. - **CLIQUE**: Automatically finds high-dimensional subspaces with high-density clusters. - **Density-Based Clustering**: Focuses on density-connected points. - **Link-Based Clustering**: Uses similarities based on links between objects. - **Aggregation-Based Similarity Computation**: Reduces computational complexity by aggregating similarities. - **SimRank**: Measures similarity between objects based on their linked objects. - **LinkClus**: Efficient clustering via heterogeneous semantic links. - **Quantization & Transformation**: Transforms data into a grid structure for better clustering. **References**: - D. Gibson, J. Kleinberg, and P. Raghavan. Clustering categorical data: An approach based on dynamic systems. In Proc. VLDB'98. - G. J. McLachlan and K.E. Bkasford. Mixture Models: Inference and Applications to Clustering. John Wiley and Sons, 1988.

Data Mining: Concepts and Techniques (3rd ed.)

©2011 | Jiawei Han, Micheline Kamber, and Jian Pei