Soft-Clustering - Von Heuristiken zu Approximationsalgorithmen

?berblick

Unter einem Clustering versteht man die Partitionierung einer Menge von Objekten in Gruppen, welche als Cluster bezeichnet werden. Die Berechnung eines guten Clusterings ist ein typisches Problem aus dem Bereich des maschinellen Lernens und des Data-Minings, das in zahlreichen Gebieten, z.B. der Datenkompression, Bild- und Mustererkennung, und der Signalverarbeitung, Anwendung findet. Eines der bekanntesten partitionierenden Clusteringprobleme ist das sogenannte K-Means Problem. In der Praxis ist es allerdings nicht immer sinnvoll jeden Datenpunkt eindeutig einem Cluster zuzuordnen. Deshalb wird bei sogenannten Soft-Clusterings jeder Datenpunkt zu einem gewissem Grad jedem der Cluster zugeordnet. Eines der bekanntesten Soft-Clustering Probleme ist das Maximum Likelihood Estimation (MLE) Problem bezüglich Mixturmodellen. Ein in der Praxis sehr beliebter Ansatz für dieses Problem ist der Expectation-Maximization (EM) Algorithmus, eine Verallgemeinerung des h?ufig bezüg\-lich des K-Means Problems eingesetzten Algorithmus von Lloyd. Obwohl er rege Anwendung findet, handelt es sich beim EM Algorithmus um eine Heuristik mit zwei signifikanten Schwachstellen. Zum einen gibt es für die L?sungen, die der EM Algorithmus berechnet, keinerlei Garantien. Zum anderen ist keine obere Schranke für seine Laufzeit bekannt. Das zentrale Ziel dieses Projekts ist, das MLE Problem für Mixturmodelle algorithmisch und komplexit?tstheoretisch zu analysieren. Vergleicht man das MLE Problem mit dem gut analysierten K-Means Problem, so stellt man fest, dass es zwei wesentliche, strukturelle Unterschiede zwischen den beiden gibt. Die Zuordnung der Punkte in Form eines Soft-Clustering Problems, und die Kostenfunktion in Form eines Mixturmodells. Unser Ansatz besteht deshalb darin, dass wir uns dem MLE Problem aus zwei Richtungen n?hern. Dazu wollen wir verschiedene Varianten "zwischen" dem K-Means und MLE Problem untersuchen. Die Idee ist, dass diese Varianten nicht beide angesprochenen strukturellen Unterschiede zum K-Means Problem aufweisen, sondern jeweils nur einen der beiden. Zu den von uns untersuchten Problemen geh?ren insbesondere das Fuzzy K-Means Problem und das CMLE Problem. Diese beiden Probleme sind, auch unabh?ngig von der Rolle die sie in diesem Projekt "zwischen" dem K-Means und dem MLE Problem einnehmen, von gro?em praktischen Interesse. Es gibt, analog zu Lloyd's Algorithmus und dem EM Algorithmus, Heuristiken, die in der Praxis eingesetzt werden um das Fuzzy K-Means Problem bzw. das CMLE Problem zu l?sen. Unser Ziel ist die Entwicklung von Algorithmen, die diese Probleme mit beweisbarer Güte und Laufzeitschranke l?sen. Darüber hinaus wollen wir die strukturellen Unterschiede zwischen diesen Problemen und dem K-Means Problem bzw. zwischen ihren optimalen L?sungen analysieren. Die dabei gewonnen Erkenntnisse wollen wir für die algorithmische und komplexit?tstheoretische Untersuchung des MLE Problems nutzen.

DFG-Verfahren Sachbeihilfen

Key Facts

Grant Number:
324506751
Laufzeit:
01/2017 - 12/2021
Gef?rdert durch:
DFG
Websites:
Homepage
DFG-Datenbank gepris
Soft-Clustering -- Von Heuristiken zu Approximationsalgorithmen (DFG Sachbeihilfe BL 314/8-1)

Detailinformationen

Projektleitung

contact-box image

Prof. Dr. Johannes Bl?mer

Universit?t Paderborn

Zur Person

Ergebnisse

Im digitalen Zeitalter entstehen t?glich gro?e Datenmengen - Big Data ist allgegenw?rtig. Effiziente Werkzeuge zur Analyse solcher Massen an Daten sind wichtiger denn je zuvor. Eine beliebte Technik, auch zur erstmaligen Vorverarbeitung, sind Methoden des unüberwachten Lernens. In diesem Projekt haben wir uns mit einer solchen Technik, dem Clustering, besch?ftigt. Clustering besteht aus einer Vielzahl verschiedener Problemstellungen, Modellen und Algorithmen. Die grundlegende Idee ist es, Gruppen ?hnlich geformter Elemente zu identifizieren und so (wenige) geeignete Repr?sentanten eines gro?en Datensatzes zu finden. Eine beliebte Zielfunktion aus diesem Bereich ist das Fuzzy k-Means Problem. Gegenüber anderen Problemen zeichnet es sich durch eine vergleichsweise hohe Resilienz gegenüber Ausrei?ern im Datensatz aus. Aus mathematischer Sicht hat es eine interessante Struktur, die klassische Analysetechniken schnell an ihre Grenzen sto?en lassen. Wir haben das Problem eingehend komplexit?tstheoretisch und algorithmisch untersucht. Dabei haben wir einen Algorithmus entworfen, der sich einer optimalen L?sung des Problems beliebig ann?hert und dies in einer Laufzeit, die unabh?ngig von der eingegebenen Gewichtung der Datenpunkte ist. In Kombination mit anderen, ebenfalls von uns neu entwickelten Techniken ist es uns gelungen, einen Algorithmus zu formulieren, dessen Laufzeit nah an die Laufzeit der schnellsten Algorithmen für andere beliebte Clustering Probleme heranreicht. Diese positiven, algorithmischen Ergebnisse haben wir durch eine untere Laufzeitschranke eines anderen beliebten Algorithmus für dieses Problem komplementiert. Ein anderes, ebenfalls von uns untersuchtes, Problem ist das sogenannte MLE Problem für Gau?mixturen. Hier haben wir unsere theoretische und empirische Forschung ausgebaut und weiter verbessert.


Projektbezogene Publikationen (Auswahl)


(2018). Coresets for Fuzzy K-Means with Applications. In 29th International Symposium on Algorithms and Computation (ISAAC 2018). Schloss Dagstuhl - Leibniz-Zentrum fuer Informatik GmbH, Wadern/Saarbruecken, Germany

Bl?mer, J., Brauer, S., und Bujna, K.

(365体育_足球比分网¥投注直播官网he online unter https://doi.org/10.4230/LIPIcs.ISAAC.2018.46)


(2019). Classi?cation and approximation of geometric location problems. Dissertation, Paderborn University

Brauer, S.

(365体育_足球比分网¥投注直播官网he online unter https://nbn-resolving.org/urn:nbn:de:hbz:466:2-35745)


(2019). Complexity of single-swap heuristics for metric facility location and related problems. Theoretical Computer Science, 754:88–106

Brauer, S.

(365体育_足球比分网¥投注直播官网he online unter https://doi.org/10.1016/j.tcs.2018.04.048)


(2019). How well do SEM algorithms imitate EM algorithms? A non-asymptotic analysis for mixture models. Advances in Data Analysis and Classi?cation, 14(1):147–173

Bl?mer, J., Brauer, S., Bujna, K., und Kuntze, D.

(365体育_足球比分网¥投注直播官网he online unter https://doi.org/10.1007/s11634-019-00366-7)


(2020). A Complexity Theoretical Study of Fuzzy K-Means. ACM Transactions on Algorithms, 16(4):1–25

Bl?mer, J., Brauer, S., und Bujna, K.

(365体育_足球比分网¥投注直播官网he online unter https://doi.org/10.1145/3409385)


Publikationen

A Complexity Theoretical Study of Fuzzy K-Means
J. Bl?mer, S. Brauer, K. Bujna, ACM Transactions on Algorithms 16 (2020) 1–25.
How well do SEM algorithms imitate EM algorithms? A non-asymptotic analysis for mixture models
J. Bl?mer, S. Brauer, K. Bujna, D. Kuntze, Advances in Data Analysis and Classification 14 (2020) 147–173.
Classification and Approximation of Geometric Location Problems
S. Brauer, Classification and Approximation of Geometric Location Problems, Paderborn, 2019.
Coresets for Fuzzy K-Means with Applications
J. Bl?mer, S. Brauer, K. Bujna, in: 29th International Symposium on Algorithms and Computation? (ISAAC 2018), Schloss Dagstuhl--Leibniz-Zentrum fuer Informatik, 2018, pp. 46:1--46:12.
Alle Publikationen anzeigen