Citation link:
http://dx.doi.org/10.25819/ubsi/10505
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Dissertation_Gandikota_Kanchana_Vaishnavi.pdf | 109.42 MB | Adobe PDF | View/Open |
Dokument Type: | Doctoral Thesis | metadata.dc.title: | On the robustness and generalization of deep learning approaches for image classification and reconstruction | Other Titles: | Zur Robustheit und Generalisierung von Deep-Learning-Ansätzen zur Bildklassifizierung und Rekonstruktion | Authors: | Gandikota, Kanchana Vaishnavi | Institute: | Department Elektrotechnik - Informatik | Free keywords: | Deep learning, Computer vision, Generalization, Robustness, Deep Learning, Computer Vision, Robustheit, Generalisierung | Dewey Decimal Classification: | 004 Informatik | GHBS-Clases: | TVUC TVVC TUH |
Issue Date: | 2024 | Publish Date: | 2024 | Abstract: | As deep learning models begin to be deployed in real-world applications, characterizing their vulnerabilities, and improving their robustness is critical to ensure reliable performance. This thesis deals with a few aspects of robustness and generalizability of deep learning models for image classification and reconstruction. We first address the problem of robustness and invariance of neural networks to spatial transformations that can be represented as group actions. We propose a simple strategy to achieve provable invariance with respect to group actions by choosing a unique element from the orbit of transformation group. Such a simple orbit mapping can be used with any standard network architecture and still achieve desired invariance. We investigate the robustness with respect to image rotations, provable orientation and scaling invariance of 3D point cloud classification. We demonstrate the advantages of our method in comparison with different approaches which incorporate invariance via training or architecture in terms of robustness and computational efficiency. Next, we investigate the robustness of classical and deep learning approaches to ill-posed image recovery problems, with a focus on image deblurring and computer tomography reconstruction. We demonstrate the susceptibility of reconstruction networks to untargeted, targeted and localized adversarial attacks using norm-constrained additive perturbations and study the transferability of attacks. We find that incorporating the model knowledge can, but does not always result in improved robustness. Further, localized attacks which modify semantic meaning can still maintain a high consistency with the original measurement, which could be used to deal with the ill-posedness of image recovery. While deep neural networks are successful in many image recovery tasks, these networks are typically trained for specific forward measurement processes, and therefore do not typically generalize to even small changes in the forward model. To deal with this, we explore the use of generative model priors for flexible image reconstruction tasks. We develop a generative autoencoder for light fields conditioned on the central view, and utilize this model as a prior for light field recovery. We adopt the approach of optimizing in the latent space of the conditional generator to minimize data discrepency with the measurement, and perform simultaneous optimization of both the latent code and the central view when the latter is unavailable. We demonstrate the applicability of this approach for generic light field recovery. Finally, we demonstrate the use of recently proposed text conditioned image diffusion models for generic image restoration and manipulation. We demonstrate flexible image manipulation by using a simple deterministic forward and reverse processes, with reverse diffusion being conditioned on target text. For consistent image restoration, we modify the reverse diffusion process of text-to-image diffusion model to analytically enforce data consistency of the solution, and explore diverse contents of null-space using text guidance. This results in diverse solutions which are simultaneously consistent with input text and the degraded inputs. Da Deep-Learning-Modelle zunehmend in praxisnahen Anwendungen eingesetzt werden, ist die Charakterisierung ihrer Schwachstellen und Verbesserung ihrer Robustheit unerlässlich, um eine zuverlässige Leistung zu gewährleisten. Diese Arbeit beschäftigt sich mit einigen Aspekten der Robustheit und Generalisierbarkeit von Deep-Learning-Modellen für Klassifikation und Rekonstruktion von Bildern. Wir befassen uns zunächst mit dem Problem der Robustheit und Invarianz neuronaler Netze gegenüber räumlichen Transformationen, die als Gruppenaktionen dargestellt werden können. Wir schlagen eine einfache Strategie vor, um eine nachweisbare Invarianz in Bezug auf Gruppenaktionen zu erreichen, indem wir ein eindeutiges Element aus dem Orbit der Transformationsgruppe auswählen. Eine solche einfache Orbit-Mapping kann mit jeder Standardnetzwerkarchitektur verwendet werden und erreicht dennoch die gewünschte Invarianz. Wir untersuchen die Robustheit gegenüber Bildrotationen, sowie nachweisbare Orientierungs- und Skalierungsinvarianz bei 3D-Punktwolken-Klassifikation. Wir zeigen die Vorteile unserer Methode im Vergleich zu verschiedenen Ansätzen, die die Invarianz über das Training oder die Architektur einbeziehen, in Bezug auf Robustheit und Berechnungseffizienz. Als Nächstes untersuchen wir die Robustheit von klassischen und Deep-Learning-Ansätzen bei schlecht gestellten Bildwiederherstellungsproblemen, wobei der Schwerpunkt auf Bildschärfung und Computertomographie-Rekonstruktion liegt. Wir zeigen die Anfälligkeit von Rekonstruktionsnetzwerken gegenüber ungezielten, gezielten und lokalisierten Angriffen mit additiven Störungen, deren Norm beschränkt ist, und untersuchen die Übertragbarkeit der Angriffe. Wir stellen fest, dass die Einbeziehung des Modellwissens in manchen Fällen zu einer verbesserten Robustheit führt. Außerdem können lokalisierte Angriffe, die die semantische Bedeutung verändern, immer noch eine hohe Konsistenz mit der ursprünglichen Messung aufrechterhalten. Dies könnte genutzt werden, um damit umzugehen, dass Bildwiederherstellung ein schlecht gestelltes Problem ist. Tiefe neuronale Netze sind zwar bei vielen Bildwiederherstellungsaufgaben erfolgreich, aber diese Netze werden in der Regel für bestimmte Vorwärtsmessprozesse trainiert und lassen sich daher in der Regel nicht einmal auf kleine Änderungen im Vorwärtsmodell verallgemeinern. Um dies zu ändern, untersuchen wir die Verwendung generativer Model-Priors für flexible Bildrekonstruktionsaufgaben. Wir entwickeln einen generativen Autoencoder für Lichtfelder, der sich auf die zentrale Ansicht bezieht, und verwenden dieses Modell als Prior für die Lichtfeldwiederherstellung. Wir verfolgen den Ansatz, im Latent Space des conditional Generators zu optimieren, um die Diskrepanz zwischen den Daten und der Messung zu minimieren, und führen eine gleichzeitige Optimierung sowohl des Latent Codes als auch der zentralen Ansicht durch, wenn letztere nicht verfügbar ist. Wir demonstrieren die Anwendbarkeit dieses Ansatzes für eine generische Lichtfeldwiederherstellung. Schließlich demonstrieren wir die Verwendung von kürzlich vorgeschlagenen, textgesteuerten Bilddiffusionsmodellen für die allgemeine Wiederherstellung und Manipulation von Bildern. Wir demonstrieren eine flexible Bildmanipulation durch Verwendung eines einfachen deterministischen Vorwärts- und Rückwärtsprozesses, wobei die Rückwärtsdiffusion durch den Zieltext gesteuert wird. Für eine konsistente Bildwiederherstellung modifizieren wir den umgekehrten Diffusionsprozess des Text-Bild-Diffusionsmodells, um die Datenkonsistenz der Lösung analytisch zu erzwingen, und untersuchen verschiedene Inhalte des Nullraums unter Verwendung von Textsteuerung. Dies führt zu verschiedenen Lösungen, die sowohl mit dem Eingabetext als auch mit den verschlechterten Eingabebildern konsistent sind. |
DOI: | http://dx.doi.org/10.25819/ubsi/10505 | URN: | urn:nbn:de:hbz:467-27187 | URI: | https://dspace.ub.uni-siegen.de/handle/ubsi/2718 |
Appears in Collections: | Hochschulschriften |
This item is protected by original copyright |
Page view(s)
440
checked on Dec 1, 2024
Download(s)
93
checked on Dec 1, 2024
Google ScholarTM
Check
Altmetric
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.