3.4. Die Moore–Penrose Inverse#
In diesem Abschnitt beschäftigen wir uns mit einer Verallgemeinerung der Matrix-Inversen, welche über den Begriff der Minimum-Norm-Lösung in Definition 3.7 gegeben ist.
Definition 3.8 (Moore–Penrose Inverse)
Für eine Matrix \(A \in \mathbb{R}^{m\times n}\), nennen wir die Abbildung
Moore–Penrose Inverse zu \(A\), wobei \(x^\mps \in \R^n\) die eindeutige Minimum-Norm-Lösung des linearen Gleichungssystems \(Ax=b\) bezeichnet.
Bemerkung 3.7
Weitere Namen dieser Abbildung in der Literatur sind Pseudo-Inverse oder verallgemeinerte Inverse.
Für eine Matrix \(A\in\R^{m\times n}\) ist eine äquivalente Definition gegeben falls die folgenden Bedingungen gelten,
\(AA^\mps A \: = \: A\), d.h. \(A^\mps\) ist eine sogenannte verallgemeinerte Inverse,
\(A^\mps A A^\mps \: = \: A^\mps\), d.h. \(A^\mps\) ist eine sogenannte schwache Inverse,
\((AA^\mps)^T \: = \: AA^\mps\),
\((A^\mps A)^T \: = \: A^\mps A\).
Wir betrachten im Folgenden ein Szenario in dem die Matrix \(A\) vollen Rang hat, d.h., es gilt \(\operatorname{rank}(A) = \min(m, n)\). In diesem Fall lässt sich nämlich die Minimum-Norm-Lösung aus Die Minimum-Norm-Lösung explizit durch Matrix-Inversion berechnen.
Satz 3.3 (Moore–Penrose Inverse)
Es sei \(A\in\R^{m\times n}\) eine Matrix mit \(\rank(A)=\min(m,n)\). Für die Berechnung der Moore–Penrose Inversen \(A^\mps \in \mathbb{R}^{n\times m}\) lassen sich folgende Fälle unterscheiden:
\(\mathbf{\rank(A) = m = n:}\) Die quadratische Matrix \(A \in \mathbb{R}^{n\times n}\) ist invertierbar und es existiert eine eindeutige Lösung \(x^\mps \in \mathbb{R}^n\) des linearen Gleichungssystems \(Ax = b\). In diesem Fall entspricht die Moore–Penrose Inverse der normalen Inversen von \(A\), d.h. es gilt
\[A^\mps \: = \: A^{-1}.\]\(\mathbf{\rank(A) = n < m:}\) Im überbestimmten Fall ist die Matrix \(A \in \mathbb{R}^{m \times n}\) injektiv und \(A^TA\) ist invertierbar. In diesem Fall ist die Moore–Penrose Inverse gegeben als
\[A^\mps \: = \: (A^TA)^{-1}A^T.\]\(\mathbf{\rank(A) = m < n:}\) Im unterbestimmten Fall ist die Matrix \(A \in \mathbb{R}^{m \times n}\) surjektiv und \(AA^T\) ist invertierbar. In diesem Fall ist die Moore–Penrose Inverse gegeben als
\[A^\mps \: = \: A^T(AA^T)^{-1}.\]
Proof. Sei \(b \in \R^m\) und die Matrix \(A \in \R^{m\times n}\) habe vollen Rang.
Für den Fall \(\operatorname{rank}(A) = m = n\) existiert eine eindeutige Lösung \(x^\mps \in \mathbb{R}^n\) des linearen Gleichungssystems nach Direkte Lösung linearer Gleichungssysteme. Außerdem wissen wir aus der linearen Algebra, dass die Inverse \(A^{-1}\) einer Matrix \(A\) eindeutig bestimmt ist. Daher muss also schon gelten \(A^\mps = A^{-1}\).
Für den Fall \(\operatorname{rank}(A) = n < m\) ist die Dimension des Bildes \(\mathcal{R}(A)\) größer als die Dimension des Raumes \(\mathbb{R}^n\). Da der Rang voll ist wissen wir aus der linearen Algebra, dass die durch die Matrix \(A\) induzierte Abbildung injektiv sein muss. Nach Lemma 3.1 wissen wir, dass \(\mathcal{N}(A^TA) = \mathcal{N}(A)\) gilt und somit auch die durch \(A^TA \in \mathbb{R}^{n \times n}\) induzierte Abbildung injektiv sein muss. Dadurch ist \(A^TA\) aber bereits invertierbar und wir können wegen der Normalengleichungen schreiben
\[x^\mps \ = \ (A^TA)^{-1}A^Tb.\]Die Minimum-Norm-Lösung \(x^\mps \in \R^n\) ist also wegen \(\operatorname{rank}(A) = n\) die einzige Kleinste-Quadrate-Lösung des überbestimmten linearen Gleichungssystems \(Ax=b\) und für die Moore–Penrose Inverse gilt offensichtlich \(A^\mps = (A^TA)^{-1}A^T\).
Für den Fall \(\rank(A) = m < n\) ist die Dimension des Bildes \(\Image(A)\) kleiner als die Dimension des Raumes \(\R^n\). Da der Rang voll ist wissen wir aus der linearen Algebra, dass die durch die Matrix \(A\) induzierte Abbildung surjektiv sein muss. Das bedeutet, dass es exakte Lösungen \(\hat{x} \in \R^n\) mit \(A\hat{x} = b\) geben muss, die alle bereits Kleinste-Quadrate-Lösungen mit Residuum \(\norm{b - A\hat{x}}_2 = 0\) sind. Außerdem wissen wir, dass \(A^T \in \R^{n\times m}\) injektiv sein muss, denn es gilt
\[\rank(A^T) \, = \, \rank(A) \, = \, m.\]Das bedeutet jedoch auch, dass \(AA^T \in \R^{m \times m}\) injektiv und somit invertierbar sein muss. Da wir die Minimum-Norm-Lösung definiert haben über die Eigenschaft \(x^\mps \in \mathcal{R}(A^T)\) muss es wegen der Injektivität von \(A^T\) genau ein \(s \in \R^m\) geben mit \(A^Ts = x^\mps\). Sei nun \(x^\mps\) die Minimum-Norm-Lösung des unterbestimmten linearen Gleichungssystems \(Ax = b\), dann gilt
\[b \ = \ Ax^\mps \ = \ A(A^Ts) \ = \ AA^Ts.\]Wegen der Invertierbarkeit von \(AA^T\) wissen wir also, dass \(s = (AA^T)^{-1}b\) gilt. Damit können wir aber schon die Moore–Penrose Inverse von \(A\) wie folgt bestimmen:
\[x^\mps \ = \ A^Ts \ = \ A^T(AA^T)^{-1}b.\]Die Minimum-Norm-Lösung \(x^\mps \in \R^n\) des unterbestimmten linearen Gleichungssystems \(Ax=b\) lässt sich also für \(\rank(A) = m\) durch die folgende Moore–Penrose Inverse \(A^\mps = A^T(AA^T)^{-1}\) bestimmen.
◻
Abschließend wollen wir noch einige Beobachtungen zur Moore-Penrose Inversen festhalten.
Bemerkung 3.8
Sei \(A \in \R^{m \times n}\) eine beliebige Matrix. Dann können wir für die Moore-Penrose Inverse folgende Bemerkungen festhalten.
Für den Fall, dass die Matrix \(A\) vollen Rang hat, d.h., es gilt \(\rank(A) = \min\{n,m\}\), ist es naheliegend für die Berechnung einer Minimum-Norm-Lösung \(x^\mps \in \mathbb{R}^n\) die expliziten Formeln aus Satz 3.3 zu benutzen. Wie wir jedoch in Bemerkung 3.4 festgestellt haben verhält sich die Kondition \(\kappa_2(A^TA)\) der Matrix \(A^TA\) bei fehlerbehafteter Matrix \(A\) wie \((\kappa_2(A))^2\), was unter Umständen zu einer sehr großen Verstärkung von Störungen und Fehlern führen kann. Außerdem liegt der Rechenaufwand zur Berechnung von \(A^TA\) in \(\mathcal{O}(mn^2)\) was im Fall von wesentlich mehr Messdaten als unbekannte Variablen, d.h. für den Fall \(m >> n\), besonders teuer werden kann. Zur Vermeidung dieser Probleme empfiehlt sich also die Inversion durch Anwendung der QR-Zerlegung von \(A\) (siehe QR-Zerlegung für überbestimmte Systeme).
Im Fall, dass die Matrix \(A\) nicht vollen Rang hat, d.h., es gilt \(\rank(A) = r < \min\{n,m\}\), können die expliziten Formeln zur Berechnung der Moore-Penrose Inversen aus Satz 3.3 nicht angewendet werden, da die jeweiligen Matrixprodukte nicht invertierbar sind. In diesem Fall kann man jedoch wieder auf die Singulärwertzerlegung \(A = U \Sigma V^T\) von \(A\) zurückgreifen und die Moore-Penrose Inverse berechnen als:
\[A^\mps \ = \ V \Sigma^{\mps} U^T.\]Hierbei wird die Matrix \(\Sigma^{\mps} \in \R^{n \times m}\) analog zur Matrix \(\Sigma^{-1}\) in Lemma 3.2 berechnet mit dem Unterschied, dass diejenigen Diagonaleinträge \((\Sigma^\mps)_{ii}\) Null sind, für die die entsprechenden Singulärwerte von \(A\) ebenfalls Null sind.