3  Norme, prodotti scalari ortogonalità

Author
Affiliation

Enrico Bertolazzi

University of Trento, Department of Industrial Engineering

3.1 Norme di vettori

Consideriamo un vettore \bm{x} \in \Bbb{R}^3 con componenti x_1, x_2, e x_3. Le componenti di questo vettore possono essere interpretate come le coordinate di un punto nello spazio tridimensionale \Bbb{R}^3. La distanza di questo punto dall’origine è la lunghezza del segmento che collega l’origine al punto \bm{x}. Questa lunghezza può essere vista come la lunghezza del vettore \bm{x}. Dal teorema di Pitagora1, la lunghezza del vettore \bm{x} è data da:

\sqrt{x_1^2 + x_2^2 + x_3^2}.

Possiamo estendere questa nozione di lunghezza a vettori in \Bbb{R}^n o \Bbb{C}^n con la seguente definizione. Per ogni vettore \bm{x} \in \Bbb{R}^n o \Bbb{C}^n, definiamo la sua norma euclidea come:

\|\bm{x}\|_2 = \sqrt{\sum_{i=1}^{n} |x_i|^2}.

Questa misura è chiamata la lunghezza del vettore e possiede le seguenti proprietà:

  1. Non negatività: La norma è sempre non negativa, \|\bm{x}\|_2 = \sqrt{\sum_{i=1}^{n} |x_i|^2} \geq 0. Inoltre, \|\bm{x}\|_2 = 0 solo se tutte le componenti sono zero, cioè \bm{x} = \bm{0}.

  2. Omogeneità: Moltiplicare il vettore per uno scalare \alpha modifica la norma come segue: \begin{aligned} \|\alpha \bm{x}\|_2 &= \sqrt{\sum_{i=1}^{n} |\alpha x_i|^2} \\ &= \sqrt{\sum_{i=1}^{n} |\alpha|^2 |x_i|^2} \\ &= |\alpha| \sqrt{\sum_{i=1}^{n} |x_i|^2} \\ &= |\alpha| \|\bm{x}\|_2. \end{aligned}

  3. Disuguaglianza triangolare: Per ogni coppia di vettori \bm{x}, \bm{y} \in \Bbb{K}^n, si ha: \|\bm{x} + \bm{y}\|_2 \leq \|\bm{x}\|_2 + \|\bm{y}\|_2. \tag{3.1} Questa è nota come disuguaglianza triangolare. Il termine “triangolare” si riferisce alla proprietà geometrica dei triangoli, dove la lunghezza di un lato è sempre minore o uguale alla somma delle lunghezze degli altri due lati. Questo concetto è illustrato nella figura Figure 3.1.

Figure 3.1: Disuguaglianza triangolare

3.2 Diseguaglianze di Young2,Hölder3 e Minkowski4.

La dimostrazione della disuguaglianza triangolare (Equation 3.1) è un po’ laboriosa e richiede l’uso di alcune disuguaglianze classiche, come quella di Young.

Lemma 3.1 (Disuguaglianza di Young) Dati due numeri reali p e q tali che

\dfrac{1}{p}+\dfrac{1}{q} = 1, \qquad 1 < p, q < \infty,

allora per ogni coppia di numeri reali non negativi a e b si ha

ab \leq \dfrac{a^p}{p} + \dfrac{b^q}{q}. \tag{3.2}

Inoltre, la disuguaglianza diventa uguaglianza se a^p = b^q.

Proof. Consideriamo la funzione

f(t) = \dfrac{t}{p} - t^{1/p}. \tag{3.3}

Allora, calcoliamo la derivata prima della funzione:

f'(t) = \dfrac{1}{p} - \dfrac{t^{1/p-1}}{p} = \dfrac{1}{p} - \dfrac{t^{-1/q}}{p} = \dfrac{1}{p} \left(1 - t^{-1/q}\right). \tag{3.4}

Poiché \frac{1}{q} < 1, abbiamo che f'(t) < 0 per 0 < t < 1 e f'(t) > 0 per t > 1. Quindi, t = 1 è un punto di minimo per f(t) in (0, \infty), e di conseguenza f(t) \geq f(1) per t > 0. Pertanto,

f(t) \geq f(1), \qquad \text{cioè} \qquad \dfrac{t}{p} - t^{1/p} \geq \dfrac{1}{p} - 1 = - \dfrac{1}{q}.

Da qui otteniamo:

t^{1/p} \leq \dfrac{1}{q} + \dfrac{t}{p}.

Osserviamo che se a = 0 o b = 0, la disuguaglianza è banalmente vera. Consideriamo quindi a, b > 0 e calcoliamo la disuguaglianza in t = a^p b^{-q}:

ab^{-q/p} \leq \dfrac{1}{q} + \dfrac{a^p b^{-q}}{p}.

Moltiplicando la disuguaglianza per b^q ed osservando che q - q/p = 1, otteniamo il risultato cercato:

ab \leq \dfrac{a^p}{p} + \dfrac{b^q}{q}.

Infine, osserviamo che se a^p = b^q, allora calcoliamo la disuguaglianza in t = 1, ottenendo l’uguaglianza:

ab = \dfrac{a^p}{p} + \dfrac{b^q}{q}.

Possiamo ora dimostrare la disuguaglianza di Hölder

Theorem 3.1 (Disuguaglianza di Hölder) Dati due numeri reali p e q tali che 1 < p, q < \infty e che soddisfano 1/p + 1/q = 1, e dati a_1, a_2, \ldots, a_n \geq 0 e b_1, b_2, \ldots, b_n \geq 0, allora

\sum_{k=1}^{n} a_k b_k \leq \left(\sum_{k=1}^{n} a_k^p\right)^{1/p} \left(\sum_{k=1}^{n} b_k^q\right)^{1/q}.

Proof. Sia

A = \left(\sum_{k=1}^{n} a_k^p\right)^{1/p}, \qquad B = \left(\sum_{k=1}^{n} b_k^q\right)^{1/q}.

Se AB = 0, allora o A = 0 oppure B = 0 5. Questo implica che tutti gli a_k sono zero, e quindi la disuguaglianza è banalmente vera. Lo stesso ragionamento si applica nel caso in cui B = 0.

Supponiamo quindi che AB > 0. Utilizzando la disuguaglianza Equation 3.2 del lemma Lemma 3.1, otteniamo per ogni k:

Supponiamo, per esempio, che A \neq 0 e B \neq 0.

\dfrac{a_k}{A} \cdot \dfrac{b_k}{B} \leq \dfrac{a_k^p}{p A^p} + \dfrac{b_k^q}{q B^q}.

Sommando su tutti i k, abbiamo:

\dfrac{\displaystyle\sum_{k=1}^{n} a_k b_k}{AB} \leq \dfrac{\displaystyle\sum_{k=1}^{n} a_k^p}{p A^p} + \dfrac{\displaystyle\sum_{k=1}^{n} b_k^q}{q B^q}.

Osservando che

A^p = \sum_{k=1}^{n} a_k^p \quad\text{e}\quad B^q = \sum_{k=1}^{n} b_k^q

possiamo scrivere:

\dfrac{\sum_{k=1}^{n} a_k b_k}{AB} \leq \dfrac{A^p}{p A^p} + \dfrac{B^q}{q B^q} = \dfrac{1}{p} + \dfrac{1}{q} = 1.

Infine, dimostriamo la disuguaglianza di Minkowski

Theorem 3.2 (Disuguaglianza di Minkowski) Sia 1 \leq p < \infty; e siano a_1, a_2, \ldots, a_n \geq 0 e b_1, b_2, \ldots, b_n \geq 0. Allora si ha:

\left( \sum_{k=1}^{n} (a_k + b_k)^p \right)^{1/p} \leq \left( \sum_{k=1}^{n} a_k^p \right)^{1/p} + \left( \sum_{k=1}^{n} b_k^p \right)^{1/p}.

Proof. Il caso p = 1 è immediato e risulta banale. Consideriamo ora il caso p > 1.

Iniziamo con l’espandere:

\sum_{k=1}^{n} (a_k + b_k)^p = \sum_{k=1}^{n} a_k (a_k + b_k)^{p-1} + \sum_{k=1}^{n} b_k (a_k + b_k)^{p-1}.

Applicando la disuguaglianza di Hölder a ciascuna delle due somme, con q definito dalla relazione 1/p + 1/q = 1, otteniamo:

\begin{aligned} \sum_{k=1}^{n} (a_k + b_k)^p &\leq \left( \sum_{k=1}^{n} a_k^p \right)^{1/p} \left( \sum_{k=1}^{n} (a_k + b_k)^{q(p-1)} \right)^{1/q} \\ &\quad + \left( \sum_{k=1}^{n} b_k^p \right)^{1/p} \left( \sum_{k=1}^{n} (a_k + b_k)^{q(p-1)} \right)^{1/q}. \end{aligned}

Dividendo entrambi i lati dell’ineguaglianza per \left( \sum_{k=1}^{n} (a_k + b_k)^p \right)^{1/q} e notando che q(p-1) = p, otteniamo la disuguaglianza desiderata.

Osserviamo che la disuguaglianza di Minkowski per p=2 è proprio la Equation 3.1.

Possiamo estendere la nozione di lunghezza di un vettore attraverso una generalizzazione della funzione \|,\cdot,\| che mantenga le tre proprietà precedentemente menzionate.

3.3 Alcune proprietà delle norme vettoriali

Continuità delle norme

Theorem 3.3 La norma vettoriale è una funzione uniformemente continua dallo spazio dei vettori \Bbb{K}^n in \Bbb{R}.

Proof. La continuità uniforme della norma segue immediatamente dalla disuguaglianza:

\Big|\,\|\bm{x}\| - \|\bm{y}\|\,\Big| \leq \|\bm{x} - \bm{y}\|,

che dimostra che la norma è uniformemente continua.

Equivalenza delle norme

Theorem 3.4 Siano \|\cdot\|^{'} e \|\cdot\|^{''} due norme in \Bbb{K}^n. Esistono due costanti \alpha > 0 e \beta > 0 tali che, per ogni \bm{x} \in \Bbb{K}^n, vale:

\alpha \|\bm{x}\|^{''} \leq \|\bm{x}\|^{'} \leq \beta \|\bm{x}\|^{''}.

Proof. Se \bm{x} = \bm{0}, il teorema è ovvio. Per \bm{x} \neq \bm{0}, proviamo l’affermazione considerando il caso particolare in cui \|\cdot\|^{''} è la norma \|\cdot\|_{\infty}. Il caso generale seguirà per confronto.

Definiamo l’insieme:

S = \{\bm{y} \in \Bbb{K}^n \mid \|\bm{y}\|_{\infty} = 1\}.

L’insieme S è chiuso e limitato, quindi compatto. Poiché la norma \|\cdot\|^{'} è continua, essa raggiunge un minimo strettamente positivo \alpha e un massimo \beta su S.

Per ogni \bm{x} \in \Bbb{K}^n, possiamo scrivere:

\bm{y} = \frac{\bm{x}}{\|\bm{x}\|_{\infty}} \in S.

Di conseguenza, abbiamo:

\alpha \leq \|\bm{y}\|^{'} = \left\|\frac{\bm{x}}{\|\bm{x}\|_{\infty}}\right\|^{'} \leq \beta,

che implica:

\alpha \|\bm{x}\|_{\infty} \leq \|\bm{x}\|^{'} \leq \beta \|\bm{x}\|_{\infty}.

Confronto tra norme standard

Per ogni vettore \bm{x} \in \Bbb{K}^n, valgono le seguenti disuguaglianze:

\begin{aligned} (i) \qquad & \|\bm{x}\|_{\infty} & \leq & \|\bm{x}\|_2 & \leq & \sqrt{n} \|\bm{x}\|_{\infty}, \\ (ii) \qquad & \|\bm{x}\|_2 & \leq & \|\bm{x}\|_1 & \leq & \sqrt{n} \|\bm{x}\|_{\infty}, \\ (iii)\qquad & \|\bm{x}\|_{\infty} & \leq & \|\bm{x}\|_1 & \leq & n \|\bm{x}\|_{\infty}. \end{aligned}

Proof. Le disuguaglianze si ottengono nei seguenti modi:

  • (i) Sia \|\cdot\|' = \|\cdot\|_2. Ogni vettore \bm{y} \in S = \{\bm{y} \in \Bbb{K}^n \mid \|\bm{y}\|_{\infty} = 1\} ha almeno una componente di modulo 1, diciamo la componente y_k, con 1 \leq k \leq n, mentre le altre componenti soddisfano |y_i| \leq 1 per i \neq k.

    Pertanto, si ha:

    \|\bm{y}\|_2^2 = 1 + \sum_{i=1 \atop i \neq k}^{n} |y_i|^2 \quad \forall \, \bm{y} \in S,

    da cui segue che:

    \begin{aligned} \alpha &= \min_{\bm{y} \in S} \|\bm{y}\|_2 = 1, \\ \beta &= \max_{\bm{y} \in S} \|\bm{y}\|_2 = \sqrt{n}. \end{aligned}

    Quindi, si ottiene:

    \|\bm{x}\|_{\infty} \leq \|\bm{x}\|_2 \leq \sqrt{n} \|\bm{x}\|_{\infty}.

  • (ii) La prima disuguaglianza di (ii) si ottiene notando che, per ogni \bm{x} \in \Bbb{K}^n,

    \|\bm{x}\|_2^2 = \sum_{i=1}^{n} |x_i|^2 \leq \left( \sum_{i=1}^{n} |x_i| \right)^2 = \|\bm{x}\|_1^2.

    La seconda disuguaglianza deriva dalla disuguaglianza di Cauchy-Schwarz:

    |(\bm{x}, \bm{y})| \leq \|\bm{x}\|_2 \|\bm{y}\|_2,

    applicata a un vettore ausiliario \bm{y} definito da:

    y_i = \begin{cases} \frac{x_i}{|x_i|}, & \text{se} \, x_i \neq 0, \\ 0, & \text{se} \, x_i = 0. \end{cases}

    Si osserva che:

    |(\bm{x}, \bm{y})| = \sum_{i=1}^{n} |x_i| = \|\bm{x}\|_1,

    e

    \|\bm{y}\|_2 = \left( \sum_{i=1}^{n} |y_i|^2 \right)^{\frac{1}{2}} = \sqrt{n}.

    Quindi, otteniamo:

    \|\bm{x}\|_2 \leq \|\bm{x}\|_1 \leq \sqrt{n} \|\bm{x}\|_{\infty}.

  • (iii) Le disuguaglianze si ottengono combinando i risultati di (i) e (ii):

    \|\bm{x}\|_{\infty} \leq \|\bm{x}\|_1 \leq n \|\bm{x}\|_{\infty}.

Definition 3.1 (p-Norma) Utilizzando la disuguaglianza di Minkowski (Equation 3.1), si dimostra che per 1 \leq p < \infty, la funzione definita come

\|\bm{x}\|_{p} = \left( \sum_{k=1}^{n} |x_k|^{p} \right)^{1/p}

è una norma. Questa norma è chiamata p-norma.

Due casi particolari di p-norma sono:

  • Norma 1: \|\bm{x}\|_1 = \displaystyle\sum_{i=1}^{n} |x_i|.

  • Norma 2: \|\bm{x}\|_2 = \sqrt{\displaystyle\sum_{i=1}^{n} |x_i|^{2}}.

Inoltre, è possibile estendere la definizione della norma al caso limite p \to \infty:

\|\bm{x}\|_{\infty} = \max_{k=1, \ldots, n}|x_k|,

e si può verificare facilmente che anche questa funzione è una norma.

TipEsempio

Dati i vettori

\bm{x}=\begin{pmatrix} 1 \\ 2 \\ -2\end{pmatrix}, \qquad \bm{y}=\begin{pmatrix}1+ \mathrm{i} \\ \mathrm{i} \\ 1 \\ -1\end{pmatrix},

otteniamo

\begin{aligned} \|\bm{x}\|_{\infty} & = \max\left\{|1|,|2|,|-2|\right\} = \max\left\{1,2,2\right\}=2, \\[1em] \|\bm{y}\|_{\infty} & = \max\left\{|1+\mathrm{i}|,|\mathrm{i}|,|1|,|-1|\right\} = \max\left\{\sqrt{2},1,1,1\right\}=\sqrt{2}, \\[1em] \|\bm{x}\|_1 & = |1|+|2|+|-2| = 1+2+2 = 5, \\[1em] \|\bm{y}\|_1 & = |1+\mathrm{i}|+|\mathrm{i}|+|1|+|-1| = \sqrt{2}+1+1+1=3+\sqrt{2}, \\[1em] \|\bm{x}\|_2 & = \sqrt{|1|^{2}+|2|^{2}+|-2|^{2}} = \sqrt{1+4+4} = 3, \\[1em] \|\bm{y}\|_2 & = \sqrt{|1+\mathrm{i}|^{2}+|\mathrm{i}|^{2}+|1|^{2}+|-1|^{2}} = \sqrt{2+1+1+1}=\sqrt{5}. \end{aligned}

3.4 Prodotti scalari

Il prodotto scalare tra due vettori è molto usato in fisica ed ha la seguente definizione

Definition 3.2 (Prodotto Scalare (Euclideo)) Il prodotto scalare (o prodotto dot) tra due vettori \bm{a} e \bm{b} è dato dalla formula:

\bm{a} \cdot \bm{b} = \|\bm{a}\|_2 \|\bm{b}\|_2 \cos \theta_{\bm{a} \bm{b}}, \tag{3.5}

dove \theta_{\bm{a} \bm{b}} rappresenta l’angolo compreso tra i due vettori \bm{a} e \bm{b}.

Figure 3.2: prodotto scalare e parallelogrammo associato

Dalla figura 6 Figure 3.2 possiamo derivare una formula per il prodotto scalare che non utilizza il coseno, ma solo la norma.

Consideriamo le seguenti definizioni:

L = \|\bm{b}\|_2 \cos \theta_{\bm{a} \bm{b}}, \qquad H = \|\bm{b}\|_2 \sin \theta_{\bm{a} \bm{b}},

dove \theta_{\bm{a} \bm{b}} è l’angolo tra i vettori \bm{a} e \bm{b}. Applicando il teorema di Pitagora, otteniamo:

\|\bm{a} + \bm{b}\|_2^2 - H^2 = (\|\bm{a}\|_2 + L)^2 = \|\bm{a}\|_2^2 + L^2 + 2\|\bm{a}\|_2 L \tag{3.6}

e

\|\bm{a} - \bm{b}\|_2^2 - H^2 = (\|\bm{a}\|_2 - L)^2 = \|\bm{a}\|_2^2 + L^2 - 2 \|\bm{a}\|_2 L \tag{3.7}

Sottraendo l’equazione Equation 3.7 da Equation 3.6, otteniamo:

\|\bm{a} + \bm{b}\|_2^2 - \|\bm{a} - \bm{b}\|_2^2 = 4 \|\bm{a}\|_2 L = 4 \|\bm{a}\|_2 \|\bm{b}\|_2 \cos \theta_{\bm{a} \bm{b}},

e quindi, utilizzando la formula Equation 3.5, possiamo scrivere:

\bm{a} \cdot \bm{b} = \frac{\|\bm{a} + \bm{b}\|_2^2 - \|\bm{a} - \bm{b}\|_2^2}{4}.

Inoltre, osserviamo che:

\|\bm{a} + \bm{b}\|_2^2 - \|\bm{a} - \bm{b}\|_2^2 = \sum_{k=1}^{n} \left[|a_k + b_k|^2 - |a_k - b_k|^2\right] = 4 \sum_{k=1}^{n} a_k b_k,

da cui il prodotto scalare si esprime come:

\bm{a} \cdot \bm{b} = \sum_{k=1}^{n} a_k b_k. \tag{3.8}

Questa formula è valida per vettori reali. Per un vettore complesso \bm{a}, la formula Equation 3.8 non restituisce direttamente il quadrato della lunghezza, poiché se a_k sono numeri complessi:

\bm{a} \cdot \bm{a} = \sum_{k=1}^{n} a_k^2 \neq \sum_{k=1}^{n}|a_k|^2.

Tuttavia, è possibile modificare la definizione di prodotto scalare per ottenere una formula che, applicata a vettori reali, sia equivalente a Equation 3.5 e che, nel caso di vettori complessi, restituisca \bm{a} \cdot \bm{a} = \|\bm{a}\|_2^2.

Definition 3.3 (Prodotto Scalare nel Campo Complesso) Definiamo il prodotto scalare tra due vettori \bm{x} e \bm{y} di dimensione n come:

\bm{x} \cdot \bm{y} = \sum_{i=1}^{n} x_i \overline{y_i}, \tag{3.9}

dove \overline{\bm{z}} denota il coniugato complesso di un numero complesso \bm{z}.

Ricordiamo che:

\overline{a + \mathrm{i} b} = a - \mathrm{i} b

e il coniugato complesso soddisfa le seguenti proprietà:

\begin{aligned} \overline{z} \cdot z & = (a + \mathrm{i} b)(a - \mathrm{i} b) = a^2 + b^2 = |z|^2, \\ \overline{\overline{z}} & = \overline{a - \mathrm{i} b} = a + \mathrm{i} b = z, \\ \overline{z + w} &= \overline{z} + \overline{w}, \end{aligned}

oltre a:

\begin{aligned} \overline{zw} &= \overline{(a + \mathrm{i} b)(c + \mathrm{i} d)} = \overline{(ac - bd) + (bc + ad) \mathrm{i}} \\ &= (ac - bd) - (bc + ad) \mathrm{i}, \\ \overline{z} \cdot \overline{w} &= (a - \mathrm{i} b)(c - \mathrm{i} d) \\ &= ac - bd - (bc + ad) \mathrm{i}, \end{aligned}

da cui segue:

\overline{zw} = \overline{z} \cdot \overline{w}.

Per un numero complesso z = a + \mathrm{i} b, abbiamo:

\Re(z) = \frac{z + \overline{z}}{2} = a, \qquad \Im(z) = \frac{z - \overline{z}}{2 \mathrm{i}} = b.

La formula Equation 3.9 è nota come prodotto scalare euclideo.

Questa funzione soddisfa le seguenti proprietà:

  1. Non negatività e nullità: \bm{x} \cdot \bm{x} = \sum_{i=1}^{n} x_i \overline{x_i} = \sum_{i=1}^{n} |x_i|^2 \geq 0. Inoltre, \bm{x} \cdot \bm{x} = 0 se e solo se x_i = 0 per tutti i, il che implica \bm{x} = \bm{0}.

  2. Simmetria: \bm{x} \cdot \bm{y} = \sum_{i=1}^{n} x_i \overline{y_i} = \overline{\sum_{i=1}^{n} \overline{x_i} y_i} = \overline{\bm{y} \cdot \bm{x}}.

  3. Linearità: (\bm{x} + \bm{y}) \cdot \bm{z} = \sum_{i=1}^{n} (x_i + y_i) \overline{z_i} = \sum_{i=1}^{n} x_i \overline{z_i} + \sum_{i=1}^{n} y_i \overline{z_i} = \bm{x} \cdot \bm{z} + \bm{y} \cdot \bm{z}.

  4. Omogeneità: (\alpha \bm{x}) \cdot \bm{y} = \sum_{i=1}^{n} \alpha x_i \overline{y_i} = \alpha \sum_{i=1}^{n} x_i \overline{y_i} = \alpha (\bm{x} \cdot \bm{y}).

Queste proprietà (1)-(4) possono essere utilizzate per definire il prodotto scalare in modo assiomatico.

Definition 3.4 (Prodotto Scalare in generale) Una funzione \langle\cdot,\cdot\rangle : \Bbb{K}^n \times \Bbb{K}^n \to \Bbb{K} è un prodotto scalare se soddisfa le seguenti proprietà per ogni \bm{x}, \bm{y}, \bm{z} \in \Bbb{K}^n e per ogni \alpha \in \Bbb{K}:

  1. Non negatività e nullità: \langle\bm{x},\bm{x}\rangle \geq 0 \quad \text{e} \quad \langle\bm{x},\bm{x}\rangle = 0 \text{ se e solo se } \bm{x} = \bm{0}.

  2. Simmetria Coniugata: \langle\bm{x},\bm{y}\rangle = \overline{\langle\bm{y},\bm{x}\rangle}, dove \overline{\cdot} denota l’operazione di coniugazione complessa.

  3. Linearità nella prima variabile: \langle\bm{x} + \bm{y},\bm{z}\rangle = \langle\bm{x},\bm{z}\rangle + \langle\bm{y},\bm{z}\rangle.

  4. Omogeneità: \langle\alpha \bm{x},\bm{y}\rangle = \alpha \langle\bm{x},\bm{y}\rangle.

Queste proprietà definiscono il concetto di prodotto scalare in uno spazio vettoriale.

TipOsservazione

Nella definizione assiomatica del prodotto scalare, abbiamo utilizzato la notazione \langle\bm{x},\bm{y}\rangle per indicare il prodotto scalare tra due vettori \bm{x}, \bm{y} \in \Bbb{K}^n. Nella discussione precedente, invece, abbiamo utilizzato la notazione \bm{x} \cdot \bm{y}.

È importante sottolineare che la scelta della notazione non influisce sulla definizione del prodotto scalare né sulle sue proprietà.

Esiste anche una terza notazione di uso comune, \bm{x}^T \bm{y}. In questa notazione, si assume implicitamente che tutti i vettori siano vettori colonna, e l’apice {}^T denota l’operazione di trasposizione, che trasforma un vettore colonna in un vettore riga.

La definizione generale di trasposto di una matrice e di un vettore, di cui abbiamo già anticipato l’idea, sarà introdotta tra poco.

TipEsempio

E’ facile verificare che anche la seguente funzione

[\bm{x},\bm{y}] = \sum_{k=1}^{n} k x_k\overline{y_k},

definisce un prodotto scalare per ogni k reale positivo.

TipOsservazione

La funzione \|\,\cdot\,\|_2 può essere espressa tramite il prodotto scalare euclideo come segue:

\|\bm{x}\|_2 = \sqrt{\bm{x} \cdot \bm{x}}.

In modo analogo, dato un prodotto scalare generico (\cdot, \cdot), è possibile definire l’applicazione:

\|\bm{x}\| = \sqrt{\bm{x} \cdot \bm{x}},

che soddisfa le proprietà di una norma. Questa applicazione è conosciuta come norma indotta dal prodotto scalare.

Theorem 3.5 (Disuguaglianza di Cauchy7-Schwarz8) Per un prodotto scalare generico, la disuguaglianza di Cauchy-Schwarz è espressa come:

\boxed{ (\bm{x}, \bm{y}) \leq \|\bm{x}\| \|\bm{y}\| } \tag{3.10}

dove \|\cdot\| rappresenta la norma indotta dal prodotto scalare. La disuguaglianza è stretta solo se \bm{x} e \bm{y} sono allineati, cioè se esiste uno scalare \gamma tale che \bm{x} = \gamma \bm{y}.

Proof. La disuguaglianza è ovvia se uno dei vettori è nullo. Supponiamo quindi che entrambi i vettori siano non nulli. Consideriamo il vettore \bm{x} - \alpha \bm{y} e applicando la proprietà (1) della definizione di prodotto scalare alla sua norma, otteniamo:

(\bm{x} - \alpha \bm{y}, \bm{x} - \alpha \bm{y}) \geq 0.

Sviluppando l’espressione, abbiamo:

\begin{aligned} 0 & \leq (\bm{x} - \alpha \bm{y}, \bm{x} - \alpha \bm{y}) \\ & = (\bm{x}, \bm{x}) - \alpha (\bm{y}, \bm{x}) - \overline{\alpha} (\bm{x}, \bm{y}) + \alpha \overline{\alpha} (\bm{y}, \bm{y}) \\ & = (\bm{x}, \bm{x}) - \alpha \overline{(\bm{x}, \bm{y})} - \overline{\alpha} [(\bm{x}, \bm{y}) - \alpha (\bm{y}, \bm{y})]. \end{aligned} \tag{3.11}

Scegliendo \alpha in modo da annullare l’espressione tra parentesi quadre, otteniamo:

\alpha = \frac{(\bm{x}, \bm{y})}{(\bm{y}, \bm{y})}.

Sostituendo questo valore di \alpha, si ottiene:

0 \leq \|\bm{x}\|^2 - \frac{|(\bm{x}, \bm{y})|^2}{\|\bm{y}\|^2},

che è equivalente alla disuguaglianza di Cauchy-Schwarz espressa in Equation 3.10. Se \bm{x} - \alpha \bm{y} \neq \bm{0}, allora la disuguaglianza è stretta, e quindi anche Equation 3.10 è stretta.

3.5 Ortogonalità e angolo tra vettori

Il concetto di prodotto scalare permette di definire l’ortogonalità e l’angolo tra due vettori. Utilizzando il prodotto scalare euclideo espresso in Equation 3.9 e la formula per il prodotto scalare in Equation 3.5, possiamo calcolare l’angolo \theta_{\bm{a}\bm{b}} tra due vettori \bm{a} e \bm{b} con la seguente formula:

\theta_{\bm{a}\bm{b}} = \arccos \left( \frac{\bm{a} \cdot \bm{b}}{\|\bm{a}\|_2 \|\bm{b}\|_2} \right).

TipEsempio

I vettori \bm{a} e \bm{b} definiti come segue

\bm{a} = \begin{pmatrix}1 \\ 1 \\ 2\end{pmatrix},\qquad \bm{b} = \begin{pmatrix}1 \\ 0 \\ 1\end{pmatrix},

formano un angolo di circa 30^{0} o circa 0.5236 radianti, infatti

\cos\theta_{\bm{a}\bm{b}} = \dfrac{\bm{a}\cdot\bm{b}}{\|\bm{a}\|_2\|\bm{b}\|_2} = \dfrac{3}{\sqrt{12}}.

Se l’angolo tra i vettori è 90^{0} allora \cos 90^{0}=0 implica che il loro prodotto scalare è nullo. Questo suggerisce la seguente definizione.

Definition 3.5 (Ortogonalità) Due vettori \bm{a} e \bm{b} si dicono ortogonali se il loro prodotto scalare è nullo. In tal caso, scriviamo \bm{a} \perp \bm{b}, indicando che:

\bm{a} \cdot \bm{b} = 0.

TipOsservazione

La definizione dell’angolo tra vettori è specifica per vettori reali, poiché utilizza il concetto di coseno. Tuttavia, la definizione di ortogonalità è valida anche per vettori complessi e per qualsiasi prodotto scalare. Questo perché l’ortogonalità è una proprietà puramente algebrica, che dipende solo dal prodotto scalare tra i vettori.

TipEsempio

I vettori

\bm{a} = \begin{pmatrix}1 \\ 2 \\ 3 \end{pmatrix}, \qquad \bm{b} = \begin{pmatrix}1 \\ -2 \\ 1\end{pmatrix},

sono ortogonali (cioè \bm{a}\bot\bm{b}) infatti

\bm{a}\cdot\bm{b} = 1\cdot 1 + 2 \cdot (-2) + 3 \cdot 1 = 0,

analogamente i vettori

\bm{x} = \begin{pmatrix}1+\mathrm{i} \\ 1 \\ 1 \end{pmatrix}, \qquad \bm{y} = \begin{pmatrix}1+\mathrm{i} \\ -1 \\ -1\end{pmatrix},

sono ortogonali infatti

\bm{x}\cdot\bm{y} = (1+\mathrm{i} )(\overline{1+\mathrm{i} }) + 1 \cdot (-1) + 1 \cdot (-1) = 0.

3.6 Prodotto Vettoriale

Consideriamo due vettori \bm{a} e \bm{b} nello spazio tridimensionale \Bbb{R}^3. Vogliamo trovare un terzo vettore \bm{x} che sia ortogonale a entrambi i vettori dati. Algebricamente, il problema può essere formulato come:

\text{Trovare } \bm{x} \in \Bbb{R}^3 \text{ tale che:} \left\{\begin{matrix} \bm{a} \cdot \bm{x} &= 0, \\ \bm{b} \cdot \bm{x} &= 0. \end{matrix}\right.

Espresso in termini delle componenti dei vettori, questo diventa:

\left\{\begin{matrix} a_1 x_1 + a_2 x_2 + a_3 x_3 &= 0, \\ b_1 x_1 + b_2 x_2 + b_3 x_3 &= 0. \end{matrix}\right. \tag{3.12}

Una soluzione a questo sistema di equazioni è data dalle componenti:

\left\{\begin{matrix} x_1 &= a_2 b_3 - a_3 b_2, \\ x_2 &= a_3 b_1 - a_1 b_3, \\ x_3 &= a_1 b_2 - a_2 b_1. \end{matrix}\right. \tag{3.13}

Questa soluzione è conosciuta come prodotto vettoriale e si indica con:

\bm{x} = \bm{a} \wedge \bm{b}.

Inoltre, possiamo verificare la seguente relazione:

(\|\bm{a} \wedge \bm{b}\|_2)^2 + (\bm{a} \cdot \bm{b})^2 = (\|\bm{a}\|_2)^2 (\|\bm{b}\|_2)^2, \tag{3.14}

da cui, utilizzando la formula sopra, otteniamo:

\|\bm{a} \wedge \bm{b}\|_2 = \|\bm{a}\|_2 \|\bm{b}\|_2 \sin \theta_{\bm{a} \bm{b}}.

Il prodotto vettoriale è molto utile in geometria nello spazio. Per esempio, per trovare l’equazione di un piano che passa per tre punti distinti \bm{a}, \bm{b}, e \bm{c}, possiamo usare il prodotto vettoriale. Definiamo i vettori:

\bm{v} = \bm{b} - \bm{a}, \quad \bm{w} = \bm{c} - \bm{a},

che sono vettori complanari al piano. Il vettore normale al piano è dato da:

\bm{N} = \bm{v} \wedge \bm{w}.

L’equazione del piano può quindi essere scritta come:

\bm{N} \cdot \bm{x} = \bm{N} \cdot \bm{a}.

Figure 3.3: piano per 3 punti
TipEsempio

Dati i punti

\bm{a} = \begin{pmatrix}1 \\ 0 \\1\end{pmatrix}, \qquad \bm{b} = \begin{pmatrix}0 \\ 2 \\1\end{pmatrix}, \qquad \bm{c} = \begin{pmatrix}1 \\ 2 \\3\end{pmatrix},

trovare il piano passante per \bm{a}, \bm{b} e \bm{c}. Calcoliamo innanzitutto

\begin{aligned} \bm{v} &= \bm{b}-\bm{a} = \begin{pmatrix}0 \\ 2 \\1\end{pmatrix} - \begin{pmatrix}1 \\ 0 \\1\end{pmatrix} = \begin{pmatrix}-1 \\ 2 \\0\end{pmatrix}, \\ \bm{w} &= \bm{c}-\bm{a} = \begin{pmatrix}1 \\ 2 \\3\end{pmatrix} - \begin{pmatrix}1 \\ 0 \\1\end{pmatrix} = \begin{pmatrix}0 \\ 2 \\2\end{pmatrix}, \end{aligned}

da cui

\bm{N} = \bm{v}\wedge\bm{w} = \begin{pmatrix}-1 \\ 2 \\0\end{pmatrix}\wedge \begin{pmatrix}0 \\ 2 \\2\end{pmatrix} = \begin{pmatrix}4 \\ 2 \\ -2\end{pmatrix},

e infine

\bm{N}\cdot\bm{x} = 4x_1 +2x_2 -2x_3 ,\qquad \bm{N}\cdot\bm{a} = 2,

ponendo \bm{x}=\begin{pmatrix}x,y,z\end{pmatrix}^{T} otteniamo l’equazione del piano

2x+y-z = 1.

3.7 Indipendenza Lineare e Basi in \Bbb{K}^n

Il concetto di dipendenza e indipendenza lineare è fondamentale in algebra lineare.

Definition 3.6 (Indipendenza Lineare) Consideriamo k vettori non nulli \bm{x}_1, \bm{x}_2, \ldots, \bm{x}_k in uno spazio vettoriale. Questi vettori sono detti linearmente dipendenti se esistono degli scalari \alpha_1, \alpha_2, \ldots, \alpha_k, con almeno uno di essi non nullo, tali che:

\alpha_1 \bm{x}_1 + \alpha_2 \bm{x}_2 + \cdots + \alpha_k \bm{x}_k = 0.

Se, invece, non esistono tali scalari e l’unica soluzione all’equazione sopra è quella triviale, cioè tutti gli scalari sono zero, allora i vettori \bm{x}_1, \bm{x}_2, \ldots, \bm{x}_k sono detti linearmente indipendenti.

Consideriamo k vettori linearmente indipendenti in \Bbb{K}^n, denotati con \bm{x}_1, \bm{x}_2, \ldots, \bm{x}_k. Dato un vettore \bm{w} \in \Bbb{K}^n, è possibile che \bm{w} possa essere scritto come una combinazione lineare di questi vettori. In altre parole, esistono scalari \alpha_1, \alpha_2, \ldots, \alpha_k tali che:

\bm{w} = \alpha_1 \bm{x}_1 + \alpha_2 \bm{x}_2 + \cdots + \alpha_k \bm{x}_k.

Questi scalari \alpha_i sono scelti in modo tale che l’equazione sia soddisfatta.

Definition 3.7 (Base) Se i vettori \bm{x}_1, \bm{x}_2, \ldots, \bm{x}_k sono tali che ogni vettore \bm{w} \in \Bbb{K}^n può essere espresso come una combinazione lineare di essi, allora diremo che questi vettori formano una base di \Bbb{K}^n. Affinché ciò accada, è necessario che il numero di vettori k sia uguale alla dimensione dello spazio, cioè k = n.

Inoltre, questa condizione è anche sufficiente. Infatti, se si scelgono n vettori qualsiasi in \Bbb{K}^n che siano linearmente indipendenti, allora questi vettori formano sempre una base di \Bbb{K}^n.

Example 3.1 (Esempio) Consideriamo i vettori \bm{e}_1, \bm{e}_2, \ldots, \bm{e}_n in \Bbb{K}^n, definiti come segue:

\bm{e}_1 = \begin{pmatrix} 1 \\ 0 \\ 0 \\ \vdots \\ 0 \end{pmatrix}, \qquad \bm{e}_2 = \begin{pmatrix} 0 \\ 1 \\ 0 \\ \vdots \\ 0 \end{pmatrix}, \qquad \cdots, \qquad \bm{e}_n = \begin{pmatrix} 0 \\ 0 \\ \vdots \\ 0 \\ 1 \end{pmatrix}.

Questi vettori sono chiaramente linearmente indipendenti. Infatti, se consideriamo la combinazione lineare

\alpha_{1}\bm{e}_1 + \alpha_{2}\bm{e}_2 + \cdots + \alpha_{n}\bm{e}_n = \begin{pmatrix} \alpha_{1} \\ \alpha_{2} \\ \vdots \\ \alpha_{n} \end{pmatrix},

questa sarà nulla se e solo se tutti i coefficienti \alpha_{i} sono zero, cioè \alpha_{i} = 0 per i = 1, 2, \ldots, n.

TipEsempio

I vettori \bm{e}_1, \bm{e}_2, \ldots, \bm{e}_n, come definiti nell’esempio Example 3.1, formano una base di \Bbb{K}^n. Per ogni vettore \bm{w} \in \Bbb{K}^n con componenti w_1, w_2, \ldots, w_n, possiamo esprimere \bm{w} come una combinazione lineare di questi vettori:

\bm{w} = w_1 \bm{e}_1 + w_2 \bm{e}_2 + \cdots + w_n \bm{e}_n.

Questa base è chiamata base canonica di \Bbb{K}^n.

TipEsempio

Consideriamo i vettori

\bm{a} = \begin{pmatrix}1 \\ 2 \\ 3\end{pmatrix}, \qquad \bm{b} = \begin{pmatrix}1 \\ -2 \\ 1\end{pmatrix}, \qquad \bm{c} = \begin{pmatrix}-1 \\ 6 \\ 1\end{pmatrix}.

Questi vettori non sono linearmente indipendenti. Infatti, è facile verificare che

\bm{a} - 2\bm{b} + \bm{c} = \bm{0}.

Questo implica che esiste una combinazione lineare non banale (con coefficienti diversi da zero) che dà come risultato il vettore nullo.

3.8 Indipendenza lineare dei vettori ortogonali

Theorem 3.6 I k vettori \bm{x}_1, \bm{x}_2, , \bm{x}_k che sono ortogonali a coppie,

\bm{x}_i \bot \bm{x}_j \quad \text{per } i \neq j,

sono necessariamente linearmente indipendenti.

Proof. Supponiamo che esistano k scalari \alpha_{1}, \alpha_{2}, , \alpha_{k} tali che

\alpha_{1}\bm{x}_1 + \alpha_{2}\bm{x}_2 + \cdots + \alpha_{k}\bm{x}_k = \bm{0}.

Per dimostrare che i vettori sono linearmente indipendenti, consideriamo il prodotto scalare di entrambi i lati dell’equazione con il vettore \bm{x}_i per i = 1, 2, \ldots, k. Utilizzando l’ortogonalità dei vettori, otteniamo:

\begin{aligned} 0 &= \bm{x}_i \cdot (\alpha_{1}\bm{x}_1 + \alpha_{2}\bm{x}_2 + \cdots + \alpha_{k}\bm{x}_k), \\ &= \alpha_{1} (\bm{x}_i \cdot \bm{x}_1) + \alpha_{2} (\bm{x}_i \cdot \bm{x}_2) + \cdots + \alpha_{i} (\bm{x}_i \cdot \bm{x}_i) + \cdots + \alpha_{k} (\bm{x}_i \cdot \bm{x}_k). \end{aligned}

Poiché \bm{x}_i \cdot \bm{x}_j = 0 per i \neq j, rimane

0 = \alpha_{i} (\bm{x}_i \cdot \bm{x}_i).

Dato che \bm{x}_i \cdot \bm{x}_i > 0 (perché \bm{x}_i è un vettore non nullo), segue che \alpha_{i} = 0.

Quindi, tutti i coefficienti \alpha_{i} devono essere zero, il che dimostra che i vettori \bm{x}_1, \bm{x}_2, , \bm{x}_k sono linearmente indipendenti.

3.9 Ortonormalizzazione di Gram9-Schmidt10

Definition 3.8 (Vettori ortogonali) Dati k vettori \bm{v}_1, \bm{v}_2,, \bm{v}_k, diremo che gli stessi formano un sistema ortogonale se sono a due a due ortogonali, cioè

\bm{v}_i \bot\bm{v}_j, \qquad i \neq j.

Definition 3.9 (Vettori ortonormali) Dati k vettori \bm{u}_1, \bm{u}_2,, \bm{u}_k, diremo che gli stessi formano un sistema ortonormale se sono a due a due ortogonali e di norma 1, cioè

\|\bm{u}_i\|_2=1, \qquad \bm{u}_i \bot\bm{u}_j, \quad i \neq j.

Definition 3.10 (Span) Dati k vettori \bm{v}_1, \bm{v}_2,, \bm{v}_k, definiremo con \textrm{span}(\bm{v}_1,\bm{v}_2,\ldots,\bm{v}_k) lo spazio vettoriale generato dalle loro combinazioni lineari

\textrm{span}(\bm{v}_1,\bm{v}_2,\ldots,\bm{v}_k)= \left\{ \alpha_1\bm{v}_1+\alpha_2\bm{v}_2+\cdots+\alpha_k\bm{v}_k \;|\; \alpha_1,\alpha_2,\ldots,\alpha_k\in \Bbb{K} \right\}

Dati k vettori \bm{v}_1, \bm{v}_2,, \bm{v}_k, linearmente indipendenti è possibile costruire k vettori \bm{u}_1, \bm{u}_2,, \bm{u}_k a due a due ortogonali e di norma unitaria tali che

\textrm{span}(\bm{v}_1,\bm{v}_2,\ldots,\bm{v}_k) =\textrm{span}(\bm{u}_1,\bm{u}_2,\ldots,\bm{u}_k).

Theorem 3.7 Ortonormalizzazione di Gram-Schmidt

Consideriamo k vettori \bm{v}_1, \bm{v}_2, , \bm{v}_k che sono linearmente indipendenti. Possiamo costruire una nuova sequenza di k vettori ortonormali \bm{u}_1, \bm{u}_2, , \bm{u}_k che soddisfano le seguenti proprietà:

  1. \bm{u}_1 = \dfrac{\bm{v}_1}{\|\bm{v}_1\|_2}:

    Il primo vettore \bm{u}_1 è ottenuto normalizzando \bm{v}_1.

  2. \bm{u}_i \bot \bm{u}_j per ogni i \neq j:

    I vettori \bm{u}_i sono ortogonali tra loro.

  3. \|\bm{u}_i\|_2 = 1 per ogni i = 1, 2, \ldots, k:

    Ogni vettore \bm{u}_i è normalizzato, cioè ha lunghezza unitaria.

  4. \bm{V}_j = \bm{U}_j per ogni j = 1, 2, \ldots, k:

    Lo span dei primi j vettori \bm{v}_i è lo stesso dello span dei primi j vettori ortonormali \bm{u}_i, dove

    \bm{V}_j = \text{span}(\bm{v}_1, \bm{v}_2, \ldots, \bm{v}_j)

    e

    \bm{U}_j = \text{span}(\bm{u}_1, \bm{u}_2, \ldots, \bm{u}_j) .

Proof. Dati k vettori \bm{v}_1, \bm{v}_2, , \bm{v}_k che sono linearmente indipendenti, notiamo che \|\bm{v}_i\|_2 \neq 0 per ogni i = 1, 2, \ldots, k. Quindi, possiamo sempre normalizzare il primo vettore \bm{v}_1 definendo \bm{u}_1 = \frac{\bm{v}_1}{\|\bm{v}_1\|_2}. La dimostrazione procede per induzione.

  • Passo 1:

    Per k = 1, il teorema è ovviamente vero, poiché abbiamo \bm{u}_1 = \frac{\bm{v}_1}{\|\bm{v}_1\|_2}, che soddisfa tutte le condizioni richieste.

  • Passo 2:

    Supponiamo che il teorema sia vero per k - 1 vettori. Ovvero, assumiamo di avere già trovato k - 1 vettori ortonormali \bm{u}_1, \bm{u}_2, , \bm{u}_{k-1} tali che:

    \bm{u}_1 = \frac{\bm{v}_1}{\|\bm{v}_1\|_2}, \quad \bm{V}_j = \bm{U}_j \text{ per } j = 1, 2, \ldots, k - 1

    Definiamo ora il vettore ausiliario \bm{w}_k e il vettore ortonormale \bm{u}_k come segue:

    \begin{aligned} \bm{w}_k &= \bm{v}_k - \sum_{i=1}^{k-1} \beta_i \bm{u}_i, \\ \bm{u}_k &= \alpha \bm{w}_k, \end{aligned}

    dove i coefficienti \alpha e \beta_i devono essere scelti in modo che \bm{u}_k \bot \bm{u}_i per ogni i = 1, 2, \ldots, k - 1 e \|\bm{u}_k\|_2 = 1.

    Calcoliamo il prodotto scalare di \bm{w}_k con \bm{u}_j:

    \bm{w}_k \cdot \bm{u}_j = \bm{v}_k \cdot \bm{u}_j - \sum_{i=1}^{k-1} \beta_i \bm{u}_i \cdot \bm{u}_j = \bm{v}_k \cdot \bm{u}_j - \beta_j \quad \text{per } j = 1, 2, \ldots, k - 1

    Impostando \bm{w}_k \cdot \bm{u}_j = 0, otteniamo:

    \beta_j = \bm{v}_k \cdot \bm{u}_j \quad \text{per } j = 1, 2, \ldots, k - 1

    Per determinare \alpha, imponiamo che \|\bm{u}_k\|_2 = 1:

    1 = \|\bm{u}_k\|_2^2 = \bm{u}_k \cdot \bm{u}_k = \alpha^2 (\bm{w}_k \cdot \bm{w}_k) = \alpha^2 \|\bm{w}_k\|_2^2

    Da cui si ottiene \alpha = \frac{1}{\|\bm{w}_k\|_2}. È necessario che \bm{w}_k \neq \bm{0}; altrimenti, avremmo:

    \bm{0} = \bm{v}_k - \sum_{i=1}^{k-1} \beta_i \bm{u}_i

    Poiché \bm{U}_{k-1} = \bm{V}_{k-1}, esisterebbero k-1 scalari \gamma_i per cui:

    \bm{v}_k = \sum_{i=1}^{k-1} \beta_i \bm{u}_i = \sum_{i=1}^{k-1} \gamma_i \bm{v}_i

    Questo contraddice l’indipendenza lineare dei vettori \bm{v}_i.

  • Passo 3:

    Infine, dobbiamo verificare che \bm{U}_k = \bm{V}_k. Consideriamo una combinazione lineare generica dei vettori \bm{v}_i:

    \bm{z} = \sum_{i=1}^{k} \eta_i \bm{v}_i

    Mostriamo che \bm{z} \in \bm{U}_k. Per l’ipotesi induttiva, esistono k-1 scalari \zeta_i tali che:

    \sum_{i=1}^{k-1} \eta_i \bm{v}_i = \sum_{i=1}^{k-1} \zeta_i \bm{u}_i

    Utilizzando la relazione:

    \bm{v}_k = \frac{\bm{u}_k}{\alpha} + \sum_{i=1}^{k-1} \beta_i \bm{u}_i

    Otteniamo:

    \bm{z} = \frac{\eta_k}{\alpha} \bm{u}_k + \eta_k \sum_{i=1}^{k-1} \beta_i \bm{u}_i + \sum_{i=1}^{k-1} \zeta_i \bm{u}_i = \frac{\eta_k}{\alpha} \bm{u}_k + \sum_{i=1}^{k-1} (\zeta_i + \eta_k \beta_i) \bm{u}_i

    Quindi, \bm{z} \in \bm{U}_k, e poiché \bm{z} è arbitrario, abbiamo \bm{V}_k \subset \bm{U}_k.

    Viceversa, se \bm{z} \in \bm{U}_k, possiamo scrivere:

    \bm{z} = \sum_{i=1}^{k} \zeta_i \bm{u}_i

    e utilizzando la relazione:

    \bm{z} = \zeta_k \alpha \left( \bm{v}_k - \sum_{i=1}^{k-1} \beta_i \bm{u}_i \right) + \sum_{i=1}^{k-1} \zeta_i \bm{u}_i = \zeta_k \alpha \bm{v}_k - \sum_{i=1}^{k-1} (\zeta_i - \zeta_k \alpha \beta_i) \bm{u}_i

    Per l’ipotesi induttiva, esistono k-1 scalari \omega_i tali che:

    \sum_{i=1}^{k-1} (\zeta_i - \zeta_k \alpha \beta_i) \bm{u}_i = \sum_{i=1}^{k-1} \omega_i \bm{v}_i

    Quindi, \bm{z} \in \bm{V}_k. Poiché \bm{z} è arbitrario, abbiamo \bm{U}_k \subset \bm{V}_k, e quindi \bm{U}_k = \bm{V}_k.

Questo teorema porta al seguente algoritmo per l’ortonormalizzazione di un insieme di vettori:

  • Input: n vettori linearmente indipendenti \bm{v}_1, \bm{v}_2, , \bm{v}_n
  • Passo 1: Calcola il primo vettore ortonormale:
    • \bm{u}_1 \gets \frac{\bm{v}_1}{\|\bm{v}_1\|_2}
  • Passo 2: Per ogni k da 2 a n:
    • Calcola il vettore ausiliario \bm{w}_k: \bm{w}_k \gets \bm{v}_k - \sum_{i=1}^{k-1} (\bm{v}_k \cdot \bm{u}_i) \bm{u}_i
    • Normalizza \bm{w}_k per ottenere il vettore ortonormale \bm{u}_k: \bm{u}_k \gets \frac{\bm{w}_k}{\|\bm{w}_k\|_2}
  • Output: I vettori \bm{u}_1, \bm{u}_2, , \bm{u}_n sono ortonormali.
TipOsservazione

Consideriamo la matrice \bm{Q}\in \Bbb{R}^{m \times k} definita come

\bm{Q} = [\bm{u}_1, \bm{u}_2, \ldots, \bm{u}_k],

dove le colonne \bm{u}_j sono i vettori ortonormali ottenuti tramite il procedimento di Gram-Schmidt. L’ortonormalità di questi vettori è espressa dalla seguente proprietà della matrice \bm{Q}:

\bm{Q}^T \bm{Q} = \bm{I} \in \Bbb{R}^{k \times k},

dove \bm{I} è la matrice identità di dimensione k \times k.

È importante notare che, se k < m, la matrice \bm{Q} \bm{Q}^T non è in generale la matrice identità di dimensione m \times m. In realtà, la matrice \bm{Q} \bm{Q}^T soddisfa le seguenti proprietà:

\bm{P} = \bm{Q} \bm{Q}^T \quad \text{con} \quad \bm{P}^2 = \bm{P} \quad \text{e} \quad \bm{P}^T = \bm{P},

dove \bm{P} è una matrice di proiezione ortogonale. Quindi, la matrice \bm{Q} \bm{Q}^T è un proiettore ortogonale.

TipOsservazione

Data una base di k vettori linearmente indipendenti

\{\bm{u}_1, \bm{u}_2, \ldots, \bm{u}_k\} \text{ in } \Bbb{K}^n

che sono ortonormali a coppie, è sempre possibile estendere questo insieme a una base ortonormale completa di \Bbb{K}^n.

In particolare, è possibile trovare n - k vettori aggiuntivi

\{\bm{u}_{k+1}, \bm{u}_{k+2}, \ldots, \bm{u}_n\}

in modo che l’insieme completo

\{\bm{u}_1, \bm{u}_2, \ldots, \bm{u}_n\}

sia una base ortonormale di \Bbb{K}^n. Infatti, partendo da una base qualsiasi, è sufficiente rimuovere i vettori linearmente dipendenti dai vettori \bm{u}_1, \bm{u}_2, \ldots, \bm{u}_k. I vettori rimanenti, insieme ai vettori iniziali, formeranno una base ortonormale. Utilizzando il procedimento di ortonormalizzazione, otteniamo una base ortonormale completa, senza modificare i vettori \bm{u}_1, \bm{u}_2, \ldots, \bm{u}_k originali.


  1. Pitagora (580 a.C.-500 a.C.)↩︎

  2. William Henry Young (1863-1942)↩︎

  3. Ludwig Otto Hölder 1859-1937.↩︎

  4. Hermann Minkowski (1864-1909)↩︎

  5. O entrambe simultaneamente, ma basta considerare uno dei due casi per procedere!↩︎

  6. Nella figura, l’angolo tra i vettori \bm{a} e \bm{b} è indicato con il simbolo \theta per ragioni tipografiche, anziché con \theta_{\bm{a}\bm{b}}.↩︎

  7. Augustin Louis Cauchy (1789-1857)↩︎

  8. Karl Herman Amandus Schwarz (1843-1921).↩︎

  9. Jorgen Pedersen Gram (1850-1916)↩︎

  10. Erhard Schmidt (1876-1959)↩︎