THMMY's "Optimization Techniques" course assignments.
You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

Work3_report.tex 21 KiB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246
  1. %
  2. % Optimization Techniques Work 3 report
  3. %
  4. % authors:
  5. % Χρήστος Χουτουρίδης ΑΕΜ 8997
  6. % cchoutou@ece.auth.gr
  7. \documentclass[a4paper, 11pt]{AUTHReport}
  8. % Document configuration
  9. \AuthorName{Χρήστος Χουτουρίδης}
  10. \AuthorAEM{8997}
  11. \AuthorMail{cchoutou@ece.auth.gr}
  12. %\CoAuthorName{CoAuthor Name}
  13. %\CoAuthorAEM{AEM}
  14. %\CoAuthorMail{CoAuthor Mail}
  15. % \WorkGroup{Ομάδα Χ}
  16. \DocTitle{3η Εργαστηριακή Άσκηση}
  17. \DocSubTitle{Μέθοδος Μέγιστης Καθόδου με Προβολή}
  18. \Department{Τμήμα ΗΜΜΥ. Τομέας Ηλεκτρονικής}
  19. \ClassName{Τεχνικές Βελτιστοποίησης}
  20. \InstructorName{Γ. Ροβιθάκης}
  21. \InstructorMail{rovithak@auth.gr}
  22. \CoInstructorName{Θ. Αφορόζη}
  23. \CoInstructorMail{taforozi@ece.auth.gr}
  24. \CurrentDate{\today}
  25. \usepackage{enumitem}
  26. \usepackage{tabularx}
  27. \usepackage{array}
  28. \usepackage{amssymb}
  29. \usepackage{amsfonts}
  30. \usepackage{amsmath}
  31. \usepackage{commath}
  32. \usepackage{float}
  33. \usepackage[labelformat=empty]{subcaption}
  34. \begin{document}
  35. \InsertTitle
  36. %\tableofcontents
  37. \section{Εισαγωγή}
  38. Η παρούσα εργασία αφορά το πρόβλημα της ελαχιστοποίησης μιας δοσμένης συνάρτησης πολλών μεταβλητών $f: \mathbb{R}^n \rightarrow \mathbb{R}$ με περιορισμούς χρησιμοποιώντας τη μέθοδο μέγιστης καθόδου με προβολή.
  39. Η μέθοδος αυτή θα εκτελεστεί σε αντιπαραβολή με την αντίστοιχη μέθοδο χωρίς περιορισμούς από την προηγούμενη εργασία.
  40. Για το λόγο αυτό χρησιμοποιούμε των κώδικα της προηγούμενης εργασίας με κάποιες τροποποιήσεις, όπως θα δούμε και παρακάτω.
  41. \subsection{Παραδοτέα}
  42. Τα παραδοτέα της εργασίας αποτελούνται από:
  43. \begin{itemize}
  44. \item Την παρούσα αναφορά.
  45. \item Τον κατάλογο \textbf{scripts/}, που περιέχει τον κώδικα της MATLAB.
  46. \item Το \href{https://git.hoo2.net/hoo2/OptimizationTechniques/src/branch/master/Work%203}{σύνδεσμο} με το αποθετήριο που περιέχει όλο το project με τον κώδικα της MATLAB, της αναφοράς και τα παραδοτέα.
  47. \end{itemize}
  48. \subsection{Προγραμματιστική προσέγγιση}
  49. Για τον προγραμματισμό και εκτέλεση των μεθόδων της παρούσας εργασίας έγινε χρήση της MATLAB.
  50. Στον κατάλογο \textbf{scripts}, περιέχονται όλες οι μέθοδοι και οι τεχνικές υπολογισμού βημάτων με τη μορφή συναρτήσεων καθώς και scripts που τις καλούν.
  51. Για κάθε ένα θέμα της εργασίας, υπάρχει το αντίστοιχο script που περιέχει τους υπολογισμούς, τις κλήσεις των μεθόδων και τη δημιουργία των διαγραμμάτων.
  52. Για το πρώτο θέμα το αρχείο Script\_1\_SteepDesc.m για το δεύτερο το Script\_2\_SteepDesc\_Proj.m και ούτω καθεξής.
  53. Η μέθοδος μέγιστης καθόδου (αρχείο: \textbf{method\_SteepDesc.m}) είναι η ίδια με αυτή της προηγούμενης εργασίας με τη μόνη διαφορά ότι τροποποιήθηκε ώστε η αντικειμενική συνάρτηση να δέχεται διάνυσμα ώς όρισμα και όχι δύο διαφορετικές μεταβλητές $x, y$.
  54. Αυτό ακολουθήθηκε και για την έκδοση με προβολή και φυσικά είχε αντίκτυπο και στις υπόλοιπες συναρτήσεις, όπως η κλίση ή ο Εσσιανός.
  55. Στην παρούσα εργασία η υλοποίηση του κώδικα ακολουθεί την προσέγγιση των προηγούμενων εργασιών.
  56. Πιο συγκεκριμένα.
  57. \subsection{Μέθοδοι επιλογής βήματος}
  58. Εφόσον στην προηγούμενη εργασία οι μέθοδοι επιλογής βήματος ήταν ανεξάρτητες από την μέθοδο υπολογισμού του ελάχιστου και εφόσον χρησιμοποιούμε τον ίδιο κώδικά και στην παρούσα εργασία, αυτός ο τρόπος σχεδίασης παρέμεινε.
  59. Ουσιαστικά για κάθε ένα τρόπο υπολογισμού του $\gamma_k$, υπάρχει αντίστοιχη συνάρτηση, με κοινό interface.
  60. Αυτό έχει τη μορφή: \textit{\textbf{gamma\_<method>(f, grad\_f, dk, xk)}}, όπου το \textbf{f} είναι η αντικειμενική συνάρτηση, \textbf{grad\_f} η συνάρτηση κλίσης της, \textbf{dk} η τιμή της συνάρτησης κλίσης στο xk και \textbf{xk} το σημείο ενδιαφέροντος.
  61. Έτσι οι μέθοδοι αντιγράφηκαν και εδώ για ολότητα, ακόμα και αν για την παρούσα εργασία χρησιμοποιείται μόνο το σταθερό βήμα $\gamma_k$.
  62. %\subsection{Symbolic expression functions}
  63. %Μία ακόμη προγραμματιστική τεχνική που ακολουθήθηκε είναι η χρήση \textbf{symbolic expression} για την αναπαράσταση της αντικειμενικής συνάρτησης.
  64. %Η εξήγηση υπάρχει και στις προηγούμενες εργασίες αλλά την παραθέτουμε εδώ για ολότητα.
  65. %Ο λόγος που επιλέχθηκε είναι η \textbf{δυνατότητα εξαγωγής ενός symbolic expression που αναπαριστά την κλίση $\nabla f$ και τον Εσσιανό $\nabla^2f$ μιας συνάρτησης} από την MATLAB, κάνοντας χρήση των εντολών \textit{gradient()} και \textit{hessian()}.
  66. %Αν αντίθετα χρησιμοποιούσαμε απλές συναρτήσεις, πολυώνυμα ή lambdas για την αναπαράσταση των αντικειμενικών συναρτήσεων, τότε για τον υπολογισμό της κλίσης και του Εσσιανού θα έπρεπε:
  67. %\begin{itemize}
  68. % \item Είτε να υπολογίζαμε αριθμητικά τις παραγώγους gradient και hessian μέσα στις μεθόδους, κάτι που θα εισήγαγε \textit{\textbf{αχρείαστο αριθμητικό σφάλμα}}.
  69. % \item Είτε να κάναμε χρήση δύο επιπλέων συναρτήσεων (ή πολυωνύμων) για την αναπαράσταση τους, κάτι που ουσιαστικά θα δημιουργούσε \textit{\textbf{πλεονασμό πληροφορίας εισόδου}} και άρα μεγαλύτερη πιθανότητα να κάνουμε λάθος.
  70. %\end{itemize}
  71. %Η αναπαράσταση όμως με χρήση symbolic expression είναι πιο “βαριά” όταν χρειάζεται να υπολογίσουμε την τιμή μιας συνάρτησης σε κάποιο σημείο (subs(expr, number)).
  72. %Αυτό είναι κάτι που χρειάζεται εκτενώς στον κώδικά μας.
  73. %Για το λόγο αυτό, ενώ η συνάρτηση δίνεται ως symbolic expression, μέσω αυτής υπολογίζονται αυτόματα η κλίση, ο Εσσιανός αλλά και οι “κανονικές” συναρτήσεις MATLAB που τις υλοποιούν.
  74. %Έτσι έχουμε την ακριβή αναπαράσταση της κλίσης και του Εσσιανού ως συναρτήσεις χωρίς να πληρώνουμε το κόστος της subs().
  75. \section{Απεικόνιση της συνάρτησης}
  76. Η συνάρτηση με την οποία ασχολούμαστε στην παρούσα εργασία είναι η:
  77. \boldmath
  78. \begin{equation}
  79. f: \mathbb{R}^2 \rightarrow \mathbb{R}, f(x) = \frac{1}{3}{x_1}^2 + 3{x_2}^2, x = \begin{bmatrix} x_1 \\ x_2 \end{bmatrix}
  80. \end{equation}
  81. \label{eq:ObjectiveFunction}
  82. Όπου $ -10 \leq x_1 \leq 5 $ και $ -8 \leq x_2 \leq 12 $ \\
  83. \unboldmath
  84. Στο παρακάτω σχήμα \ref{fig:plot3dFunction} φαίνεται η τρισδιάστατη απεικόνιση της συνάρτησης.
  85. \InsertFigure{!h}{0.8}{fig:plot3dFunction}{../scripts/figures/Plot_Function.png}{Γραφική παράσταση της f}
  86. Από το σχήμα μπορούμε πολύ εύκολα να διακρίνουμε ότι η συνάρτηση είναι κυρτή στο σύνολο των περιορισμών της εκφώνησης $ -10 \leq x_1 \leq 5 $ και $ -8 \leq x_2 \leq 12 $.
  87. Για να πάρουμε μια καλύτερη αίσθηση για το που βρίσκεται το τοπικό ελάχιστο της $f$, παρακάτω παραθέτουμε ένα γράφημα με τις ισοβαρείς καμπύλες της $f$.
  88. \InsertFigure{H}{0.8}{fig:plotContour}{../scripts/figures/Plot_Contour.png}{Ισοβαρείς της f}
  89. Από το παραπάνω σχήμα \ref{fig:plotContour} φαίνονται και γραφικά οι μικρές κλίσης που παρουσιάζει η συνάρτηση κοντά στο ελάχιστο σημείο $(0,0)$.
  90. Τα διαγράμματα για τη μέθοδο δημιουργούνται εκτελώντας το αρχείο \textbf{Script\_0\_Plots.m}
  91. \section{Μέθοδος Μέγιστης Καθόδου χωρίς περιορισμούς - Θέμα 1}
  92. Εφαρμόζοντας την μέθοδο μέγιστης καθόδου από την προηγούμενη εργασία, με ακρίβεια $\epsilon = 0.001$, για τα βήματα $\gamma_k$ της εκφώνησης, παρατηρούμε ότι η μέθοδος συγκλίνει στο ελάχιστο για μικρά $\gamma_k$ ενώ αποκλίνει για μεγάλα \boldmath$\gamma_k \geq 0.34$\unboldmath.
  93. Από τις δοκιμές φαίνεται ότι το σημείο εκκίνησης δεν παίζει ρόλο και για αυτό επιλέξαμε να παραθέσουμε τα ευρήματά μας από το σημείο $(5,-5)$, για αντιπαραβολή με το επόμενο βήμα της εκφώνησης.
  94. \InsertFigure{H}{0.6}{fig:StDes_Iter_o_gamma_2}{../scripts/figures/StDes_Iter_o_gamma_1.png}{Αριθμός επαναλήψεων για διαφορετικές τιμές $\gamma_k$ [Μέγιστη Κάθοδος].}
  95. Επίσης παρατηρούμε ότι για μικρό \boldmath$\gamma_k = 0.1$ η σύγκλιση είναι ομαλή, ενώ για μεγάλο $\gamma_k = 0.3$ \unboldmath παρουσιάζει ταλάντωση κατά την σύγκλιση.
  96. Παρακάτω στο σχήμα \ref{fig:StDes_gamma} παραθέτουμε την πορεία σύγκλισης και απόκλισης για τις διαφορετικές τιμές του $\gamma_k$.
  97. \begin{figure}[ht]
  98. \centering
  99. % First row
  100. \begin{subfigure}{0.45\textwidth}
  101. \centering
  102. \includegraphics[width=\linewidth]{../scripts/figures/StDes_gamma_0.1.png}
  103. \caption{$\gamma_k = 0.1$}
  104. \label{fig:StDes_gamma_0.1}
  105. \end{subfigure}
  106. \hfill
  107. \begin{subfigure}{0.45\textwidth}
  108. \centering
  109. \includegraphics[width=\linewidth]{../scripts/figures/StDes_gamma_0.3.png}
  110. \caption{$\gamma_k = 0.3$}
  111. \label{fig:StDes_gamma_0.3}
  112. \end{subfigure}
  113. % Second row
  114. \vspace{1em}
  115. \begin{subfigure}{0.45\textwidth}
  116. \centering
  117. \includegraphics[width=\linewidth]{../scripts/figures/StDes_gamma_3.png}
  118. \caption{$\gamma_k = 3$}
  119. \label{fig:StDes_gamma_3}
  120. \end{subfigure}
  121. \hfill
  122. \begin{subfigure}{0.45\textwidth}
  123. \centering
  124. \includegraphics[width=\linewidth]{../scripts/figures/StDes_gamma_5.png}
  125. \caption{$\gamma_k = 5$}
  126. \label{fig:StDes_gamma_5}
  127. \end{subfigure}
  128. \caption{Σύγκριση της μεθόδου Steepest descent για διαφορετικά $\gamma_k$}
  129. \label{fig:StDes_gamma}
  130. \end{figure}
  131. \subsection{Μαθηματική ανάλυση}
  132. Τα παραπάνω αποτελέσματα επιβεβαιώνονται και θεωρητικά.
  133. Πιο συγκεκριμένα για τη σύγκλιση της μεθόδου μέγιστης καθόδου όπου το κάθε σημείο υπολογίζεται από την σχέση \boldmath$x_{k+1} = x_k - \gamma_k \nabla f(x_k)$, \unboldmath πρέπει να ισχύουν:
  134. \begin{enumerate}
  135. \item H $f$ να είναι κυρτή.
  136. \item Η $f$ να είναι συνεχής και διαφορίσιμη και η κλίση της υπολογίσιμη.
  137. \item Για το βήμα υπολογισμού να ισχύει η σχέση:
  138. \begin{equation} 0 < \gamma_k < \frac{2}{L} \end{equation} \label{eq:gammaLimmit}
  139. Όπου $L$ το άνω φράγμα της Lipschitz για την κλίση $\nabla f(x)$ (αν είναι γνωστή), η οποία είναι η μέγιστη ιδιοτιμή του Εσσιανού και δίνεται από τη σχέση:
  140. \begin{equation}
  141. L = \max_{x} \{\lambda_{max} (H(x))\}, \quad H(x) = \begin{bmatrix} \dfrac{\theta^2 f(x)}{\theta x_i \theta x_j} \end{bmatrix}
  142. \end{equation}
  143. \label{eq:Lipschitz}
  144. \end{enumerate}
  145. \par
  146. Έτσι για τη δική μας περίπτωση έχουμε:
  147. Η κλίση της $f(x)$ είναι:
  148. \[
  149. \nabla f(x) = \begin{bmatrix} \frac{\partial f}{\partial x1} \\ \frac{\partial f}{\partial x2} \end{bmatrix} = \begin{bmatrix} \frac{2}{3}x_1 \\ 6x_2 \end{bmatrix}
  150. \]
  151. Ο Εσσιανός πίνακας $H(x)$ της $f(x)$ είναι:
  152. \[
  153. H(x) =
  154. \begin{bmatrix}
  155. \frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1 \partial x_2} \\
  156. \frac{\partial^2 f}{\partial x_2 \partial x_1} & \frac{\partial^2 f}{\partial x_2^2}
  157. \end{bmatrix}
  158. =
  159. \begin{bmatrix}
  160. \frac{2}{3} & 0 \\ 0 & 6
  161. \end{bmatrix}
  162. \]
  163. Και εφόσον είναι διαγώνιος οι ιδιοτιμές του είναι οι τιμές της διαγωνίου. Δηλαδή:
  164. \[
  165. \det(H - \lambda I) = 0 \Leftrightarrow \\
  166. \det(\begin{bmatrix}\frac{2}{3} - \lambda & 0 \\ 0 & 6 - \lambda \end{bmatrix}) = 0 \Leftrightarrow \\
  167. \left(\frac{2}{3} - \lambda\right)(6 - \lambda) = 0 \Leftrightarrow \\
  168. \lambda_{\min} = \frac{2}{3}, \quad \lambda_{\max} = 6.
  169. \]
  170. Έτσι από τις εξισώσεις \ref{eq:gammaLimmit} και \ref{eq:Lipschitz} προκύπτει τελικά:
  171. \boldmath\[ 0 < \gamma_k < \frac{1}{3} \]\unboldmath
  172. Βλέπουμε ότι από την ανάλυσή μας επιβεβαιώνουμε τις τιμές που βρήκαμε εμπειρικά από την εκτέλεση του αλγορίθμου.
  173. \subsubsection{Εναλλακτικά}
  174. Αν θέλαμε να βρούμε το κριτήριο σύγκλισης για το βήμα $\gamma_k$ ξεχωριστά για την κάθε διάσταση θα μπορούσαμε να θεωρήσουμε για 3ο κριτήριο πως για να συγκλίνει η μέθοδος θα πρέπει να ισχύει:
  175. \[
  176. \norm{\frac{x_{k+1}}{x_k}} < 1
  177. \]
  178. Από την παραπάνω εξίσωση προκείπτει:
  179. \section{Μέθοδος Μέγιστης Καθόδου με προβολή}
  180. Πριν περάσουμε στις υπόλοιπες απαιτήσεις της εργασίας θα θέλαμε να παραθέσουμε κάποιες πληροφορίες για την υλοποίηση της μεθόδου μέγιστης καθόδου με προβολή (αρχείο: \textbf{method\_SteepDesc\_Proj.m}).
  181. Η συνάρτηση αυτή δέχεται ως είσοδο την αντικειμενική συνάρτηση και την συνάρτηση κλίσης καθώς και το σημείο εκκίνησης $x_k$ και το βήμα $s_k$.
  182. Με τη βοήθεια της συνάρτησης \textit{ProjectionPoint()} \textbf{παίρνει πρώτα την προβολή} του $x_k$ στο διάστημα των περιορισμών αν αυτό χρειάζεται \textbf{και έπειτα εφαρμόζει τον αλγόριθμο}.
  183. Αυτό σημαίνει ότι μπορεί να χρησιμοποιηθεί και για σημεία εκκίνησης εκτός του συνόλου των περιορισμών.
  184. Ο αλγόριθμος είναι παρόμοιος με αυτόν της προηγούμενης εργασίας με τη διαφορά ότι η διεύθυνση $d_k$ επιλέγεται από τη σχέση:
  185. \[
  186. d_k = Pr_X\{ x_k - s_k \nabla f(x_k)\} - x_k
  187. \]
  188. Δηλαδή εφαρμόζουμε πρώτα τη μέθοδο μέγιστης καθόδου με βήμα $s_k$ στην κατεύθυνση $-\nabla f$ και έπειτα προβάλουμε το σημείο στο σύνολο $X$ και χρησιμοποιούμε αυτό ως διεύθυνση με βήμα $\gamma_k$.
  189. \section{Μέθοδος Μέγιστης Καθόδου με προβολή $s_k = 5, \gamma_k = 0.5$ - Θέμα 2}
  190. Εφαρμόζοντας τη μέθοδο για ακρίβεια $\epsilon = 0.01$, $s_k = 5$ και $\gamma_k = 0.5$ έχουμε:
  191. \InsertFigure{H}{0.8}{fig:StDesProj_sk_5_gamma_0.5}{../scripts/figures/StDesProj_sk_5_gamma_0.5.png}{Μέθοδος μέγιστης καθόδου με προβολή για $s_k = 5, \gamma_k = 0.5$.}
  192. Παρατηρούμε πως ενώ η μέθοδος ταλαντώνει και δεν συγκλίνει στο ελάχιστο \textbf{όπως και η αντίστοιχη εκτέλεση της μέγιστης καθόδου χωρίς περιορισμούς με το ίδιο} \boldmath$\gamma_k$\unboldmath.
  193. Παρόλα αυτά όμως, η ταλάντωση λαμβάνει χώρα \textbf{εντός του συνόλου των περιορισμών} της εκφώνησης.
  194. \section{Μέθοδος Μέγιστης Καθόδου με προβολή $s_k = 15, \gamma_k = 0.1$ - Θέμα 3}
  195. Εφαρμόζοντας τη μέθοδο για ακρίβεια $\epsilon = 0.01$, $s_k = 15$ και $\gamma_k = 0.1$ έχουμε:
  196. \InsertFigure{H}{0.8}{fig:StDesProj_sk_15_gamma_0.1}{../scripts/figures/StDesProj_sk_15_gamma_0.1.png}{Μέθοδος μέγιστης καθόδου με προβολή για $s_k = 15, \gamma_k = 0.1$.}
  197. Εδώ παρατηρούμε πως ενώ το $\gamma_k$ έχει επιλεγεί στο εύρος που οδηγεί σε σύγκλιση, το αντίστοιχο βήμα $s_k$ είναι πολύ μεγάλο, με αποτέλεσμα η μέθοδος να ταλαντώνει και πάλι.
  198. Αυτή τη φορά μόνο στον άξονα $x_2$.
  199. \section{Μέθοδος Μέγιστης Καθόδου με προβολή $s_k = 0.1, \gamma_k = 0.2$ - Θέμα 4}
  200. Αρχικά παρατηρούμε πως το σημείο δεν είναι εφικτό, καθώς είναι εκτός του συνόλου των περιορισμών της εκφώνησης.
  201. Αυτό βέβαια δεν μας αποτρέπει από την εφαρμογή της μεθόδου, καθώς αρχικά μπορούμε να προβάλουμε το σημείο στο σύνολο και να εφαρμόσουμε τη μέθοδο έπειτα.
  202. Ακόμα, αυτή τη φορά οι τιμές των βημάτων $s_k, \gamma_k$, έχουν επιλεγεί μέσα στο εύρος για το οποίο έχουμε σύγκλιση, επομένως αναμένουμε η μέθοδος να συγκλίνει στο ελάχιστο.
  203. Εφαρμόζοντας τη μέθοδο για ακρίβεια $\epsilon = 0.01$ έχουμε:
  204. \InsertFigure{H}{0.8}{fig:StDesProj_sk_0.1_gamma_0.2}{../scripts/figures/StDesProj_sk_0.1_gamma_0.2.png}{Μέθοδος μέγιστης καθόδου με προβολή για $s_k = 0.1, \gamma_k = 0.2$.}
  205. \section{Συμπεράσματα}
  206. ...
  207. \end{document}