Μετατροπή ταινιών σε περιγραφές ήχου με τη χρήση LLMs, για άτομα με προβλήματα όρασης
Thesis
Ο κύριος στόχος της παρούσας διπλωματικής εργασίας ήταν η διερεύνηση της εφαρμογής Μεγάλων Γλωσσικών Μοντέλων (LLMs) για τη μετατροπή βίντεο σε περιγραφές ήχου, προκειμένου να ενισχυθεί η προσβασιμότητα ατόμων με προβλήματα όρασης. Η εργασία επικεντρώθηκε στην ανάπτυξη και αξιολόγηση μιας μεθόδου που θα επιτρέπει τη βελτίωση της εμπειρίας των χρηστών σε περιβάλλοντα πολυμέσων. Η μεθοδολογία περιλάμβανε την ανάπτυξη και δοκιμή ενός συστήματος που αξιοποιεί LLMs για την κατανόηση και περιγραφή σύνθετων σκηνών. Το σύστημα εκπαιδεύτηκε και εκτελέστηκε χρησιμοποιώντας μια ποικιλία από LLMs, άλλα μικρότερα άλλα μεγαλύτερα για ανάλυση ή και σύνοψη ενώ παράλληλα αναλύθηκαν οι τεχνικές και υπολογιστικές απαιτήσεις της προσέγγισης. Τα ευρήματα ανέδειξαν ότι τα LLMs έχουν τη δυνατότητα να παρέχουν ακριβείς περιγραφές σύνθετων σκηνών, συναισθημάτων, εκφράσεων και περιβαλλόντων, προάγοντας την κατανόηση οπτικοακουστικού περιεχομένου. Παράλληλα, εντοπίστηκαν προκλήσεις όπως το περιορισμένο context window, οι περιπτώσεις δημιουργίας ανακριβών περιγραφών (hallucinations) και η ανάγκη για βελτιωμένα εργαλεία αξιολόγησης. Η τεχνολογία απαιτεί ισχυρότερο hardware και πιο εκτενή σύνολα εκπαίδευσης για τη διασφάλιση γενικεύσιμων και σταθερών αποτελεσμάτων. Συμπερασματικά, η εφαρμογή LLMs στη δημιουργία περιγραφών ήχου από βίντεο αποτελεί σημαντικό βήμα για τη βελτίωση της κοινωνικής ενσωμάτωσης και της ανεξαρτησίας ατόμων με προβλήματα όρασης. Η τεχνολογία έχει τη δυναμική να προσφέρει πιο ισότιμη πρόσβαση στη γνώση, την τέχνη και την πληροφορία, συμβάλλοντας στη δημιουργία ενός κόσμου χωρίς αποκλεισμούς.