dc.contributor.advisor | Zacharioudakis, Eleftherios | |
dc.contributor.author | Βλάχου, Βασιλική | |
dc.date.accessioned | 2025-07-03T06:29:58Z | |
dc.date.available | 2025-07-03T06:29:58Z | |
dc.date.issued | 2025-01 | |
dc.identifier.uri | http://hdl.handle.net/11728/12940 | |
dc.description.abstract | Ο κύριος στόχος της παρούσας διπλωματικής εργασίας ήταν η διερεύνηση της
εφαρμογής Μεγάλων Γλωσσικών Μοντέλων (LLMs) για τη μετατροπή βίντεο
σε περιγραφές ήχου, προκειμένου να ενισχυθεί η προσβασιμότητα ατόμων με
προβλήματα όρασης. Η εργασία επικεντρώθηκε στην ανάπτυξη και
αξιολόγηση μιας μεθόδου που θα επιτρέπει τη βελτίωση της εμπειρίας των
χρηστών σε περιβάλλοντα πολυμέσων.
Η μεθοδολογία περιλάμβανε την ανάπτυξη και δοκιμή ενός συστήματος που
αξιοποιεί LLMs για την κατανόηση και περιγραφή σύνθετων σκηνών. Το
σύστημα εκπαιδεύτηκε και εκτελέστηκε χρησιμοποιώντας μια ποικιλία από
LLMs, άλλα μικρότερα άλλα μεγαλύτερα για ανάλυση ή και σύνοψη ενώ
παράλληλα αναλύθηκαν οι τεχνικές και υπολογιστικές απαιτήσεις της
προσέγγισης.
Τα ευρήματα ανέδειξαν ότι τα LLMs έχουν τη δυνατότητα να παρέχουν
ακριβείς περιγραφές σύνθετων σκηνών, συναισθημάτων, εκφράσεων και
περιβαλλόντων, προάγοντας την κατανόηση οπτικοακουστικού περιεχομένου.
Παράλληλα, εντοπίστηκαν προκλήσεις όπως το περιορισμένο context window,
οι περιπτώσεις δημιουργίας ανακριβών περιγραφών (hallucinations) και η
ανάγκη για βελτιωμένα εργαλεία αξιολόγησης. Η τεχνολογία απαιτεί
ισχυρότερο hardware και πιο εκτενή σύνολα εκπαίδευσης για τη διασφάλιση
γενικεύσιμων και σταθερών αποτελεσμάτων.
Συμπερασματικά, η εφαρμογή LLMs στη δημιουργία περιγραφών ήχου από
βίντεο αποτελεί σημαντικό βήμα για τη βελτίωση της κοινωνικής
ενσωμάτωσης και της ανεξαρτησίας ατόμων με προβλήματα όρασης. Η
τεχνολογία έχει τη δυναμική να προσφέρει πιο ισότιμη πρόσβαση στη γνώση,
την τέχνη και την πληροφορία, συμβάλλοντας στη δημιουργία ενός κόσμου
χωρίς αποκλεισμούς. | en_UK |
dc.language.iso | el_GR | en_UK |
dc.publisher | Μεταπτυχιακό στα Πληροφοριακά Συστήματα και Ψηφιακή Καινοτομία, Σχολή Διοίκησης και Επιστήμης Υπολογιστών, Πανεπιστήμιο Νεάπολις Πάφου | en_UK |
dc.rights | Απαγορεύεται η δημοσίευση ή αναπαραγωγή, ηλεκτρονική ή άλλη χωρίς τη γραπτή συγκατάθεση του δημιουργού και κάτοχου των πνευματικών δικαιωμάτων | en_UK |
dc.subject | Μεγάλα Γλωσσικά Μοντέλα(LLMs) | en_UK |
dc.subject | text-to-speech | en_UK |
dc.subject | Τεχνητή Νοημοσύνη | en_UK |
dc.subject | Οπτικοακουστικό Περιεχόμενο | en_UK |
dc.subject | Κοινωνική Ενσωμάτωση | en_UK |
dc.title | Μετατροπή ταινιών σε περιγραφές ήχου με τη χρήση LLMs, για άτομα με προβλήματα όρασης | en_UK |
dc.title.alternative | Διπλωματική Εργασία η οποία υποβλήθηκε προς απόκτηση Μεταπτυχιακού τίτλου σπουδών στα Πληροφοριακά Συστήμα και Ψηφιακή Καινοτομία Πανεπιστήμιο Νεάπολις Πάφο | en_UK |
dc.type | Thesis | en_UK |