Show simple item record

Μετατροπή ταινιών σε περιγραφές ήχου με τη χρήση LLMs, για άτομα με προβλήματα όρασης

dc.contributor.advisorZacharioudakis, Eleftherios
dc.contributor.authorΒλάχου, Βασιλική
dc.date.accessioned2025-07-03T06:29:58Z
dc.date.available2025-07-03T06:29:58Z
dc.date.issued2025-01
dc.identifier.urihttp://hdl.handle.net/11728/12940
dc.description.abstractΟ κύριος στόχος της παρούσας διπλωματικής εργασίας ήταν η διερεύνηση της εφαρμογής Μεγάλων Γλωσσικών Μοντέλων (LLMs) για τη μετατροπή βίντεο σε περιγραφές ήχου, προκειμένου να ενισχυθεί η προσβασιμότητα ατόμων με προβλήματα όρασης. Η εργασία επικεντρώθηκε στην ανάπτυξη και αξιολόγηση μιας μεθόδου που θα επιτρέπει τη βελτίωση της εμπειρίας των χρηστών σε περιβάλλοντα πολυμέσων. Η μεθοδολογία περιλάμβανε την ανάπτυξη και δοκιμή ενός συστήματος που αξιοποιεί LLMs για την κατανόηση και περιγραφή σύνθετων σκηνών. Το σύστημα εκπαιδεύτηκε και εκτελέστηκε χρησιμοποιώντας μια ποικιλία από LLMs, άλλα μικρότερα άλλα μεγαλύτερα για ανάλυση ή και σύνοψη ενώ παράλληλα αναλύθηκαν οι τεχνικές και υπολογιστικές απαιτήσεις της προσέγγισης. Τα ευρήματα ανέδειξαν ότι τα LLMs έχουν τη δυνατότητα να παρέχουν ακριβείς περιγραφές σύνθετων σκηνών, συναισθημάτων, εκφράσεων και περιβαλλόντων, προάγοντας την κατανόηση οπτικοακουστικού περιεχομένου. Παράλληλα, εντοπίστηκαν προκλήσεις όπως το περιορισμένο context window, οι περιπτώσεις δημιουργίας ανακριβών περιγραφών (hallucinations) και η ανάγκη για βελτιωμένα εργαλεία αξιολόγησης. Η τεχνολογία απαιτεί ισχυρότερο hardware και πιο εκτενή σύνολα εκπαίδευσης για τη διασφάλιση γενικεύσιμων και σταθερών αποτελεσμάτων. Συμπερασματικά, η εφαρμογή LLMs στη δημιουργία περιγραφών ήχου από βίντεο αποτελεί σημαντικό βήμα για τη βελτίωση της κοινωνικής ενσωμάτωσης και της ανεξαρτησίας ατόμων με προβλήματα όρασης. Η τεχνολογία έχει τη δυναμική να προσφέρει πιο ισότιμη πρόσβαση στη γνώση, την τέχνη και την πληροφορία, συμβάλλοντας στη δημιουργία ενός κόσμου χωρίς αποκλεισμούς.en_UK
dc.language.isoel_GRen_UK
dc.publisherΜεταπτυχιακό στα Πληροφοριακά Συστήματα και Ψηφιακή Καινοτομία, Σχολή Διοίκησης και Επιστήμης Υπολογιστών, Πανεπιστήμιο Νεάπολις Πάφουen_UK
dc.rightsΑπαγορεύεται η δημοσίευση ή αναπαραγωγή, ηλεκτρονική ή άλλη χωρίς τη γραπτή συγκατάθεση του δημιουργού και κάτοχου των πνευματικών δικαιωμάτωνen_UK
dc.subjectΜεγάλα Γλωσσικά Μοντέλα(LLMs)en_UK
dc.subjecttext-to-speechen_UK
dc.subjectΤεχνητή Νοημοσύνηen_UK
dc.subjectΟπτικοακουστικό Περιεχόμενοen_UK
dc.subjectΚοινωνική Ενσωμάτωσηen_UK
dc.titleΜετατροπή ταινιών σε περιγραφές ήχου με τη χρήση LLMs, για άτομα με προβλήματα όρασηςen_UK
dc.title.alternativeΔιπλωματική Εργασία η οποία υποβλήθηκε προς απόκτηση Μεταπτυχιακού τίτλου σπουδών στα Πληροφοριακά Συστήμα και Ψηφιακή Καινοτομία Πανεπιστήμιο Νεάπολις Πάφοen_UK
dc.typeThesisen_UK


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record