«Βιβλιογραφική ανασκόπηση η μεταγραφή χειρογράφων του Μεσαίωνα χρησιμοποιώντας σύγχρονες τεχνικές μάθησης»

Κώτσιας, Χρήστος (2021-09)

English Abstract The main goal of the dissertation is to study an area that is particularly useful to professional history researchers as well as digital libraries. It is about the ability that technology can give to millions of manuscripts that are either in digitized images and are simply preserved as digital heirlooms without metadata and also without being able to be copied and accessible for reading and study. This is an attempt at a bibliographic review of the transcription of digitized historical manuscripts. In this effort, a description will be made of the efforts that have taken place so far and their effectiveness. Also a key element of the study are the methods used in order to make the best possible transcription of the manuscripts as here arise a number of problems which will be reported such as for example the differences that exist over time of the ways in which the characters are written, the changes over time by region in terms of dialect and interpretation, abbreviations, peculiarities by author using their own particular way of writing as well as possible reasons why ink spreads on text and computer text recognition be able to understand it. In particular, an attempt will be made to describe a number of platforms for automatic recognition of handwritten material and how they work and use such as transkribus which is such an excellent tool. Includes user friendly internet interface. In addition, the contribution and use of artificial intelligence Deep learning Machine Learning Big Data technologies to access medieval texts is particularly important as in the analysis of existing methods such as the so-called Handwriting Recognition Systems (HTR Systems) and Key Word Spotting providing an evolution of great importance with extremely remarkable results. The above are especially important for understanding the era in which these manuscripts can be made accessible to both the general public and professionals in the field of history through transcription, etc. This is a unique opportunity offered through technology, not only in rescue of our common cultural and historical past through digitization but also subsequently through text recognition techniques of their promotion, access and availability through internet search providing them to the general public

Thesis

Βασικός στόχος της διατριβής είναι να μελετήσει έναν τομέα ο οποίος είναι ιδιαίτερα χρήσιμος σε επαγγελματίες ερευνητές ιστορίας αλλά και ψηφιακές βιβλιοθήκες. Αφορά τη δυνατότητα που μπορεί να δώσει η τεχνολογία σε εκατομμύρια χειρόγραφα που είναι είτε σε ψηφιοποιημένες εικόνες και απλά διατηρούνται ως ψηφιακά κειμήλια δίχως metadata χωρίς να μπορούν να μετεγγραφούν και να είναι προσβάσιμα για ανάγνωση και μελέτη. Πρόκειται για μια προσπάθεια βιβλιογραφικής ανασκόπησης της μετεγγραφής ψηφιοποιημένων ιστορικών χειρόγραφων βιβλίων. Σε αυτή την προσπάθεια θα γίνει μια περιγραφή των προσπαθειών που έχουν υπάρξει μέχρι σήμερα αλλά και η αποτελεσματικότητά τους. Επίσης βασικό στοιχείο της μελέτης αποτελούν οι μέθοδοι χρήσης που ακολουθούνται προκειμένου να γίνει η καλύτερη δυνατή μετεγγραφή των χειρογράφων καθώς εδώ αναφύονται μια σειρά από προβλήματα τα οποία και θα αναφερθούν όπως για παράδειγμα οι διαφορές που υπάρχουν ανά χρονική περίοδο των τρόπων που γράφονται οι χαρακτήρες, οι μεταβολές που γίνονται κατά την πάροδο των χρόνων ανά περιοχή σε θέματα διαλέκτου και ερμηνείας, οι συντομογραφίες οι ιδιαιτερότητες ανά συγγραφέα που χρησιμοποιούν τον δικό τους ιδιαίτερο τρόπο γραφής καθώς και πιθανοί λόγοι κατά τους οποίους το μελάνι απλώνει επάνω στο κείμενο και το υπολογιστικό σύστημα αναγνώρισης του κειμένου να έχει τη δυνατότητα να το κατανοήσει. Ειδικότερα θα γίνει μια προσπάθεια περιγραφής από μια σειρά από πλατφόρμες αυτόματης αναγνώρισης χειρόγραφου υλικού και ο τρόπος λειτουργίας και χρήσης τους όπως η transkribus η οποία αποτελεί ένα τέτοιο εξαιρετικό εργαλείο. Περιλαμβάνει φιλικό περιβάλλον εργασίας στο διαδίκτυο. Επιπλέον η συνεισφορά και η χρήση της τεχνητής νοημοσύνης και άλλων τεχνολογιών όπως η μηχανική μάθηση η βαθιά μάθηση κλπ για πρόσβαση σε κείμενα του μεσαίωνα είναι ιδιαίτερα σημαντική όπως και στην ανάλυση υπαρχόντων μεθόδων όπως τα λεγόμενα συστήματα Αναγνώρισης Κειμένου Χειρογράφων (HTR Systems) όπως επίσης και στον εντοπισμό λέξεων (KWS). Τα παραπάνω είναι ιδιαίτερα σημαντικά για την κατανόηση της εποχής κατά την οποία τα χειρόγραφα αυτά μπορούν μέσω της μετεγγραφής να γίνουν προσβάσιμα τόσο σε ευρύτερο κοινό όσο και σε επαγγελματίες του χώρου ιστορικούς κλπ. Πρόκειται για μοναδική δυνατότητα που προσφέρεται μέσω της τεχνολογίας, όχι μόνο στη διάσωση του κοινού πολιτιστικού και ιστορικού μας παρελθόντως μέσω της ψηφιοποίησης αλλά και εν συνεχεία μέσω τεχνικών αναγνώρισης κειμένου της ανάδειξής τους, της πρόσβασης και διάθεσή τους μέσω της αναζήτησής του διαδικτύου παρέχοντας τα στο ευρύτερο κοινό.