in Media

Η ελληνική γλώσσα διαθέτει σήμερα επτά εκατομμύρια μοναδικές λέξεις

by admin 25 Σεπτεμβρίου, 2023, 6:57 πμ 1.2k Views

Η ελληνική γλώσσα διαθέτει σήμερα περίπου επτά εκατομμύρια μοναδικές λέξεις! Πρόκειται για αποτέλεσμα «εξόρυξης», όχι βεβαίως με σκαπάνη ή εκρηκτικά, αλλά με τις εκρηκτικές τεχνολογικές εφαρμογές της τεχνητής νοημοσύνης και της εξόρυξης δεδομένων (data mining).

Για να βρεθεί ο συγκεκριμένος αριθμός λέξεων χρησιμοποιήθηκαν καινοτόμες μέθοδοι τεχνητής νοημοσύνης, όπως για παράδειγμα βαθιά νευρωνικά δίκτυα (υπολογιστικά δίκτυα που μιμούνται τους βιολογικούς νευρώνες) πάνω σε κείμενα από 170 εκατ. ιστοσελίδες. Ο αριθμός των επτά εκατ. δεν αφορά ρίζες, αλλά διαφορετικές λέξεις (π.χ. «άνθρωπος» και «άνθρωποι» είναι δύο διαφορετικές λέξεις).

Δράστης αυτής της γλωσσικής ψηφιακής ανασκαφής είναι η ερευνητική ομάδα «Εξόρυξης Δεδομένων» του Τμήματος Πληροφορικής του Οικονομικού Πανεπιστημίου Αθηνών (ΟΠΑ), στο πλαίσιο έργου το οποίο υλοποιήθηκε για λογαριασμό της Εθνικής Βιβλιοθήκης με χρηματοδότηση του Ιδρύματος Νιάρχου. «Συμβάλλαμε στην παραγωγή καινοτομικών ψηφιακών γλωσσολογικών πόρων για την ελληνική γλώσσα, όπως το λεξικό που, από όσο γνωρίζουμε, είναι το μεγαλύτερο σε ψηφιακή μορφή. Ταυτόχρονα, καθώς στηρίζεται στο σύνολο του πρόσφατου περιεχομένου του Διαδικτύου, αποδίδει ουσιαστικά την τρέχουσα μορφή της γλώσσας. Για παράδειγμα, υπάρχουν καινοφανείς λέξεις όπως “θερμογαλβανισμένη” ή “ενταλματοποιηθέντα”, οι οποίες πιθανότατα δεν υπάρχουν στα παραδοσιακά λεξικά αλλά παράγονται από την πρόσφατη εξέλιξη της γλώσσας», λέει στην «Κ» ο καθηγητής Μιχάλης Βαζιργιάννης, ο οποίος διευθύνει την ερευνητική ομάδα. Στο έργο συνεισέφεραν οι συνεργάτες της ομάδας Π. Μελαδιανός και Σ. Ούτσιος. Ο κ. Βαζιργιάννης βρίσκεται από το 2013 με σχέση παράλληλης απασχόλησης στη Γαλλία, έχει θέση διακεκριμένου καθηγητή στο Πολυτεχνείο του Παρισιού (Ecole Polytechnique), όπου διευθύνει την ομάδα Επιστήμης Δεδομένων (Data Science and Mining).

Ο καθηγητής Μιχάλης Βαζιργιάννης διευθύνει την ερευνητική ομάδα «Εξόρυξης Δεδομένων» του Τμήματος Πληροφορικής του ΟΠΑ.

Η ομάδα Εξόρυξης Δεδομένων του ΟΠΑ προχώρησε και σε ενθέσεις ελληνικών λέξεων (word embeddings), οι οποίες υπολογίζουν την ομοιότητα μεταξύ λέξεων στο σημασιολογικό επίπεδο. «Για παράδειγμα η λέξη “Ελλάδα” και “Αθήνα” είναι σημασιολογικά συναφείς γιατί συνυπάρχουν συχνά σε πολλά κείμενα. Με αυτόν τον τρόπο επιτυγχάνεται καλύτερη απόδοση σε λειτουργίες αναζήτησης σε κείμενα, όπως για παράδειγμα σε μηχανές αναζήτησης στο Διαδίκτυο», εξηγεί ο κ. Βαζιργιάννης.

Το έργο της ομάδας είναι πολυσχιδές και με διεθνείς διακρίσεις, με πιο πρόσφατο το βραβείο καλύτερης δημοσίευσης, που κατέκτησε στο διεθνές συνέδριο τεχνητής νοημοσύνης IJCAI 2018, ένα από τα κυριότερα σε διεθνές επίπεδο. Η δημοσίευσή τους με θέμα την «ομοιότητα γραφημάτων στηριγμένη στον εκφυλισμό» (στην οποία συμμετέχουν οι συνεργάτες δρ Ι. Νικολέντζος, Σ. Λημνιός και Π. Μελαδιανός) πήρε το βραβείο διακεκριμένης δημοσίευσης σε σύνολο 700 δημοσιεύσεων που έγιναν αποδεκτές στο συνέδριο (υποβλήθηκαν πάνω από 4.500 εργασίες). «Ζούμε στην εποχή των γραφημάτων. Η τεχνητή νοημοσύνη στηρίζεται σημαντικά στη χρήση γραφημάτων τα οποία κάνουν εφικτή την αποδοτική αναπαράσταση πολλαπλών μορφών πληροφορίας: δίκτυα κοινωνικά, αλλά και ηλεκτρικά, συγκοινωνιακά, βιολογικά. Για παράδειγμα σε ένα κοινωνικό δίκτυο (π.χ. Facebook) οι χρήστες είναι οι κόμβοι του γραφήματος και οι ακμές/συνδέσεις αναπαριστούν σχέσεις (π.χ. φιλίας) μεταξύ τους», λέει ο κ. Βαζιργιάννης, η ομάδα του οποίου έχει επινοήσει τη μέθοδο Graph of Words, δηλαδή αναπαράσταση κειμένων μέσω γραφημάτων.

Πολλαπλές εφαρμογές

«Η καινοτομική μέθοδος που παρουσιάσαμε στο συνέδριο IJCAI έχει πολλαπλές εφαρμογές. Για παράδειγμα μπορεί να αξιοποιηθεί για την πρόβλεψη απάτης σε δίκτυα πληρωμών, καταγράφοντας ύποπτες συναλλαγές και διακλαδώσεις. Σε αυτό το σημείο έδειξαν ιδιαίτερο ενδιαφέρον οι διεθνείς εταιρείες κοινωνικών δικτύων στα οποία μπορεί να γίνει και μεταφορά χρημάτων χωρίς διαμεσολάβηση τραπεζών, όπου και μπορούν να παρατηρηθούν φαινόμενα απάτης. Επίσης, η μέθοδός μας μπορεί να αξιοποιηθεί σε εφαρμογές μελέτης κοινοτήτων σε κοινωνικά δίκτυα, πρόβλεψης λειτουργικότητας πρωτεϊνών σε βιολογικά δεδομένα και ούτω καθεξής», εξηγεί ο κ. Βαζιργιάννης. Η ερευνητική ομάδα επεκτείνει τη δουλειά της σε περιβάλλον βαθιών νευρωνικών δικτύων (Deep Learning) με στόχο την αξιοποίηση μεγάλων ποσοτήτων δεδομένων για την εξαγωγή κρυμμένων σχέσεων και μορφών γνώσης. Το μέλλον προδιαγράφεται συναρπαστικό.

newside

Originally posted 2018-10-05 11:11:45.

What do you think?

0 Points

Upvote Downvote

Written by admin

Αφήστε μια απάντησηΑκύρωση απάντησης

GIPHY App Key not set. Please check settings

Η Χριστιανική επανάσταση στην Ιαπωνία και ο μεγάλος διωγμός (1638 μ.Χ.)

Παστέλι: Ελληνικό παραδοσιακό προϊόν με βάση το σουσάμι και το μέλι που μειώνει τα τριγλυκερίδια και προστατεύει από πολλές ασθένειες

Η συχνότητα της ούρησης μας δείχνει πόσο υγιείς είμαστε

Εμφυτεύματα: Πόσο κοστίζουν, πόσο πονάνε και πότε απαγορεύονται.

Συνταγή για μια εύκολη πίτσα με ψωμί του τοστ!

Απιγενίνη: Η Φυτική ουσία με την ισχυρή Αντικαρκινική δράση για την πρόληψη του καρκίνου

Η ελληνική γλώσσα διαθέτει σήμερα επτά εκατομμύρια μοναδικές λέξεις

What do you think?

Written by admin

Τι συμβαίνει μ’ ένα φιλί στο στόμα;

Γερμανός αγόρασε 2 Smart για να κρατήσει την είσοδο του πάρκινγκ του «καθαρή»

Απίστευτα λάθη σε ταινίες, που είμαστε σίγουροι πως δεν είχατε προσέξει [Εικόνες]

Εσύ τι έχεις κάνει με τα παλιά σου κινητά τηλέφωνα; Τα 5 εξυπνότερα πράγματα που μπορείς να κάνεις με τις συσκευές που δεν χρησιμοποιείς πια

10 εικόνες που περιγράφουν την ζωή μας με τα smartphones

Τι συμβαίνει μ’ ένα φιλί στο στόμα;

«Η Βανδή έσωσε το γιο μου από τις καταχρήσεις»: Μίλησε η μάνα του Μπισμπίκη για πρώτη φορά

Γερμανός αγόρασε 2 Smart για να κρατήσει την είσοδο του πάρκινγκ του «καθαρή»

Τον πλήρωσαν κατά λάθος 330 μισθούς: Πήρε 168.000 ευρώ – Παραιτήθηκε και έγινε «καπνός»

Έμεινε “παγωτό”: Μυκονιάτης έδωσε 1 μπουκάλι νερό και 4€ σε τουρίστα, κι εκείνος του έκανε το καλύτερο δώρο

Αφήστε μια απάντησηΑκύρωση απάντησης

Εξαλείψτε άμεσα τη χαλάρωση στα μπράτσα!

Κοιλιά «πλάκα» τον 15Αύγουστο: -11 κιλά σε 2 βδομάδες με την δίαιτα τoυ βραστού αυγού, τι απαγοpεύεται να φας

Τα φαγητά «των φτωχών»: 6 ελληνικές παραδοσιακές συνταγές που χάθηκαν με τα χρόνια

Κόλπο με δύο υλικά για να απαλλαγείτε από τις καφετιές κηλίδες στο δέρμα σας

Τα Λαχανικά καταλαβαίνουν ότι τα Τρώμε

Έχετε δει κάτι ανάλογο; Δύσκολα… Πάντως αν τύχει και δείτε, ΜΗΝ ΜΠΕΙΤΕ στη θάλασσα!

What do you think?

Αφήστε μια απάντησηΑκύρωση απάντησης

Log In

Sign In

Forgot password?

Your password reset link appears to be invalid or expired.

Log in

Privacy Policy

Add to Collection

No Collections

Hey Friend! Before You Go…