χρησιμοποιώντας μηχανική εκμάθηση για να αντιστοιχίσετε σωστά εισαγωγικά

By | November 21, 2023

<span>Φωτογραφία: DrAfter123/Getty Images</span>” src=”https://s.yimg.com/ny/api/res/1.2/hvehQPn35Y2uIhRJXRz7ew–/YXBwaWQ9aGlnaGxhbmRlcjt3PTk2MDtoPTU3Nw–/https://media.zenfs.bba3776560000000000000000000000000000000000000001 cd914cdd39958″ data-src = “https://s.yimg.com/ny/api/res/1.2/hvehQPn35Y2uIhRJXRz7ew–/YXBwaWQ9aGlnaGxhbmRlcjt3PTk2MDtoPTU3Nw–/https://media.zenfs.com/en/theguardian 1 4cdd39958″/></div>
</div>
</div>
<p><figcaption class=Φωτογραφία: DrAfter123/Getty Images

Anna, Michel, Alice – The Guardian

Γιατί μας ενδιαφέρουν τόσο πολύ οι παραπομπές;

Όπως συζητήσαμε στο Talking sense: Χρησιμοποιώντας τη μηχανική εκμάθηση για την κατανόηση εισαγωγικών, υπάρχουν πολλοί καλοί λόγοι για να προσδιορίσετε εισαγωγικά. Τα εισαγωγικά επιτρέπουν την άμεση μετάδοση πληροφοριών από μια πηγή, αποτυπώνοντας με ακρίβεια το επιδιωκόμενο συναίσθημα και νόημα. Δεν είναι μόνο ένα ζωτικής σημασίας κομμάτι ακριβούς αναφοράς, αλλά μπορούν επίσης να ζωντανέψουν μια ιστορία. Οι πληροφορίες που εξάγονται από αυτές μπορούν να χρησιμοποιηθούν για έλεγχο γεγονότων και μας επιτρέπουν να αποκτήσουμε πληροφορίες για τις δημόσιες απόψεις. Για παράδειγμα, τα εισαγωγικά που αποδίδονται με ακρίβεια μπορούν να χρησιμοποιηθούν για την παρακολούθηση των αλλαγών απόψεων για το ίδιο θέμα με την πάροδο του χρόνου ή για τη διερεύνηση αυτών των απόψεων ως συνάρτηση της ταυτότητας, για παράδειγμα, φύλου ή φυλής. Επομένως, η κατοχή ενός ολοκληρωμένου συνόλου εισαγωγικών και των πηγών τους είναι ένας πλούσιος πόρος δεδομένων που μπορεί να χρησιμοποιηθεί για τη διερεύνηση δημογραφικών και κοινωνικοοικονομικών τάσεων και αλλαγών.

Είχαμε χρησιμοποιήσει προηγουμένως την τεχνητή νοημοσύνη για να βοηθήσουμε στην εξαγωγή αποσπασμάτων από το εκτενές αρχείο του Guardian και πιστεύαμε ότι θα μπορούσε να μας βοηθήσει ξανά στο επόμενο βήμα ακρίβειας. ανάθεση προσφοράς. Αυτή τη φορά, απευθυνθήκαμε σε μαθητές από UCL Data Intensive Science Doctoral Training Center. Ως μέρος του διδακτορικού προγράμματος που περιλαμβάνει την εργασία σε βιομηχανικά έργα, ζητήσαμε από αυτούς τους φοιτητές να εξερευνήσουν επιλογές βαθιάς μάθησης που θα μπορούσαν να βοηθήσουν με την αναφορά. Συγκεκριμένα, εξέτασαν εργαλεία μηχανικής μάθησης για να εκτελέσουν μια μέθοδο γνωστή ως ανάλυση αντιστοιχίας.

Tara, Alicja, Paul – UCL

Τι είναι η ανάλυση αντιστοιχίας;

Στην καθημερινή γλώσσα, όταν αναφέρουμε την ίδια οντότητα πολλές φορές, τείνουμε να χρησιμοποιούμε διαφορετικές εκφράσεις για να αναφερθούμε σε αυτήν. Το καθήκον του ανάλυση αντιστοιχίας είναι η ομαδοποίηση όλων των αναφορών σε ένα απόσπασμα κειμένου που αναφέρονται στην ίδια οντότητα. Ονομάζουμε την αρχική οντότητα προηγούμενος και οι επόμενες αναφορές, αναφορα. Στο παρακάτω απλό παράδειγμα:

Σάρα σαν ένα καλό φλιτζάνι τσαγιού το πρωί. Αυτή του αρέσει Αυτό με γάλα.

Σάρα είναι ο προηγούμενος της αναφορικής αναφοράςΑυτή‘. Το προηγούμενο ή η αναφορά ή και τα δύο μπορεί επίσης να είναι μια ομάδα λέξεων αντί για μία. Επομένως, στο παράδειγμα υπάρχει μια άλλη ομάδα που αποτελείται από τη φράση φλιτζάνι τσαγιού είναι η λέξη Αυτό ως συναφείς οντότητες.

Γιατί είναι τόσο δύσκολη η επίλυση αντιστοίχισης;

Ίσως πιστεύετε ότι η ομαδοποίηση αναφορών για την ίδια οντότητα είναι μια ασήμαντη εργασία στη μηχανική εκμάθηση. Ωστόσο, αυτό το πρόβλημα έχει πολλά επίπεδα πολυπλοκότητας. Η εργασία απαιτεί τη σύνδεση διφορούμενων αναφορών (π.χ. “αυτή” ή “Η πρώην πρώτη κυρία”) σε ένα ξεκάθαρο προηγούμενο (π.χ. “Μισέλ Ομπάμα”) που μπορεί να είναι πολλές προτάσεις, ή ακόμα και παράγραφοι, πριν από την εμφάνιση του εν λόγω αποσπάσματος. Ανάλογα με το στυλ γραφής, μπορεί να υπάρχουν πολλά άλλα οντότητες μπλέκονται στο κείμενο που δεν αναφέρονται σε καμία αναφορά ενδιαφέροντος. Σε συνδυασμό με την πολυπλοκότητα των αναφορών, που μπορεί να είναι πολλές λέξεις, καθιστά αυτό το έργο ακόμη πιο δύσκολο.

Επιπλέον, το συναίσθημα που μεταδίδεται μέσω της γλώσσας είναι ιδιαίτερα ευαίσθητο στην επιλογή των λέξεων που χρησιμοποιούμε. Για παράδειγμα, δείτε πώς αλλάζει το προηγούμενο της λέξης που ακολουθεί στις παρακάτω προτάσεις λόγω της αλλαγής στο ρήμα που την ακολουθεί:

Οι δημοτικοί σύμβουλοι αρνήθηκαν εξουσιοδότηση στους διαδηλωτές γιατί φοβόταν βία.

Οι δημοτικοί σύμβουλοι αρνήθηκαν εξουσιοδότηση στους διαδηλωτές γιατί υπερασπίστηκε βία.

(Αυτές οι δύο διακριτικά διαφορετικές προτάσεις αποτελούν μέρος της πρόκλησης του σχήματος Winograd, ενός αναγνωρισμένου τεστ νοημοσύνης μηχανής, το οποίο έχει προταθεί ως επέκταση του Τεστ Τούρινγκ, ένα τεστ για να δείξει εάν ένας υπολογιστής είναι ικανός ή όχι να σκέφτεται σαν ανθρώπινο ον . .)

Το παράδειγμα μας δείχνει ότι δεν μπορούμε να βασιστούμε μόνο στη γραμματική για να λύσουμε αυτήν την εργασία. Η κατανόηση της σημασιολογίας είναι απαραίτητη. Αυτό σημαίνει ότι οι μέθοδοι που βασίζονται σε κανόνες δεν μπορούν (χωρίς απαγορευτική δυσκολία) να σχεδιαστούν για να επιλύσουν τέλεια αυτήν την εργασία. Αυτό είναι που μας οδήγησε να εξετάσουμε το ενδεχόμενο να χρησιμοποιήσουμε τη μηχανική μάθηση για να λύσουμε το πρόβλημα της ανάλυσης αντιστοίχισης.

Τεχνητή Νοημοσύνη για διάσωση

Μια τυπική ευρετική μηχανική μάθηση για ανάλυση συναρμογής θα ακολουθούσε βήματα όπως αυτά:

  • Εξαγωγή μιας σειράς αναφορών που σχετίζονται με οντότητες του πραγματικού κόσμου

  • Για κάθε αναφορά, υπολογίστε ένα σύνολο χαρακτηριστικών

  • Με βάση αυτά τα χαρακτηριστικά, βρείτε το πιο πιθανό προηγούμενο για κάθε αναφορά

Η δύναμη του AI για την εκτέλεση αυτών των βημάτων είναι α γλωσσικό μοντέλο. Στην ουσία, ένα γλωσσικό μοντέλο είναι α κατανομή πιθανοτήτων πάνω από μια σειρά λέξεων. Πολλοί από εσάς πιθανότατα έχετε ήδη συναντήσει το ChatGPT του OpenAI, το οποίο υποστηρίζεται από ένα εξαιρετικό γλωσσικό μοντέλο.

Για να αναλύσουν τη γλώσσα και να κάνουν προβλέψεις, τα γλωσσικά μοντέλα δημιουργούν και χρησιμοποιούν ενσωματώσεις λέξεων. Οι ενσωματώσεις λέξεων είναι ουσιαστικά αντιστοιχίσεις λέξεων σε σημεία σε ένα σημασιολογικό χώρο, όπου λέξεις με παρόμοια σημασία τοποθετούνται η μία δίπλα στην άλλη. Για παράδειγμα, η θέση των σημείων που αντιστοιχούν σε «γάτα» και «λιοντάρι» θα είναι πιο κοντά μεταξύ τους από τα σημεία που αντιστοιχούν σε «γάτα» και «πιάνο».

Πανομοιότυπες λέξεις με διαφορετική σημασία ([river] τράπεζα έναντι τράπεζας [financial institution], για παράδειγμα) χρησιμοποιούνται σε διαφορετικά περιβάλλοντα και επομένως θα καταλαμβάνουν διαφορετικές θέσεις στο σημασιολογικό χώρο. Αυτή η διάκριση είναι κρίσιμη σε πιο εξελιγμένα παραδείγματα, όπως το Σχέδιο Winograd. Αυτές οι ενσωματώσεις είναι τα χαρακτηριστικά που αναφέρονται στην παραπάνω συνταγή.

Τα μοντέλα γλώσσας χρησιμοποιούν ενσωματώσεις λέξεων για να αναπαραστήσουν ένα σύνολο κειμένου ως αριθμούς, οι οποίοι ενσωματώνουν το περιεχόμενο του περιεχομένου. Μπορούμε να χρησιμοποιήσουμε αυτήν την αριθμητική αναπαράσταση για να εκτελέσουμε αναλυτικές εργασίες. στην περίπτωσή μας, επίλυση αντιστοιχίας. Δείχνουμε στο μοντέλο γλώσσας πολλά παραδείγματα με ετικέτα (δείτε αργότερα) που, μαζί με ενσωματώσεις λέξεων, εκπαιδεύουν το μοντέλο να αναγνωρίζει αναφορές συναναφοράς όταν εμφανίζεται κείμενο που δεν έχει δει πριν, με βάση τη σημασία αυτού του κειμένου.

Για αυτήν την εργασία, επιλέξαμε μοντέλα γλώσσας που κατασκευάστηκαν από την ExplosionAI καθώς ταιριάζουν καλά με την τρέχουσα γραμμή επιστήμης δεδομένων της Guardian. Για να τα χρησιμοποιήσουμε, όμως, χρειαζόταν να εκπαιδευτούν σωστά και για να γίνει αυτό χρειαζόμασταν τα σωστά δεδομένα.

Εκπαίδευση του μοντέλου χρησιμοποιώντας δεδομένα με ετικέτα

Ένα μοντέλο τεχνητής νοημοσύνης μπορεί να διδαχθεί παρουσιάζοντάς το με πολλά παραδείγματα με ετικέτα που απεικονίζουν την εργασία που θα θέλαμε να ολοκληρώσει. Στην περίπτωσή μας, αυτό περιελάμβανε πρώτα χειροκίνητη επισήμανση πάνω από εκατό άρθρα του Guardian, συνδέοντας ασαφείς αναφορές/αναφορές και τα προηγούμενά τους.

Αν και αυτό μπορεί να μην φαίνεται ως η πιο λαμπερή εργασία, η απόδοση οποιουδήποτε μοντέλου περιορίζεται από την ποιότητα των δεδομένων που του παρέχονται και επομένως η φάση της επισήμανσης δεδομένων είναι κρίσιμη για την αξία του τελικού προϊόντος. Λόγω της πολύπλοκης φύσης της γλώσσας και της συνακόλουθης υποκειμενικότητας της επισήμανσης, υπήρχαν πολλές πολυπλοκότητες σε αυτό το έργο που απαιτούσαν τη δημιουργία ενός συνόλου κανόνων για την τυποποίηση των δεδομένων μεταξύ των ανθρώπινων σχολιαστών. Ετσι, ένα πολύ δαπανήθηκε πολύς χρόνος με την Άννα, τον Μισέλ και την Αλίκη σε αυτό το στάδιο του έργου. και ήμασταν όλοι ευγνώμονες όταν ολοκληρώθηκε!

Αν και το αποτέλεσμα ήταν εξαιρετικά πλούσιο σε πληροφορίες και χρονοβόρο, εκατό άρθρα με σχολιασμό ήταν ακόμα ανεπαρκή για να αποτυπώσουν πλήρως τη γλωσσική μεταβλητότητα που θα συναντούσε ένα επιλεγμένο μοντέλο. Επομένως, για να μεγιστοποιήσουμε τη χρησιμότητα του μικρού μας συνόλου δεδομένων, επιλέξαμε τρία έτοιμα προς χρήση μοντέλα γλώσσας, συγκεκριμένα το Coreferee, το Spacy coreference model και το FastCoref που έχουν ήδη εκπαιδευτεί σε εκατοντάδες χιλιάδες γενικά παραδείγματα. Στη συνέχεια τα «συντονίζουμε» ώστε να ταιριάζουν στις συγκεκριμένες απαιτήσεις μας χρησιμοποιώντας τα σχολιασμένα δεδομένα μας.

Αυτή η προσέγγιση μάς επέτρεψε να παράγουμε μοντέλα που πέτυχαν μεγαλύτερη ακρίβεια σε δεδομένα ειδικά για τον Guardian σε σύγκριση με τη χρήση μοντέλων εκτός ραφιού.

Αυτά τα μοντέλα θα πρέπει να επιτρέπουν την αντιστοίχιση παραπομπών με πηγές άρθρων του Guardian σε εξαιρετικά αυτοματοποιημένη βάση και με μεγαλύτερη ακρίβεια από ποτέ. Το επόμενο βήμα είναι να πραγματοποιήσουμε μια δοκιμή μεγάλης κλίμακας στο αρχείο του Guardian και να δούμε σε ποιες δημοσιογραφικές ερωτήσεις μπορεί να μας βοηθήσει να απαντήσουμε αυτή η προσέγγιση.

Leave a Reply

Your email address will not be published. Required fields are marked *