pgetsos wrote:Θυμάται κανείς θέματα να τα συμπληρώσουμε;
Θέματα 4/9/2017 (
Όλες οι εκφωνήσεις στο περίπου)
Θέμα 1ο
Οι σημερινές μηχανές αναζήτησης στον ιστό καταγράφουν τις αναζητήσεις που πραγματοποιούν οι χρήστες ως εξής: για κάθε ερώτημα που υποβάλει ο χρήστης στην μηχανή αναζήτησης, καταγράφεται το ερώτημα
και τα έγγραφα που ανακτήθηκαν και επιστράφηκαν στην σελίδα των αποτελεσμάτων. Το σύνολο των στοιχείων που καταγράφονται αναφέρεται και ως
query log, και το οποίο οι μηχανές αναζήτησης χρησιμοποιούν για να βελτιώσουν την ακρίβεια επιστροφής των αποτελεσμάτων σε διάφορα ερωτήματα των χρηστών. Εξηγήστε με ποιον τρόπο θα μπορούσε μια μηχανή αναζήτησης να αξιοποιήσει αυτά τα
query logs ώστε να αυξήσει την ακρίβειά της (
precision), αλλά και πως αυτή η ιδέα/ο τρόπος θα μπορούσε να υλοποιηθεί.
Θέμα 2ο
Κατά την αξιολόγηση της ομοιότητας των κειμένων με διάφορα ερωτήματα, εκτός από πληροφορίες που έχουν υπολογιστικό κόστος για την εξαγωγή τους, μπορούμε να αξιοποιήσουμε και πληροφορίες
που δεν έχουν κάποιο υπολογιστικό κόστος για να εξαχθούν. Να περιγράψετε
5 τέτοιες πληροφορίες που μπορούμε να εξάγουμε από τα κείμενα κατά την αξιολόγησή τους, χωρίς υπολογιστικό κόστος.
Θέμα 3ο
Στο μοντέλο του διανυσματικού χώρου αξιολογούμε την ομοιότητα μεταξύ κειμένων και ερωτημάτων, αλλά δεν εμφανίζονται
πουθενά πληροφορίες σχετικά με την
ομοιότητα των όρων στις οντότητες που αξιολογούνται. Να περιγράψετε έναν τρόπο με τον οποίο θα μπορούσαμε να "ενσωματώσουμε" (
embed) τέτοιες πληροφορίες ομοιότητας των όρων κατά την διαδικασία της αξιολόγησης στο μοντέλο του διανυσματικού χώρου. (
Γενικευμένο Μοντέλο του Διανυσματικού Χώρου)
Θέμα 4ο
α) Τα μέτρα ανάκλησης (
recall) και ακρίβειας (
precision) είναι δύο
καλοί δείκτες για την μέτρηση της απόδοσης ενός συστήματος ανάκτησης πληροφοριών. Ωστόσο,
κανένας από τους δύο δεν χρησιμοποιείται για την σύγκριση της απόδοσης δύο διαφορετικών συστημάτων ανάκτησης πληροφοριών. Να εξηγήσετε για ποιο λόγο συμβαίνει αυτό.
β) Έστω ότι ένα σύστημα ανάκτησης επέστρεψε (για ένα ερώτημα)
10 έγγραφα/αποτελέσματα από μια συλλογή εγγράφων, όπου στα
5 πρώτα τα συναφή με το ερώτημα έγγραφα ήταν (με την σειρά) το
2ο, το
3ο, το
4ο και το
5ο έγγραφο. Έστω επίσης ότι σε ολόκληρη την συλλογή εγγράφων υπάρχουν
5 συναφή με το ερώτημα έγγραφα. Να υπολογίσετε την ακρίβεια
με παρεμβολή στις
11 τιμές του recall (
0.0, 0.1, 0.2, ..., 0.9, 1.0) για το σύστημα αυτό.
Θέμα 5ο (
Άσκηση 17 από έγγραφο PDF με ασκήσεις, αριθμοί 6-19)
Σε ένα σύστημα ανάκτησης, ορισμένα κείμενα για κάποιο λόγο κρίνονται περισσότερο σχετικά από άλλα (είναι πιο έγκυρα, έχουν καλύτερη εμφάνιση, δεν περιέχουν λέξεις του... πεζοδρομίου (
lol) κ.λπ.). Για να πριμοδοτήσουμε κάποια κείμενα έναντι των υπολοίπων, αρκεί να υπολογίσουμε μια εκ των προτέρων πιθανότητα σχετικότητας σε όλα τα κείμενα. Απαντήστε στις επόμενες δύο ερωτήσεις.
Διαβάστε και τις δύο ερωτήσεις πριν τις απαντήσετε:
α) Θέλουμε να κατασκευάσουμε μια μηχανή αναζήτησης για μια συλλογή από blog posts, και θέλουμε να πριμοδοτήσουμε εκείνα τα posts τα οποία έχουν τα
περισσότερα σχόλια. Υποτίθεται ότι όσο περισσότερα σχόλια έχει ένα post, τόσο πιο σημαντικό είναι. Χρησιμοποιώντας την πληροφορία αυτή, υπολογίστε την εκ των προτέρων πιθανότητα σχετικότητας των κειμένων (posts),
P(d).
β) Τι θα συμβεί κατά την ανάκτηση αν
τουλάχιστον ένα κείμενο δεν περιέχει
κανένα σχόλιο; Περιγράψτε τον τρόπο υπολογισμού της σχέσης
Score(q,d) = P(d|q) (
HINT: Η πιθανότητα μηδενίζεται - εφαρμογή smoothing).
- Spoiler: εμφάνιση/απόκρυψη
[b]ΣΗΜΕΙΩΣΗ[/b]: Μπορεί να έχω κάνει ένα ή περισσότερα λάθη. Αν αυτό ισχύει, τότε παρακαλώ κάποιος να διορθώσει [b]ASAP[/b].
Special thanks to @pgetsos for the corrections so far. :-D