Page 1 of 1
Ελληνικός stemmer
Posted: Mon Apr 03, 2006 8:15 pm
by silegav
Δεν ήξερα αν το θέμα αυτό είναι θέμα εξόρυξης (στα πλαίσια μαθήματος) ή θέμα προγραμματισμού. Εγώ δεν το θέλω για μάθημα και άρα το ρίχνω εδώ.
Βασικά η ερώτηση είναι απλή.....μήπως κάποιος έχει υπόψιν του κάποιον stemmer για ελληνικές λέξεις?
Ο μόνος stemmer που γνωρίζω είναι αυτός του porter, αλλά απ'όσο ξέρω έχει εφαρμογή μόνο σε αγγλικές λέξεις.
Can you help me?
Posted: Mon Apr 03, 2006 9:30 pm
by Erevodifwntas
υπάρχει ένας stemmer του Καλαμπούκη.
τον Porter θα τον υλοποιήσουμε σε αυτό το εξάμηνο για Ελληνικά (μάλλον).
προσωπικά όταν χρειάστηκα να φτιάξω έναν stemmer το μόνο που έκανα ήταν να κόβω τα 'ς' και τα 'ν' από το τέλος της λέξης και μετά όλα τα φωνήεντα στο τέλος (φτάνει η λέξη να μην γινόταν μικρότερη από 2 νομίζω). όσο το δοκίμασα, λειτούργησε ικανοποιητικά (2-3 κατηγορίες λέξεων έχω εντοπίσει που δε δούλευε πλήρως, αλλά με λίγο κώδικα φτιαχνόταν και αυτό).
Posted: Mon Apr 03, 2006 9:50 pm
by AnINffected
Χμμ, αυτή είναι δύσκολη περίπτωση...
Για έτοιμο stemmer ρώτα τον κ.Ανδρουτσόπουλο (
ion@aueb.gr ) ή τον κ.Βαζιργιάννη (
mvazirg@aueb.gr ), σίγουρα θα γνωρίζουν κάτι παραπάνω.
Τώρα το να βρίσκεις τις ρίζες των λέξεων είναι πολύ δύσκολη υπόθεση... αλλά το οτι τα Ελληνικά είναι περισσότερο οργανωμένη γλώσσα σίγουρα βοηθάει.
Μία εντελώς πρόχειρη ιδέα είναι να έχουμε την τάξη Λέξη που να αποτελείται από το πρόθεμα, το θέμα και την κατάληξη...να έχουμε συγκεντρωμένες τις προθέσεις και τις καταλήξεις τις Ελληνικής, όταν τις βρίσκουμε να τις αφαιρούμε από την Λέξη και έτσι να μένει η ρίζα.
Μία άλλη λύση θα ήταν να χρησιμοποιούμε μηχανική μάθηση, μάλλον μή επιβλεπόμενη.
Πάντως είναι πάρα πολύ ενδιαφέρον θέμα...
Posted: Mon Apr 03, 2006 10:35 pm
by PaP
http://www.ilsp.gr κάτι θα έχει
αλλά γενικά τα ελληνικά είναι πολύ δύσκολα γιατί αν βάλεις και τους τόνους και τα σύνθετα γίνεται ο χαμός.
π.χ. το "είδα" τι θα το κάνεις ???
Posted: Tue Apr 04, 2006 12:16 am
by silegav
Βασικά στην φάση που είμαι τώρα, θα ήθελα κάτι έτοιμο και υλοποιημένο. Θα το κοιτάξω και θα πω αν βρω ή φτιάξω κάτι καλό.
Ευχαριστώ!!!
Posted: Tue Apr 04, 2006 1:11 am
by AnINffected
:smt115 Μπράβο ρε Tarantula, ξέρεις πόσο καιρό προσπαθώ να θυμηθώ αυτή τη διεύθυνση;;
Ευχαριστώ και'γω!
Υ.Γ. Καλά, το είδα (βλέπω, ορώ) είναι ανώμαλο... τα ανώμαλα δε μπορείς να τα χειρίζεσαι με το standard τρόπο ούτως ή αλλιώς.
Posted: Tue Apr 04, 2006 1:53 am
by ailouros
Το ilsp έχει stemmer κλπ αλλά δυστυχώς τα χρησιμοποιεί για εσωτερική κατανάλωση μόνο και δυστυχώς λόγω της ανταγωνιστικότητας είναι αδύνατον να βγουν έξω.
Posted: Tue Apr 04, 2006 4:14 pm
by Ethel
AnINffected wrote::smt115 Μπράβο ρε Tarantula,
Pap μάλλον ήθελες να πεις