Heritrix PDF2DOC

Luke · Post by **Luke** » Mon Jun 25, 2007 10:40 pm

Κατ' αρχάς να πω ότι το τοποθέτησα σε αυτό το subforum γιατί αφορά κυρίως όσους ασχολούνται με προγραμματισμό και με θέματα όπως η εξόρυξη γνώσης και η ανάκτηση πληροφορίας.
Είναι μάλλον εξειδικευμένο το θέμα, αλλά μετά από τόσο ψάξιμο στο google δεν ξέρω τι άλλο να κάνω γι' αυτό και απευθύνομαι εδώ.

Ασχολούμαι λοιπόν με αυτόν τον open source crawler, τον Heritrix και επειδή είναι τα πρώτα μου βήματα θα ήθελα να με βοηθήσετε στο πως θα μπορέσω να κατεβάζω π.χ. όλα τα αρχεία pdf από μια ιστοσελίδα αλλά να μην τα αποθηκεύω ως pdf αλλά με κάποιο άλλο format, π.χ. doc.

Για την ώρα έχω κατορθώσει να αλλάξω το format αποθήκευσης σε pdf από το προεπιλεγμένο arc και με τη χρήση regular expressions να επιλέγω μόνο τον τύπο αρχείων που θέλω (στην περίπτωσή μου το pdf). Μάλλον πρέπει κάτι να πειράξω στους writer processors αλλά δεν έχω καταλάβει τι ακριβώς.

Όσα manuals και άλλο υλικό έχω βρει λένε κάποια γενικά αλλά δεν έχω βρει και πολλά παραδείγματα ώστε να κατανοήσω πλήρως τη χρήση των περισσότερων φίλτρων και των διάφορων modules που παρέχονται. Όποια βοήθεια ή ακόμα και παραπομπή σε κάποιο κατατοπιστικό site ή ακόμα και κάποιο εξειδικευμένο forum θα ήταν πολύτιμη.

vangos · Post by **vangos** » Tue Jun 26, 2007 10:58 am

Τα pdf δεν μπορούν να μετατραπούν έτσι εύκολα σε doc (τουλάχιστον χωρίς να χαλάσει κάπως η μορφοποίηση τους). Αν θες να τα μετατρέψεις σε άλλη μορφή απλά για να εξάγεις κάποια πληροφορία μπορείς να ψάξεις για κάποιο εργαλείο που μετατρέπει από pdf σε κάτι άλλο και αφού το αρχείο σωθεί από το heritrix ως pdf στη συνέχεια να το καλέσεις για να κάνει τη μετατροπή.
Μπορείς να το καλείς μόλις σωθεί το κάθε αρχείο η να περιμένεις να κατέβουν όλα και στη συνέχεια να κάνεις ένα πέρασμα και να τα μετατρέψεις όλα μαζί. Ανάλογα τι σε βολεύει. Στην πρώτη περίπτωση θα πρέπει να επέμβεις στον κώδικα του heritrix ενώ στη δεύτερη μπορείς να γράψεις ένα δικό σου σκριπτάκι το οποίο θα ενεργοποιείται μόλις τελειώσει το crawling.

Luke · Post by **Luke** » Tue Jun 26, 2007 11:37 am

Το doc ενδεικτικά το ανέφερα και καταλαβαίνω ότι υπάρχει δυσκολία ειδικά αν υπάρχει εικόνα ή πίνακας στο pdf. Δε με ενδιαφέρει απόλυτα να είναι σωστή η μετατροπή από pdf σε doc, απλά θα ήθελα να δω τι ακριβώς γίνεται σε αυτή την περίπτωση. Θα έλεγα ότι μάλλον επιζητώ να υπάρχει κάποια τέτοια δυσκολία.

Δηλαδή με τα φίλτρα και τις υπάρχουσες επιλογές του heritrix δε γίνεται τίποτα; Θα προτιμούσα, αν γίνεται βέβαια να μην επέμβω σε κάτι, απλά να το παραμετροποιήσω σωστά ώστε να το κάνει μέσα από τις υπάρχουσες δυνατότητές του, αν αυτές επαρκούν.

Ευχαριστώ πολύ για την ανταπόκριση.

vangos · Post by **vangos** » Tue Jun 26, 2007 3:25 pm

Νομίζω ότι το pdf filter του heritrix έχει ως σκοπό κυρίως να κάνει parsing του pdf αρχείου για να εξάγει URLs που θα του χρησιμεύσουν στο crawling και όχι να μετατρέψει το pdf σε κάτι άλλο.

Luke · Post by **Luke** » Tue Jun 26, 2007 4:58 pm

Ναι, απ' ό,τι κατάλαβα κι εγώ μόνο αυτή τη δυνατότητα έχει. Αλλά το ρώτησα γιατί στα πλαίσια του project του μαθήματος των Συστημάτων Ανάκτησης Πληροφορίας μας ζητήθηκε κάτι τέτοιο και μην μπορώντας να καταλήξω κάπου ρώτησα εδώ.
Ευχαριστώ και πάλι για τις πληροφορίες!

Post by **Sreak** » Wed Jun 27, 2007 9:41 am

Κοίτα εγώ δούλεψα ως εξής προκειμένου να μην έχεις πρόβλημα με το encoding των pdf αρχείων που θέλεις να μετατρέψεις (αν αυτά είναι ελληνικά).
Κατέβασε τα σε pdf και μετά με batch διαδικασία χρησιμοποίησε τον fine reader της ABBYY για να τα μετατρέψεις (2500 κείμενα σε 3 μέρες με καταπληκτικά αποτελέσματα)

ΥΓ:Αν από τις ρυθμίσεις του profile επιλέξεις να κάνει extract το pdf και να μην το αποθηκεύει ως pdf δεν σου λύνει το πρόβλημα? Εγώ απλά είχα μεγάλο πρόβλημα με τα ελληνικά encodings.

Luke · Post by **Luke** » Wed Jun 27, 2007 11:42 am

Yπάρχει μόνο επιλογή extractor για pdf's το οποίο κάνει όμως αυτό που λέει ο vangos παραπάνω και όχι αυτό που θέλω εγώ.

Έτσι όπως κατάλαβα το πρόβλημα με τον τρόπο που τέθηκε είναι να κάνουμε τη δουλειά αυτή μέσα από το Heritrix και όχι με κάποιο "εξωτερικό" πρόγραμμα. Ρώτησα με mail και τώρα περιμένω μια απάντηση.

Αν τελικά χρησιμοποιήσω κάποιο άλλο πρόγραμμα ως τώρα είχα βριε 2 εναλλακτικές επιλογές: 1) να φτιάξω έναν δικό μου parser (της κακιάς ώρας θα είναι, αρκετά υποτυπώδης μιας και δεν έχω ξανακάνει κάτι παρόμοιο) ή 2) να χρησιμοποιήσω κάποιες έτοιμες κλάσεις java με τη βοήθεια που παρέχει το open source εργαλείο PDFBox, μέσα από ένα δικό μου java προγραμματάκι, οι οποίες μπορούν να κάνουν το parsing για μένα. Δεν ξέρω κατά πόσο θα δουλέψουν αυτά αλλά τουλάχιστον αυτά έχω σκεφτεί σαν εναλλακτικές.
3η επιλογή είναι αυτή που μου προτείνεις. Αυτό όμως με το batch με προβληματίζει λίγο γιατί δεν έχω ξαναφτιάξει ή μήπως γίνεται μέσα από το fine reader; Θα το κοιτάξω λίγο και θα ξαναποστάρω αν δεν το καταλάβω.

Post by **Sreak** » Wed Jun 27, 2007 1:11 pm

To batc γίνεται μέσα από το Fine Reaser. Απλά επιλέγεις όσα αρχεία θέλεις και του λές "Μετέτρεψέ τα σε TXT- DOC whatever".

Αυτό είναι για εργασία στη σχολή ή για δουλειά???

Luke · Post by **Luke** » Wed Jun 27, 2007 1:20 pm

Το είδα και στην πράξη τελικά και με αγγλικά και με ελληνικά κείμενα και είχε αρκετά καλά αποτελέσματα.
Για εργασία στη σχολή είναι. Αλλά επειδή δεν έχει μια σαφή καθοδήγηση για το τι ακριβώς θέλει ψάχνομαι από εδώ κι από 'κεί. Ενδιαφέρον πάντως έχει.

Επομένως για την ώρα έχω 3 εναλλακτικές και βλέπουμε.

Post by **PaP** » Wed Jun 27, 2007 3:12 pm

http://poi.apache.org/