Είναι μάλλον εξειδικευμένο το θέμα, αλλά μετά από τόσο ψάξιμο στο google δεν ξέρω τι άλλο να κάνω γι' αυτό και απευθύνομαι εδώ.
Ασχολούμαι λοιπόν με αυτόν τον open source crawler, τον Heritrix και επειδή είναι τα πρώτα μου βήματα θα ήθελα να με βοηθήσετε στο πως θα μπορέσω να κατεβάζω π.χ. όλα τα αρχεία pdf από μια ιστοσελίδα αλλά να μην τα αποθηκεύω ως pdf αλλά με κάποιο άλλο format, π.χ. doc.
Για την ώρα έχω κατορθώσει να αλλάξω το format αποθήκευσης σε pdf από το προεπιλεγμένο arc και με τη χρήση regular expressions να επιλέγω μόνο τον τύπο αρχείων που θέλω (στην περίπτωσή μου το pdf). Μάλλον πρέπει κάτι να πειράξω στους writer processors αλλά δεν έχω καταλάβει τι ακριβώς.

Όσα manuals και άλλο υλικό έχω βρει λένε κάποια γενικά αλλά δεν έχω βρει και πολλά παραδείγματα ώστε να κατανοήσω πλήρως τη χρήση των περισσότερων φίλτρων και των διάφορων modules που παρέχονται. Όποια βοήθεια ή ακόμα και παραπομπή σε κάποιο κατατοπιστικό site ή ακόμα και κάποιο εξειδικευμένο forum θα ήταν πολύτιμη.
