Page 1 of 1

getContent from .doc & .html files

Posted: Wed Jul 09, 2008 10:09 pm
by Spy
Ξερει κανενας καμια βιβλιοθηκη που να προσφερεται στο web και να προσφερει την μετατροπη των doc και html αρχειων σε txt;
Εχω ψαξει αρκετα.. αλλα μπερδευτηκα επισης αρκετα!

Re: getContent from .doc & .html files

Posted: Thu Jul 10, 2008 12:40 am
by netharis
Σε τι γλώσσα αναφέρεσαι;

Re: getContent from .doc & .html files

Posted: Thu Jul 10, 2008 1:02 am
by Ισοβίτης
Πάντως υπάρχουν και έτοιμοι converters αν σκοπός δεν είναι να φτιάξεις κάτι ο ίδιος.

Re: getContent from .doc & .html files

Posted: Thu Jul 10, 2008 1:50 am
by Spy
netharis wrote:Σε τι γλώσσα αναφέρεσαι;

Java!!! Ας πουμε για pdf εχω βρει κατι και μπορω να δουλεψω... Για τα υπολοιπα οχι!!

Re: getContent from .doc & .html files

Posted: Thu Jul 10, 2008 1:55 am
by SeniorCarbone
Spy για pdf ποιόν converter χρησιμοποιείς?
Eγώ ψάχνω ακόμα κάποιο της προκοπής.
Το pdfBox που δοκίμασα ήταν απαράδεκτο.

Re: getContent from .doc & .html files

Posted: Thu Jul 10, 2008 2:12 am
by djsolid
Μια μικρή παρένθεση... Ενα html αρχείο ουσιαστικά είναι ένα αρχείο txt με άλλη επέκταση.

Re: getContent from .doc & .html files

Posted: Thu Jul 10, 2008 12:45 pm
by Spy
SeniorCarbone wrote:Spy για pdf ποιόν converter χρησιμοποιείς?
Eγώ ψάχνω ακόμα κάποιο της προκοπής.
Το pdfBox που δοκίμασα ήταν απαράδεκτο.

To pdfBox χρησιμοποιω, και ειμαι πολυ ευχαριστημενος

djsolid wrote:Μια μικρή παρένθεση... Ενα html αρχείο ουσιαστικά είναι ένα αρχείο txt με άλλη επέκταση.


Ναι ΟΚ, αλλα με τα meta data τι κανουμε;;