WEB Crawler
- olga
- byte level
- Posts: 86
- Joined: Fri Oct 14, 2005 1:19 pm
- Academic status: 3rd year
- Gender: ♀
- Location: Where the wild roses grow...
WEB Crawler
Γειάσας παιδια!
Μήπως έχει χρησιμοποιήσει κανείς κάποιον crawler που μπορεί να πάει σε συγκεκριμένο url (ιστότοπος μιας ταινίας) και να τραβάει το όνομα του σκηνοθέτή;
Ευχαριστώ
Όλγα
Μήπως έχει χρησιμοποιήσει κανείς κάποιον crawler που μπορεί να πάει σε συγκεκριμένο url (ιστότοπος μιας ταινίας) και να τραβάει το όνομα του σκηνοθέτή;
Ευχαριστώ
Όλγα
Η πιο όμορφη θάλασσα ειναι αυτη που δεν την ταξιδέψαμε ακόμα....
-
- Gbyte level
- Posts: 1098
- Joined: Thu Apr 22, 2004 2:18 pm
- Academic status: Alumnus/a
- Gender: ♂
- Location: In a Long Time Ago in A Galaxy far far away
- Contact:
- olga
- byte level
- Posts: 86
- Joined: Fri Oct 14, 2005 1:19 pm
- Academic status: 3rd year
- Gender: ♀
- Location: Where the wild roses grow...
Το site στόχος πράγματι είναι το IMDB. Αυτό που θέλω να κάνω είναι ο cralwer να παίρνει το ακριβές Url της ταινίας που είναι αποθηκευμένο σε έναν πίνακα και να μου γυρνάει το όνομα του σκηνοθέτη. (Το πλήθος των ταινιών είναι πάνω από 1000...).
Αγαπητέ Erevodifwnta μήπως μπορείς να μου δώσεις καμιά ιδέα για το πως ξεκινάμε για τις 30 γραμμές κώδικα?
Ευχαριστώ και τους δύο!
Όλγα
Αγαπητέ Erevodifwnta μήπως μπορείς να μου δώσεις καμιά ιδέα για το πως ξεκινάμε για τις 30 γραμμές κώδικα?
Ευχαριστώ και τους δύο!
Όλγα
Η πιο όμορφη θάλασσα ειναι αυτη που δεν την ταξιδέψαμε ακόμα....
-
- Gbyte level
- Posts: 1098
- Joined: Thu Apr 22, 2004 2:18 pm
- Academic status: Alumnus/a
- Gender: ♂
- Location: In a Long Time Ago in A Galaxy far far away
- Contact:
Αφού έχεις και το ακριβές URL της ταινίας τα πράγματα είναι ακόμα πιο εύκολα...
αρχικά το πρόγραμμα κατεβάζει τη σελίδα που θες (6-7 εντολές είναι στη Java -το πολύ). για την ακρίβεια την αποθηκεύει σε ένα string (ουσιαστικά είναι ο html κώδικας της σελίδας). εκεί αν θες αφαιρεί τα tags της html, και έπειτα ξέροντας το pattern που ακολουθεί το site για την παρουσίαση των σκηνοθετών κάνεις ένα string.indexof("director") και τελείωσες (άρα ο crawler είναι λιγότερο από 30 γραμμές... 30 είναι αν θες να κάνει και το searching μόνος του)
αρχικά το πρόγραμμα κατεβάζει τη σελίδα που θες (6-7 εντολές είναι στη Java -το πολύ). για την ακρίβεια την αποθηκεύει σε ένα string (ουσιαστικά είναι ο html κώδικας της σελίδας). εκεί αν θες αφαιρεί τα tags της html, και έπειτα ξέροντας το pattern που ακολουθεί το site για την παρουσίαση των σκηνοθετών κάνεις ένα string.indexof("director") και τελείωσες (άρα ο crawler είναι λιγότερο από 30 γραμμές... 30 είναι αν θες να κάνει και το searching μόνος του)
- AmmarkoV
- Wow! Terabyte level
- Posts: 2838
- Joined: Thu Nov 04, 2004 2:55 pm
- Gender: ♂
- Location: Reloaded @ Santa Friday
- Contact:
Βασικά αν δεν θές να μπλέκεις και με δίκτυα γιατί αυτό που λές μάλλον απλό είναι.. Μπορείς να κατεβάσεις όλα τα links από μια σελίδα με το Down Them All του Firefox , να τα επιλέξεις όλα , να κάνεις ένα rename ώς movies (οπότε και τα windows θα συμπληρώσουν movies1.html , movies2.html ,movies3.html ktl)
και στο πρόγραμμα σου να βάλεις ένα
for 1 έως 32 πάρε_σκηνοθέτη("movies"+i+".html");
και στο πρόγραμμα σου να βάλεις ένα
for 1 έως 32 πάρε_σκηνοθέτη("movies"+i+".html");
- Spoiler: εμφάνιση/απόκρυψη

-
- Gbyte level
- Posts: 1098
- Joined: Thu Apr 22, 2004 2:18 pm
- Academic status: Alumnus/a
- Gender: ♂
- Location: In a Long Time Ago in A Galaxy far far away
- Contact: