WEB Crawler

Συζητήσεις για θέματα που σχετίζονται με software.
Post Reply
User avatar
olga
byte level
byte level
Posts: 86
Joined: Fri Oct 14, 2005 1:19 pm
Academic status: 3rd year
Gender:
Location: Where the wild roses grow...

WEB Crawler

Post by olga » Mon Nov 06, 2006 1:11 am

Γειάσας παιδια!

Μήπως έχει χρησιμοποιήσει κανείς κάποιον crawler που μπορεί να πάει σε συγκεκριμένο url (ιστότοπος μιας ταινίας) και να τραβάει το όνομα του σκηνοθέτή;

Ευχαριστώ

Όλγα
Η πιο όμορφη θάλασσα ειναι αυτη που δεν την ταξιδέψαμε ακόμα....
User avatar
ciao
Wow! Terabyte level
Wow! Terabyte level
Posts: 2371
Joined: Mon May 03, 2004 1:15 am
Academic status: PhD
Gender:
Location: πίσω από την μπάλα

Post by ciao » Mon Nov 06, 2006 3:37 am

Έχεις δοκιμάσει το http://www.imdb.com ? ;)
S.S.D.D.
Erevodifwntas
Gbyte level
Gbyte level
Posts: 1098
Joined: Thu Apr 22, 2004 2:18 pm
Academic status: Alumnus/a
Gender:
Location: In a Long Time Ago in A Galaxy far far away
Contact:

Post by Erevodifwntas » Mon Nov 06, 2006 8:10 am

Μπορείς να το κάνεις και μόνη σου (δεν είναι πάνω από 30 γραμμές κώδικα)
Go To Statement Considered Harmful (Τιτλος δημοσίευσης του Edsger Dijkstra).

my personal site
User avatar
olga
byte level
byte level
Posts: 86
Joined: Fri Oct 14, 2005 1:19 pm
Academic status: 3rd year
Gender:
Location: Where the wild roses grow...

Post by olga » Mon Nov 06, 2006 9:43 am

Το site στόχος πράγματι είναι το IMDB. Αυτό που θέλω να κάνω είναι ο cralwer να παίρνει το ακριβές Url της ταινίας που είναι αποθηκευμένο σε έναν πίνακα και να μου γυρνάει το όνομα του σκηνοθέτη. (Το πλήθος των ταινιών είναι πάνω από 1000...).


Αγαπητέ Erevodifwnta μήπως μπορείς να μου δώσεις καμιά ιδέα για το πως ξεκινάμε για τις 30 γραμμές κώδικα?

Ευχαριστώ και τους δύο!

Όλγα
Η πιο όμορφη θάλασσα ειναι αυτη που δεν την ταξιδέψαμε ακόμα....
Erevodifwntas
Gbyte level
Gbyte level
Posts: 1098
Joined: Thu Apr 22, 2004 2:18 pm
Academic status: Alumnus/a
Gender:
Location: In a Long Time Ago in A Galaxy far far away
Contact:

Post by Erevodifwntas » Mon Nov 06, 2006 10:34 am

Αφού έχεις και το ακριβές URL της ταινίας τα πράγματα είναι ακόμα πιο εύκολα...

αρχικά το πρόγραμμα κατεβάζει τη σελίδα που θες (6-7 εντολές είναι στη Java -το πολύ). για την ακρίβεια την αποθηκεύει σε ένα string (ουσιαστικά είναι ο html κώδικας της σελίδας). εκεί αν θες αφαιρεί τα tags της html, και έπειτα ξέροντας το pattern που ακολουθεί το site για την παρουσίαση των σκηνοθετών κάνεις ένα string.indexof("director") και τελείωσες (άρα ο crawler είναι λιγότερο από 30 γραμμές... 30 είναι αν θες να κάνει και το searching μόνος του)
Go To Statement Considered Harmful (Τιτλος δημοσίευσης του Edsger Dijkstra).

my personal site
User avatar
olga
byte level
byte level
Posts: 86
Joined: Fri Oct 14, 2005 1:19 pm
Academic status: 3rd year
Gender:
Location: Where the wild roses grow...

Post by olga » Mon Nov 06, 2006 10:51 am

Σε ευχαριστώ για τις συμβουλές!!!!!

Καμιά καλή ιδεά για το πως θα παίρνει το πεδίο από το πίνακα της SQL και πως το όνονα του σκηνοθέτη θα μπαινει στο πεδίο της βάσης?

Ευχαριστώ!
Η πιο όμορφη θάλασσα ειναι αυτη που δεν την ταξιδέψαμε ακόμα....
User avatar
AmmarkoV
Wow! Terabyte level
Wow! Terabyte level
Posts: 2838
Joined: Thu Nov 04, 2004 2:55 pm
Gender:
Location: Reloaded @ Santa Friday
Contact:

Post by AmmarkoV » Mon Nov 06, 2006 12:56 pm

Βασικά αν δεν θές να μπλέκεις και με δίκτυα γιατί αυτό που λές μάλλον απλό είναι.. Μπορείς να κατεβάσεις όλα τα links από μια σελίδα με το Down Them All του Firefox , να τα επιλέξεις όλα , να κάνεις ένα rename ώς movies (οπότε και τα windows θα συμπληρώσουν movies1.html , movies2.html ,movies3.html ktl)
και στο πρόγραμμα σου να βάλεις ένα
for 1 έως 32 πάρε_σκηνοθέτη("movies"+i+".html");
Spoiler: εμφάνιση/απόκρυψη
I would love to change the world, but they won't give me the source code. Οι καθηγητές πληρώνονται από το δημόσιο αρα από όλους τους Έλληνες για να κάνουν τα μαθήματα. Όλοι οι Έλληνες θα έπρεπε να μπορούν να δουν τα μαθήματα τα οποία πληρώνουν! Tο πνευματικό έργο που επιτελείται με τα χρήματα του δημοσίου ΔΕΝ είναι μόνο δικό σας Όποιος δεν δίνει πανελλήνιες έχει δικαίωμα στην γνώση που πληρώνει [url=http://ammar.gr/gddg]gddg blog[/url]
Image
User avatar
olga
byte level
byte level
Posts: 86
Joined: Fri Oct 14, 2005 1:19 pm
Academic status: 3rd year
Gender:
Location: Where the wild roses grow...

Post by olga » Mon Nov 06, 2006 1:34 pm

Για την ακρίβεια τα links βρίσκονται όλα στο ίδιο domain imdb αλλά το καθένα movie έχει το δικό του link. Οπότε με κάποιο τρόπο πρέπει να πω στο πρόγραμμα να παίρνει το link από τον πίνακα και να πάει να κατεβάζει τον κώδικα ΗΤML.
Η πιο όμορφη θάλασσα ειναι αυτη που δεν την ταξιδέψαμε ακόμα....
Erevodifwntas
Gbyte level
Gbyte level
Posts: 1098
Joined: Thu Apr 22, 2004 2:18 pm
Academic status: Alumnus/a
Gender:
Location: In a Long Time Ago in A Galaxy far far away
Contact:

Post by Erevodifwntas » Mon Nov 06, 2006 4:14 pm

Μπορείς να πάρεις από μία βάση στοιχεία (με εντολή Select) και να γράψεις σε αυτήν (Δες το μάθημα του Βασσάλου)
Go To Statement Considered Harmful (Τιτλος δημοσίευσης του Edsger Dijkstra).

my personal site
Post Reply

Return to “Software”