Page 1 of 1

Ανάγνωση περιεχομένων PDF από search engines

Posted: Sun May 30, 2004 2:15 am
by TaRaNTuLa
Δεν ξέρω αν το έχετε παρατηρήσει και εσείς,αλλά όταν βάζεις κάποια κλειδιά σε μια μηχανή αναζήτησης,αυτή σου επιστρέφει στα αποτελέσματα και αρχεία .pdf .Τα PDF όμως δεν είναι σαν "εικόνες",δηλαδή δεν μπορείς να τα επεξεργαστείς,απλά τα βλέπεις;;; Αυτά πως καταφέρνουν να δουν τις λέξεις που περιέχουν;;; :smt021

Posted: Sun May 30, 2004 3:25 am
by HdkiLLeR
Όχι έχουν handling για τα πιο γνωστά formats .txt,.doc,.pdf,.ps,.ppt κλπ. Κοίνώς το ανοίγουν και ψάχνουν μέσα για το pattern αυτό. Αν και δνε ξέρω πως το κάνουν τόσο γρήγορα έχω ακούσει πως γίνεται binary pattern checking κοινώς δεν ψάχνει text αλλά σγκρίνει binary κάτι το οποίο είναι τραγικά πιο γρήγορο μια αφαίρεση στον acc είναι όλη κιόλη.

Btw:Στo google μια απο τις functions που καλείται σύμφωνα με άρθρο που είχα διαβάσει για την τεχνολογία αναζήτησης που χρησιμοποιούν παίρνει 120 περίπου args !!!!!!!

Re: Ανάγνωση περιεχομένων PDF από search engines

Posted: Thu Jun 03, 2004 1:42 am
by ttoppouzokypraios
TaRaNTuLa wrote:Τα PDF όμως δεν είναι σαν "εικόνες",δηλαδή δεν μπορείς να τα επεξεργαστείς,απλά τα βλέπεις;;; Αυτά πως καταφέρνουν να δουν τις λέξεις που περιέχουν;;; :smt021
Όχι τα pdf είναι αρχεία κειμένου όπως τα αρχεία του word. Μάλιστα αν ο συγγραφέας δεν τα έχει κλειδώσει μπορείς να κάνεις και copy-paste από το acrobat στο word (ή όπου αλλού θέλεις) Η μεγαλύτερη διαφορά και ατού των pdf είναι πως αν συμπεριλάβεις καμιά παράξενη γραμματοσειρά στο κείμενο σου αυτή "τοποθετείτε" στο pdf αρχείο και έτσι δεν χρειάζεται να τη κατεβάσεις για να διαβάσεις όπως πρέπει το κείμενο.

http://www.adobe.com/products/acrobat/adobepdf.html

Posted: Thu Jun 03, 2004 12:04 pm
by YiannisF
HdkiLLeR wrote:Αν και δνε ξέρω πως το κάνουν τόσο γρήγορα έχω ακούσει πως γίνεται binary pattern checking κοινώς δεν ψάχνει text αλλά σγκρίνει binary κάτι το οποίο είναι τραγικά πιο γρήγορο μια αφαίρεση στον acc είναι όλη κιόλη.
Είναι τόσο γρήγορο, γιατί το Google (όπως και όλες τις μηχανές αναζήτησης τύπου Google) δεν ψάχνει real time για το κάθε query, δηλαδή δεν κάθεται να ψάξει όλο το Internet εκείνη την ώρα για σελίδες που περιέχουν τους όρους αναζήτησης. Υπάρχει από πίσω μια άλλη εφαρμογή (web crawler), η οποία αναλαμβάνει να σαρώνει συνεχώς σελίδες μεταπηδώντας από τη μία στην άλλη μέσω των hyperlinks. Κάθε σελίδα αποθηκεύεται ολόκληρη σε μια ΒΔ και στη συνέχεια γίνεται extract των λέξεων της, οι οποίες τοποθετούνται σε άλλο πίνακα της ΒΔ μαζί με την πληροφορία σε ποιες σελίδες εμφανίζονται. Όταν γίνεται ένα query από το Search Engine γίνεται σύγκριση των όρων αναζήτησης με τις λέξεις στον πίνακα αυτό και επιστρέφονται οι σελίδες που τις περιέχουν. Η ταχύτητα εμφάνισης των αποτελεσμάτων λοιπόν εξαρτάται καθαρά από την διαχέιριση της ΒΔ (indexing και τέτοια), καθώς και από το hardaware.

Αυτά χοντρικά, ελπίζω να μην κούρασα με το σχετικά μεγάλο post.

Posted: Fri Jun 04, 2004 1:21 am
by ttoppouzokypraios
YiannisF wrote: Είναι τόσο γρήγορο, γιατί το Google (όπως και όλες τις μηχανές αναζήτησης τύπου Google) δεν ψάχνει real time για το κάθε query, δηλαδή δεν κάθεται να ψάξει όλο το Internet εκείνη την ώρα για σελίδες που περιέχουν τους όρους αναζήτησης. Υπάρχει από πίσω μια άλλη εφαρμογή (web crawler), η οποία αναλαμβάνει να σαρώνει συνεχώς σελίδες μεταπηδώντας από τη μία στην άλλη μέσω των hyperlinks. Κάθε σελίδα αποθηκεύεται ολόκληρη σε μια ΒΔ και στη συνέχεια γίνεται extract των λέξεων της, οι οποίες τοποθετούνται σε άλλο πίνακα της ΒΔ μαζί με την πληροφορία σε ποιες σελίδες εμφανίζονται. Όταν γίνεται ένα query από το Search Engine γίνεται σύγκριση των όρων αναζήτησης με τις λέξεις στον πίνακα αυτό και επιστρέφονται οι σελίδες που τις περιέχουν. Η ταχύτητα εμφάνισης των αποτελεσμάτων λοιπόν εξαρτάται καθαρά από την διαχέιριση της ΒΔ (indexing και τέτοια), καθώς και από το hardaware.

Αυτά χοντρικά, ελπίζω να μην κούρασα με το σχετικά μεγάλο post.
Σε κάποιο φόρουμ που εχει στήσει ένας φίλος ήταν ωραία έκπληξη όταν για πρώτη φορά μέσα στη λίστα με τα πισιά που είχαν "χτυπήσει" το forum είδαμε και τον crawler του google για πρώτη φορά. Μάς είχαν ανακαλύψει!!! :-D

Posted: Fri Jun 04, 2004 2:09 am
by lumenintervalum
εγώ γιατί πίστευα ότι θα πρέπει να δηλώσει κάποιος στο header της σελίδας κάτι του στυλ
<meta name="keywords" content= "....">
και αυτά ν' αλλάζουν κάθε φορά ανάλογα με το περιεχόμενο της σελίδας για να μπορεί να γίνει indexing από τη μηχανή αναζήτησης; είμαι πολύ εκτός θέματος;;;

Posted: Fri Jun 04, 2004 7:29 pm
by HdkiLLeR
Όχι μέσα είσαι αυτό είναι meta-data οπότε βρίσκεται απο ένα search engine αλλά δεν είναι το μόνο που χρησιμοποιούν οι μηχανές αναζήτησης.

Posted: Fri Jun 04, 2004 11:59 pm
by vagalati
Προσωπικά πιστεύω πως σύγχρονες μηχανές αναζήτησης το γράφουν στα $%^^& αυτό το tag, για τον προφενές λόγο ότι κάποιος θα το παράκανε και θα παρα-διαφήμιζε το site του.
Σκεφτείτε και τα διαφημιστικά sites ή αυτά που απλά πουλάνε ένα domain name.

Posted: Sat Jun 05, 2004 6:40 pm
by HdkiLLeR
Το χρησιμοποιούνε ακόμη αλλά απ' ότι έχω καταλάβει με κάποια σειρά πρτοτεαιότητας γίνεται η κατάταξη...πχ το δικό μου το site που είχε παρουσίαση για quantum computing το πιάνει το google.(στα meta tags είχα βάλει τέτοια key words).

Posted: Sat Jun 05, 2004 8:13 pm
by YiannisF
Τα meta tags είναι πράγματι δευτερευούσης σημασίας. Σημαντικότερα είναι το πλήθος εμφανίσεων των όρων αναζήτησης, πόσο κοντά είναι μεταξύ τους, σε ποιο σημείο της σελίδας βρίσκονται (πχ στον τίτλο είναι πιο σημαντικό), τα συμφραζόμενα (πχ αν είναι μέρος e-mail διεύθυνσης δεν είναι σημαντικό) και βέβαια το Page Rank (το οποίο είναι όλα τα λεφτά!)

Posted: Sun Jun 06, 2004 12:47 am
by lumenintervalum
1.το Page Rank τι είναι;;
2.αυτά πως τα στοιχεία πως τα μάθατε;;(προφανώς κάπου τα διαβάσατε...)

είμαι λίγο άσχετη όπως βλέπετε, ότι ξέρω το έχω μάθει εμπειρικά.. :???:

Posted: Sun Jun 06, 2004 5:11 am
by YiannisF
lumenintervalum wrote:1.το Page Rank τι είναι;;
Page Rank σε γενικές γραμμές είναι μια μέθοδος που επινοήθηκε από το Google και η οποία έχει ως σκοπό να αξιολογήσει ποιοτικά μια ιστοσελίδα. Σύμφωνα με τη λογική του Page Rank μια ιστοσελίδα είναι τόσο σημαντικότερη όσο περισσότερες ιστοσελίδες δείχνουν σε αυτή, δηλαδή όσες περισσότερες σελίδες την έχουν στα links τους. Έτσι κάθε ιστοσελίδα που έχει ένα link προς μία άλλη, ουσιαστικά της δίνει μία ψήφο. Δε σταματάει όμως εκεί. Η ψήφος κάθε σελίδας δεν έχει την ίδια βαρύτητα. Όσο πιο σημαντική είναι μια σελίδα τόσο πιο μεγάλη αξία έχει η ψήφος της. Άρα δεν αρκεί να δείχνουν στη σελίδα σου πολλές άλλες σελίδες, αλλά και αυτές να δείχνονται από πολλές κοκ.

Για να το καταλάβεις καλύτερα σκέψου το παρακάτω απλό μοντέλο:

Έστω ότι έχουμε δύο σελίδες στο internet την Α και τη Β, στις οποίες δε δείχνει καμία σελίδα. Αυτές λοιπόν έχουν μηδενικό Page Rank. Αν αυτές τώρα δείχνουν και οι δύο στη σελίδα Γ, η σελίδα αυτή αποκτά Page Rank = 2 (γιατί δείχνεται από δύο). Αν τώρα η Α και η Γ δείχνουν στην Δ, τότε αυτή θα αποκτήσει Page Rank = 3 (1 από την Α + 2 από την Γ).

περισσότερα για τον αλγόριθμο Page Rank: http://pr.efactory.de/

lumenintervalum wrote:2.αυτά πως τα στοιχεία πως τα μάθατε;;(προφανώς κάπου τα διαβάσατε...)
Φοβάμαι πως αναγκάστηκα :mad: να τα μάθω λόγω του θέματος της πτυχιακής μου! Άμα ενδιαφέρεσαι πάντως στο web υπάρχουν άπειρες πληροφορίες.

Posted: Sun Jun 06, 2004 11:57 pm
by vagalati
HdkiLLeR wrote:Το χρησιμοποιούνε ακόμη αλλά απ' ότι έχω καταλάβει με κάποια σειρά πρτοτεαιότητας γίνεται η κατάταξη...πχ το δικό μου το site που είχε παρουσίαση για quantum computing το πιάνει το google.(στα meta tags είχα βάλει τέτοια key words).
Πάντως αν έβαζες linuxpage στο google πετούσε πρώτη τη δική μου σελίδα, χωρίς καν να έχω τα συγκεκριμένα meta-tags.

Posted: Mon Jun 07, 2004 12:05 am
by HdkiLLeR
Σίγουρα ρε σύ δεν είναι δυνατόν να ψάχνουν μόνο απο τα meta tags ...εδώ σκανάρουν για συγκεκριμένα patterns ακόμη και docs(όχι απαραίτητα .doc) που μπορείς να έχεις μέσα.

Posted: Mon Jun 07, 2004 9:47 pm
by vagalati
Πάντως μιας και το ανέφερες στην σελίδα μου είχα βάλει ένα σωρό ελληνικά howtos σε txt απο το hellug. :-D :-D :-D