
Ανάγνωση περιεχομένων PDF από search engines
- TaRaNTuLa
- Gbyte level
- Posts: 1598
- Joined: Fri Apr 30, 2004 4:54 pm
- Academic status: PhD
- Gender: ♂
- Location: MMLab
Ανάγνωση περιεχομένων PDF από search engines
Δεν ξέρω αν το έχετε παρατηρήσει και εσείς,αλλά όταν βάζεις κάποια κλειδιά σε μια μηχανή αναζήτησης,αυτή σου επιστρέφει στα αποτελέσματα και αρχεία .pdf .Τα PDF όμως δεν είναι σαν "εικόνες",δηλαδή δεν μπορείς να τα επεξεργαστείς,απλά τα βλέπεις;;; Αυτά πως καταφέρνουν να δουν τις λέξεις που περιέχουν;;; 

Tamiya rulezZz....
TL-01 Full Carbon, TL-01 Upgraded, FF-01 Upgraded, M03, CC-01, ΤΤ-01 TypeE, Volvo και Scania Trucks και η λίστα συνεχίζεται...
TL-01 Full Carbon, TL-01 Upgraded, FF-01 Upgraded, M03, CC-01, ΤΤ-01 TypeE, Volvo και Scania Trucks και η λίστα συνεχίζεται...
- HdkiLLeR
- Venus Project Founder
- Posts: 4356
- Joined: Tue Jan 27, 2004 4:41 pm
- Academic status: Alumnus/a
- Gender: ♂
- Location: New York, NY
- Contact:
Όχι έχουν handling για τα πιο γνωστά formats .txt,.doc,.pdf,.ps,.ppt κλπ. Κοίνώς το ανοίγουν και ψάχνουν μέσα για το pattern αυτό. Αν και δνε ξέρω πως το κάνουν τόσο γρήγορα έχω ακούσει πως γίνεται binary pattern checking κοινώς δεν ψάχνει text αλλά σγκρίνει binary κάτι το οποίο είναι τραγικά πιο γρήγορο μια αφαίρεση στον acc είναι όλη κιόλη.
Btw:Στo google μια απο τις functions που καλείται σύμφωνα με άρθρο που είχα διαβάσει για την τεχνολογία αναζήτησης που χρησιμοποιούν παίρνει 120 περίπου args !!!!!!!
Btw:Στo google μια απο τις functions που καλείται σύμφωνα με άρθρο που είχα διαβάσει για την τεχνολογία αναζήτησης που χρησιμοποιούν παίρνει 120 περίπου args !!!!!!!
-----BEGIN GEEK CODE BLOCK-----
Version: 3.12
GCS d-->--- s+:+ a- C++(+++) BILS++++$ P--- L++++>+++++ E--- W+++ N+ o+ K w--
O M+ V-- PS++>+++ PE- Y++ PGP++ t+ 5+ X+ R* tv b++ DI- D+ G+++ e+++>++++ h r++ y++
------END GEEK CODE BLOCK------
"UNIX is basically a simple operating system, but you have to be a genius to understand the simplicity." -- Dennis Ritchie
Version: 3.12
GCS d-->--- s+:+ a- C++(+++) BILS++++$ P--- L++++>+++++ E--- W+++ N+ o+ K w--
O M+ V-- PS++>+++ PE- Y++ PGP++ t+ 5+ X+ R* tv b++ DI- D+ G+++ e+++>++++ h r++ y++
------END GEEK CODE BLOCK------
"UNIX is basically a simple operating system, but you have to be a genius to understand the simplicity." -- Dennis Ritchie
- ttoppouzokypraios
- Kilobyte level
- Posts: 304
- Joined: Thu May 06, 2004 4:07 pm
- Location: back to my fields :-)
- Contact:
Re: Ανάγνωση περιεχομένων PDF από search engines
Όχι τα pdf είναι αρχεία κειμένου όπως τα αρχεία του word. Μάλιστα αν ο συγγραφέας δεν τα έχει κλειδώσει μπορείς να κάνεις και copy-paste από το acrobat στο word (ή όπου αλλού θέλεις) Η μεγαλύτερη διαφορά και ατού των pdf είναι πως αν συμπεριλάβεις καμιά παράξενη γραμματοσειρά στο κείμενο σου αυτή "τοποθετείτε" στο pdf αρχείο και έτσι δεν χρειάζεται να τη κατεβάσεις για να διαβάσεις όπως πρέπει το κείμενο.TaRaNTuLa wrote:Τα PDF όμως δεν είναι σαν "εικόνες",δηλαδή δεν μπορείς να τα επεξεργαστείς,απλά τα βλέπεις;;; Αυτά πως καταφέρνουν να δουν τις λέξεις που περιέχουν;;;
http://www.adobe.com/products/acrobat/adobepdf.html
Είναι τόσο γρήγορο, γιατί το Google (όπως και όλες τις μηχανές αναζήτησης τύπου Google) δεν ψάχνει real time για το κάθε query, δηλαδή δεν κάθεται να ψάξει όλο το Internet εκείνη την ώρα για σελίδες που περιέχουν τους όρους αναζήτησης. Υπάρχει από πίσω μια άλλη εφαρμογή (web crawler), η οποία αναλαμβάνει να σαρώνει συνεχώς σελίδες μεταπηδώντας από τη μία στην άλλη μέσω των hyperlinks. Κάθε σελίδα αποθηκεύεται ολόκληρη σε μια ΒΔ και στη συνέχεια γίνεται extract των λέξεων της, οι οποίες τοποθετούνται σε άλλο πίνακα της ΒΔ μαζί με την πληροφορία σε ποιες σελίδες εμφανίζονται. Όταν γίνεται ένα query από το Search Engine γίνεται σύγκριση των όρων αναζήτησης με τις λέξεις στον πίνακα αυτό και επιστρέφονται οι σελίδες που τις περιέχουν. Η ταχύτητα εμφάνισης των αποτελεσμάτων λοιπόν εξαρτάται καθαρά από την διαχέιριση της ΒΔ (indexing και τέτοια), καθώς και από το hardaware.HdkiLLeR wrote:Αν και δνε ξέρω πως το κάνουν τόσο γρήγορα έχω ακούσει πως γίνεται binary pattern checking κοινώς δεν ψάχνει text αλλά σγκρίνει binary κάτι το οποίο είναι τραγικά πιο γρήγορο μια αφαίρεση στον acc είναι όλη κιόλη.
Αυτά χοντρικά, ελπίζω να μην κούρασα με το σχετικά μεγάλο post.

.::YF::.
- ttoppouzokypraios
- Kilobyte level
- Posts: 304
- Joined: Thu May 06, 2004 4:07 pm
- Location: back to my fields :-)
- Contact:
Σε κάποιο φόρουμ που εχει στήσει ένας φίλος ήταν ωραία έκπληξη όταν για πρώτη φορά μέσα στη λίστα με τα πισιά που είχαν "χτυπήσει" το forum είδαμε και τον crawler του google για πρώτη φορά. Μάς είχαν ανακαλύψει!!!YiannisF wrote: Είναι τόσο γρήγορο, γιατί το Google (όπως και όλες τις μηχανές αναζήτησης τύπου Google) δεν ψάχνει real time για το κάθε query, δηλαδή δεν κάθεται να ψάξει όλο το Internet εκείνη την ώρα για σελίδες που περιέχουν τους όρους αναζήτησης. Υπάρχει από πίσω μια άλλη εφαρμογή (web crawler), η οποία αναλαμβάνει να σαρώνει συνεχώς σελίδες μεταπηδώντας από τη μία στην άλλη μέσω των hyperlinks. Κάθε σελίδα αποθηκεύεται ολόκληρη σε μια ΒΔ και στη συνέχεια γίνεται extract των λέξεων της, οι οποίες τοποθετούνται σε άλλο πίνακα της ΒΔ μαζί με την πληροφορία σε ποιες σελίδες εμφανίζονται. Όταν γίνεται ένα query από το Search Engine γίνεται σύγκριση των όρων αναζήτησης με τις λέξεις στον πίνακα αυτό και επιστρέφονται οι σελίδες που τις περιέχουν. Η ταχύτητα εμφάνισης των αποτελεσμάτων λοιπόν εξαρτάται καθαρά από την διαχέιριση της ΒΔ (indexing και τέτοια), καθώς και από το hardaware.
Αυτά χοντρικά, ελπίζω να μην κούρασα με το σχετικά μεγάλο post.

- lumenintervalum
- Wow! Terabyte level
- Posts: 2377
- Joined: Thu May 06, 2004 7:06 pm
- Location: somewhere far beyond..
- Contact:
εγώ γιατί πίστευα ότι θα πρέπει να δηλώσει κάποιος στο header της σελίδας κάτι του στυλ
<meta name="keywords" content= "....">
και αυτά ν' αλλάζουν κάθε φορά ανάλογα με το περιεχόμενο της σελίδας για να μπορεί να γίνει indexing από τη μηχανή αναζήτησης; είμαι πολύ εκτός θέματος;;;
<meta name="keywords" content= "....">
και αυτά ν' αλλάζουν κάθε φορά ανάλογα με το περιεχόμενο της σελίδας για να μπορεί να γίνει indexing από τη μηχανή αναζήτησης; είμαι πολύ εκτός θέματος;;;
We are just a moment in time
A blink of an eye
A dream for the blind
Visions from a dying brain
I hope you don't understand
_______________________
scraps& photo gallery στο deviantart- last update 25/08/06
A blink of an eye
A dream for the blind
Visions from a dying brain
I hope you don't understand
_______________________
scraps& photo gallery στο deviantart- last update 25/08/06
- HdkiLLeR
- Venus Project Founder
- Posts: 4356
- Joined: Tue Jan 27, 2004 4:41 pm
- Academic status: Alumnus/a
- Gender: ♂
- Location: New York, NY
- Contact:
Όχι μέσα είσαι αυτό είναι meta-data οπότε βρίσκεται απο ένα search engine αλλά δεν είναι το μόνο που χρησιμοποιούν οι μηχανές αναζήτησης.
-----BEGIN GEEK CODE BLOCK-----
Version: 3.12
GCS d-->--- s+:+ a- C++(+++) BILS++++$ P--- L++++>+++++ E--- W+++ N+ o+ K w--
O M+ V-- PS++>+++ PE- Y++ PGP++ t+ 5+ X+ R* tv b++ DI- D+ G+++ e+++>++++ h r++ y++
------END GEEK CODE BLOCK------
"UNIX is basically a simple operating system, but you have to be a genius to understand the simplicity." -- Dennis Ritchie
Version: 3.12
GCS d-->--- s+:+ a- C++(+++) BILS++++$ P--- L++++>+++++ E--- W+++ N+ o+ K w--
O M+ V-- PS++>+++ PE- Y++ PGP++ t+ 5+ X+ R* tv b++ DI- D+ G+++ e+++>++++ h r++ y++
------END GEEK CODE BLOCK------
"UNIX is basically a simple operating system, but you have to be a genius to understand the simplicity." -- Dennis Ritchie
- HdkiLLeR
- Venus Project Founder
- Posts: 4356
- Joined: Tue Jan 27, 2004 4:41 pm
- Academic status: Alumnus/a
- Gender: ♂
- Location: New York, NY
- Contact:
Το χρησιμοποιούνε ακόμη αλλά απ' ότι έχω καταλάβει με κάποια σειρά πρτοτεαιότητας γίνεται η κατάταξη...πχ το δικό μου το site που είχε παρουσίαση για quantum computing το πιάνει το google.(στα meta tags είχα βάλει τέτοια key words).
-----BEGIN GEEK CODE BLOCK-----
Version: 3.12
GCS d-->--- s+:+ a- C++(+++) BILS++++$ P--- L++++>+++++ E--- W+++ N+ o+ K w--
O M+ V-- PS++>+++ PE- Y++ PGP++ t+ 5+ X+ R* tv b++ DI- D+ G+++ e+++>++++ h r++ y++
------END GEEK CODE BLOCK------
"UNIX is basically a simple operating system, but you have to be a genius to understand the simplicity." -- Dennis Ritchie
Version: 3.12
GCS d-->--- s+:+ a- C++(+++) BILS++++$ P--- L++++>+++++ E--- W+++ N+ o+ K w--
O M+ V-- PS++>+++ PE- Y++ PGP++ t+ 5+ X+ R* tv b++ DI- D+ G+++ e+++>++++ h r++ y++
------END GEEK CODE BLOCK------
"UNIX is basically a simple operating system, but you have to be a genius to understand the simplicity." -- Dennis Ritchie
Τα meta tags είναι πράγματι δευτερευούσης σημασίας. Σημαντικότερα είναι το πλήθος εμφανίσεων των όρων αναζήτησης, πόσο κοντά είναι μεταξύ τους, σε ποιο σημείο της σελίδας βρίσκονται (πχ στον τίτλο είναι πιο σημαντικό), τα συμφραζόμενα (πχ αν είναι μέρος e-mail διεύθυνσης δεν είναι σημαντικό) και βέβαια το Page Rank (το οποίο είναι όλα τα λεφτά!)

.::YF::.
- lumenintervalum
- Wow! Terabyte level
- Posts: 2377
- Joined: Thu May 06, 2004 7:06 pm
- Location: somewhere far beyond..
- Contact:
1.το Page Rank τι είναι;;
2.αυτά πως τα στοιχεία πως τα μάθατε;;(προφανώς κάπου τα διαβάσατε...)
είμαι λίγο άσχετη όπως βλέπετε, ότι ξέρω το έχω μάθει εμπειρικά..
2.αυτά πως τα στοιχεία πως τα μάθατε;;(προφανώς κάπου τα διαβάσατε...)
είμαι λίγο άσχετη όπως βλέπετε, ότι ξέρω το έχω μάθει εμπειρικά..

We are just a moment in time
A blink of an eye
A dream for the blind
Visions from a dying brain
I hope you don't understand
_______________________
scraps& photo gallery στο deviantart- last update 25/08/06
A blink of an eye
A dream for the blind
Visions from a dying brain
I hope you don't understand
_______________________
scraps& photo gallery στο deviantart- last update 25/08/06
Page Rank σε γενικές γραμμές είναι μια μέθοδος που επινοήθηκε από το Google και η οποία έχει ως σκοπό να αξιολογήσει ποιοτικά μια ιστοσελίδα. Σύμφωνα με τη λογική του Page Rank μια ιστοσελίδα είναι τόσο σημαντικότερη όσο περισσότερες ιστοσελίδες δείχνουν σε αυτή, δηλαδή όσες περισσότερες σελίδες την έχουν στα links τους. Έτσι κάθε ιστοσελίδα που έχει ένα link προς μία άλλη, ουσιαστικά της δίνει μία ψήφο. Δε σταματάει όμως εκεί. Η ψήφος κάθε σελίδας δεν έχει την ίδια βαρύτητα. Όσο πιο σημαντική είναι μια σελίδα τόσο πιο μεγάλη αξία έχει η ψήφος της. Άρα δεν αρκεί να δείχνουν στη σελίδα σου πολλές άλλες σελίδες, αλλά και αυτές να δείχνονται από πολλές κοκ.lumenintervalum wrote:1.το Page Rank τι είναι;;
Για να το καταλάβεις καλύτερα σκέψου το παρακάτω απλό μοντέλο:
Έστω ότι έχουμε δύο σελίδες στο internet την Α και τη Β, στις οποίες δε δείχνει καμία σελίδα. Αυτές λοιπόν έχουν μηδενικό Page Rank. Αν αυτές τώρα δείχνουν και οι δύο στη σελίδα Γ, η σελίδα αυτή αποκτά Page Rank = 2 (γιατί δείχνεται από δύο). Αν τώρα η Α και η Γ δείχνουν στην Δ, τότε αυτή θα αποκτήσει Page Rank = 3 (1 από την Α + 2 από την Γ).
περισσότερα για τον αλγόριθμο Page Rank: http://pr.efactory.de/
Φοβάμαι πως αναγκάστηκαlumenintervalum wrote:2.αυτά πως τα στοιχεία πως τα μάθατε;;(προφανώς κάπου τα διαβάσατε...)


.::YF::.
- vagalati
- Mbyte level
- Posts: 579
- Joined: Tue Mar 16, 2004 2:46 pm
- Location: 7000 miles away from aueb
Πάντως αν έβαζες linuxpage στο google πετούσε πρώτη τη δική μου σελίδα, χωρίς καν να έχω τα συγκεκριμένα meta-tags.HdkiLLeR wrote:Το χρησιμοποιούνε ακόμη αλλά απ' ότι έχω καταλάβει με κάποια σειρά πρτοτεαιότητας γίνεται η κατάταξη...πχ το δικό μου το site που είχε παρουσίαση για quantum computing το πιάνει το google.(στα meta tags είχα βάλει τέτοια key words).
Ni!! Ni!! Ni!!
- HdkiLLeR
- Venus Project Founder
- Posts: 4356
- Joined: Tue Jan 27, 2004 4:41 pm
- Academic status: Alumnus/a
- Gender: ♂
- Location: New York, NY
- Contact:
Σίγουρα ρε σύ δεν είναι δυνατόν να ψάχνουν μόνο απο τα meta tags ...εδώ σκανάρουν για συγκεκριμένα patterns ακόμη και docs(όχι απαραίτητα .doc) που μπορείς να έχεις μέσα.
-----BEGIN GEEK CODE BLOCK-----
Version: 3.12
GCS d-->--- s+:+ a- C++(+++) BILS++++$ P--- L++++>+++++ E--- W+++ N+ o+ K w--
O M+ V-- PS++>+++ PE- Y++ PGP++ t+ 5+ X+ R* tv b++ DI- D+ G+++ e+++>++++ h r++ y++
------END GEEK CODE BLOCK------
"UNIX is basically a simple operating system, but you have to be a genius to understand the simplicity." -- Dennis Ritchie
Version: 3.12
GCS d-->--- s+:+ a- C++(+++) BILS++++$ P--- L++++>+++++ E--- W+++ N+ o+ K w--
O M+ V-- PS++>+++ PE- Y++ PGP++ t+ 5+ X+ R* tv b++ DI- D+ G+++ e+++>++++ h r++ y++
------END GEEK CODE BLOCK------
"UNIX is basically a simple operating system, but you have to be a genius to understand the simplicity." -- Dennis Ritchie