Ανάγνωση περιεχομένων PDF από search engines

Συζητήσεις για θέματα που σχετίζονται με software.
Post Reply
User avatar
TaRaNTuLa
Gbyte level
Gbyte level
Posts: 1598
Joined: Fri Apr 30, 2004 4:54 pm
Academic status: PhD
Gender:
Location: MMLab

Ανάγνωση περιεχομένων PDF από search engines

Post by TaRaNTuLa » Sun May 30, 2004 2:15 am

Δεν ξέρω αν το έχετε παρατηρήσει και εσείς,αλλά όταν βάζεις κάποια κλειδιά σε μια μηχανή αναζήτησης,αυτή σου επιστρέφει στα αποτελέσματα και αρχεία .pdf .Τα PDF όμως δεν είναι σαν "εικόνες",δηλαδή δεν μπορείς να τα επεξεργαστείς,απλά τα βλέπεις;;; Αυτά πως καταφέρνουν να δουν τις λέξεις που περιέχουν;;; :smt021
Tamiya rulezZz....

TL-01 Full Carbon, TL-01 Upgraded, FF-01 Upgraded, M03, CC-01, ΤΤ-01 TypeE, Volvo και Scania Trucks και η λίστα συνεχίζεται...
User avatar
HdkiLLeR
Venus Project Founder
Venus Project Founder
Posts: 4356
Joined: Tue Jan 27, 2004 4:41 pm
Academic status: Alumnus/a
Gender:
Location: New York, NY
Contact:

Post by HdkiLLeR » Sun May 30, 2004 3:25 am

Όχι έχουν handling για τα πιο γνωστά formats .txt,.doc,.pdf,.ps,.ppt κλπ. Κοίνώς το ανοίγουν και ψάχνουν μέσα για το pattern αυτό. Αν και δνε ξέρω πως το κάνουν τόσο γρήγορα έχω ακούσει πως γίνεται binary pattern checking κοινώς δεν ψάχνει text αλλά σγκρίνει binary κάτι το οποίο είναι τραγικά πιο γρήγορο μια αφαίρεση στον acc είναι όλη κιόλη.

Btw:Στo google μια απο τις functions που καλείται σύμφωνα με άρθρο που είχα διαβάσει για την τεχνολογία αναζήτησης που χρησιμοποιούν παίρνει 120 περίπου args !!!!!!!
-----BEGIN GEEK CODE BLOCK-----
Version: 3.12
GCS d-->--- s+:+ a- C++(+++) BILS++++$ P--- L++++>+++++ E--- W+++ N+ o+ K w--
O M+ V-- PS++>+++ PE- Y++ PGP++ t+ 5+ X+ R* tv b++ DI- D+ G+++ e+++>++++ h r++ y++
------END GEEK CODE BLOCK------

"UNIX is basically a simple operating system, but you have to be a genius to understand the simplicity." -- Dennis Ritchie
User avatar
ttoppouzokypraios
Kilobyte level
Kilobyte level
Posts: 304
Joined: Thu May 06, 2004 4:07 pm
Location: back to my fields :-)
Contact:

Re: Ανάγνωση περιεχομένων PDF από search engines

Post by ttoppouzokypraios » Thu Jun 03, 2004 1:42 am

TaRaNTuLa wrote:Τα PDF όμως δεν είναι σαν "εικόνες",δηλαδή δεν μπορείς να τα επεξεργαστείς,απλά τα βλέπεις;;; Αυτά πως καταφέρνουν να δουν τις λέξεις που περιέχουν;;; :smt021
Όχι τα pdf είναι αρχεία κειμένου όπως τα αρχεία του word. Μάλιστα αν ο συγγραφέας δεν τα έχει κλειδώσει μπορείς να κάνεις και copy-paste από το acrobat στο word (ή όπου αλλού θέλεις) Η μεγαλύτερη διαφορά και ατού των pdf είναι πως αν συμπεριλάβεις καμιά παράξενη γραμματοσειρά στο κείμενο σου αυτή "τοποθετείτε" στο pdf αρχείο και έτσι δεν χρειάζεται να τη κατεβάσεις για να διαβάσεις όπως πρέπει το κείμενο.

http://www.adobe.com/products/acrobat/adobepdf.html
User avatar
YiannisF
byte level
byte level
Posts: 108
Joined: Fri Apr 30, 2004 2:59 pm
Location: Bristol, UK

Post by YiannisF » Thu Jun 03, 2004 12:04 pm

HdkiLLeR wrote:Αν και δνε ξέρω πως το κάνουν τόσο γρήγορα έχω ακούσει πως γίνεται binary pattern checking κοινώς δεν ψάχνει text αλλά σγκρίνει binary κάτι το οποίο είναι τραγικά πιο γρήγορο μια αφαίρεση στον acc είναι όλη κιόλη.
Είναι τόσο γρήγορο, γιατί το Google (όπως και όλες τις μηχανές αναζήτησης τύπου Google) δεν ψάχνει real time για το κάθε query, δηλαδή δεν κάθεται να ψάξει όλο το Internet εκείνη την ώρα για σελίδες που περιέχουν τους όρους αναζήτησης. Υπάρχει από πίσω μια άλλη εφαρμογή (web crawler), η οποία αναλαμβάνει να σαρώνει συνεχώς σελίδες μεταπηδώντας από τη μία στην άλλη μέσω των hyperlinks. Κάθε σελίδα αποθηκεύεται ολόκληρη σε μια ΒΔ και στη συνέχεια γίνεται extract των λέξεων της, οι οποίες τοποθετούνται σε άλλο πίνακα της ΒΔ μαζί με την πληροφορία σε ποιες σελίδες εμφανίζονται. Όταν γίνεται ένα query από το Search Engine γίνεται σύγκριση των όρων αναζήτησης με τις λέξεις στον πίνακα αυτό και επιστρέφονται οι σελίδες που τις περιέχουν. Η ταχύτητα εμφάνισης των αποτελεσμάτων λοιπόν εξαρτάται καθαρά από την διαχέιριση της ΒΔ (indexing και τέτοια), καθώς και από το hardaware.

Αυτά χοντρικά, ελπίζω να μην κούρασα με το σχετικά μεγάλο post.
Image
.::YF::.
User avatar
ttoppouzokypraios
Kilobyte level
Kilobyte level
Posts: 304
Joined: Thu May 06, 2004 4:07 pm
Location: back to my fields :-)
Contact:

Post by ttoppouzokypraios » Fri Jun 04, 2004 1:21 am

YiannisF wrote: Είναι τόσο γρήγορο, γιατί το Google (όπως και όλες τις μηχανές αναζήτησης τύπου Google) δεν ψάχνει real time για το κάθε query, δηλαδή δεν κάθεται να ψάξει όλο το Internet εκείνη την ώρα για σελίδες που περιέχουν τους όρους αναζήτησης. Υπάρχει από πίσω μια άλλη εφαρμογή (web crawler), η οποία αναλαμβάνει να σαρώνει συνεχώς σελίδες μεταπηδώντας από τη μία στην άλλη μέσω των hyperlinks. Κάθε σελίδα αποθηκεύεται ολόκληρη σε μια ΒΔ και στη συνέχεια γίνεται extract των λέξεων της, οι οποίες τοποθετούνται σε άλλο πίνακα της ΒΔ μαζί με την πληροφορία σε ποιες σελίδες εμφανίζονται. Όταν γίνεται ένα query από το Search Engine γίνεται σύγκριση των όρων αναζήτησης με τις λέξεις στον πίνακα αυτό και επιστρέφονται οι σελίδες που τις περιέχουν. Η ταχύτητα εμφάνισης των αποτελεσμάτων λοιπόν εξαρτάται καθαρά από την διαχέιριση της ΒΔ (indexing και τέτοια), καθώς και από το hardaware.

Αυτά χοντρικά, ελπίζω να μην κούρασα με το σχετικά μεγάλο post.
Σε κάποιο φόρουμ που εχει στήσει ένας φίλος ήταν ωραία έκπληξη όταν για πρώτη φορά μέσα στη λίστα με τα πισιά που είχαν "χτυπήσει" το forum είδαμε και τον crawler του google για πρώτη φορά. Μάς είχαν ανακαλύψει!!! :-D
User avatar
lumenintervalum
Wow! Terabyte level
Wow! Terabyte level
Posts: 2377
Joined: Thu May 06, 2004 7:06 pm
Location: somewhere far beyond..
Contact:

Post by lumenintervalum » Fri Jun 04, 2004 2:09 am

εγώ γιατί πίστευα ότι θα πρέπει να δηλώσει κάποιος στο header της σελίδας κάτι του στυλ
<meta name="keywords" content= "....">
και αυτά ν' αλλάζουν κάθε φορά ανάλογα με το περιεχόμενο της σελίδας για να μπορεί να γίνει indexing από τη μηχανή αναζήτησης; είμαι πολύ εκτός θέματος;;;
We are just a moment in time
A blink of an eye
A dream for the blind
Visions from a dying brain
I hope you don't understand
_______________________
scraps& photo gallery στο deviantart- last update 25/08/06
User avatar
HdkiLLeR
Venus Project Founder
Venus Project Founder
Posts: 4356
Joined: Tue Jan 27, 2004 4:41 pm
Academic status: Alumnus/a
Gender:
Location: New York, NY
Contact:

Post by HdkiLLeR » Fri Jun 04, 2004 7:29 pm

Όχι μέσα είσαι αυτό είναι meta-data οπότε βρίσκεται απο ένα search engine αλλά δεν είναι το μόνο που χρησιμοποιούν οι μηχανές αναζήτησης.
-----BEGIN GEEK CODE BLOCK-----
Version: 3.12
GCS d-->--- s+:+ a- C++(+++) BILS++++$ P--- L++++>+++++ E--- W+++ N+ o+ K w--
O M+ V-- PS++>+++ PE- Y++ PGP++ t+ 5+ X+ R* tv b++ DI- D+ G+++ e+++>++++ h r++ y++
------END GEEK CODE BLOCK------

"UNIX is basically a simple operating system, but you have to be a genius to understand the simplicity." -- Dennis Ritchie
User avatar
vagalati
Mbyte level
Mbyte level
Posts: 579
Joined: Tue Mar 16, 2004 2:46 pm
Location: 7000 miles away from aueb

Post by vagalati » Fri Jun 04, 2004 11:59 pm

Προσωπικά πιστεύω πως σύγχρονες μηχανές αναζήτησης το γράφουν στα $%^^& αυτό το tag, για τον προφενές λόγο ότι κάποιος θα το παράκανε και θα παρα-διαφήμιζε το site του.
Σκεφτείτε και τα διαφημιστικά sites ή αυτά που απλά πουλάνε ένα domain name.
Ni!! Ni!! Ni!!
User avatar
HdkiLLeR
Venus Project Founder
Venus Project Founder
Posts: 4356
Joined: Tue Jan 27, 2004 4:41 pm
Academic status: Alumnus/a
Gender:
Location: New York, NY
Contact:

Post by HdkiLLeR » Sat Jun 05, 2004 6:40 pm

Το χρησιμοποιούνε ακόμη αλλά απ' ότι έχω καταλάβει με κάποια σειρά πρτοτεαιότητας γίνεται η κατάταξη...πχ το δικό μου το site που είχε παρουσίαση για quantum computing το πιάνει το google.(στα meta tags είχα βάλει τέτοια key words).
-----BEGIN GEEK CODE BLOCK-----
Version: 3.12
GCS d-->--- s+:+ a- C++(+++) BILS++++$ P--- L++++>+++++ E--- W+++ N+ o+ K w--
O M+ V-- PS++>+++ PE- Y++ PGP++ t+ 5+ X+ R* tv b++ DI- D+ G+++ e+++>++++ h r++ y++
------END GEEK CODE BLOCK------

"UNIX is basically a simple operating system, but you have to be a genius to understand the simplicity." -- Dennis Ritchie
User avatar
YiannisF
byte level
byte level
Posts: 108
Joined: Fri Apr 30, 2004 2:59 pm
Location: Bristol, UK

Post by YiannisF » Sat Jun 05, 2004 8:13 pm

Τα meta tags είναι πράγματι δευτερευούσης σημασίας. Σημαντικότερα είναι το πλήθος εμφανίσεων των όρων αναζήτησης, πόσο κοντά είναι μεταξύ τους, σε ποιο σημείο της σελίδας βρίσκονται (πχ στον τίτλο είναι πιο σημαντικό), τα συμφραζόμενα (πχ αν είναι μέρος e-mail διεύθυνσης δεν είναι σημαντικό) και βέβαια το Page Rank (το οποίο είναι όλα τα λεφτά!)
Image
.::YF::.
User avatar
lumenintervalum
Wow! Terabyte level
Wow! Terabyte level
Posts: 2377
Joined: Thu May 06, 2004 7:06 pm
Location: somewhere far beyond..
Contact:

Post by lumenintervalum » Sun Jun 06, 2004 12:47 am

1.το Page Rank τι είναι;;
2.αυτά πως τα στοιχεία πως τα μάθατε;;(προφανώς κάπου τα διαβάσατε...)

είμαι λίγο άσχετη όπως βλέπετε, ότι ξέρω το έχω μάθει εμπειρικά.. :???:
We are just a moment in time
A blink of an eye
A dream for the blind
Visions from a dying brain
I hope you don't understand
_______________________
scraps& photo gallery στο deviantart- last update 25/08/06
User avatar
YiannisF
byte level
byte level
Posts: 108
Joined: Fri Apr 30, 2004 2:59 pm
Location: Bristol, UK

Post by YiannisF » Sun Jun 06, 2004 5:11 am

lumenintervalum wrote:1.το Page Rank τι είναι;;
Page Rank σε γενικές γραμμές είναι μια μέθοδος που επινοήθηκε από το Google και η οποία έχει ως σκοπό να αξιολογήσει ποιοτικά μια ιστοσελίδα. Σύμφωνα με τη λογική του Page Rank μια ιστοσελίδα είναι τόσο σημαντικότερη όσο περισσότερες ιστοσελίδες δείχνουν σε αυτή, δηλαδή όσες περισσότερες σελίδες την έχουν στα links τους. Έτσι κάθε ιστοσελίδα που έχει ένα link προς μία άλλη, ουσιαστικά της δίνει μία ψήφο. Δε σταματάει όμως εκεί. Η ψήφος κάθε σελίδας δεν έχει την ίδια βαρύτητα. Όσο πιο σημαντική είναι μια σελίδα τόσο πιο μεγάλη αξία έχει η ψήφος της. Άρα δεν αρκεί να δείχνουν στη σελίδα σου πολλές άλλες σελίδες, αλλά και αυτές να δείχνονται από πολλές κοκ.

Για να το καταλάβεις καλύτερα σκέψου το παρακάτω απλό μοντέλο:

Έστω ότι έχουμε δύο σελίδες στο internet την Α και τη Β, στις οποίες δε δείχνει καμία σελίδα. Αυτές λοιπόν έχουν μηδενικό Page Rank. Αν αυτές τώρα δείχνουν και οι δύο στη σελίδα Γ, η σελίδα αυτή αποκτά Page Rank = 2 (γιατί δείχνεται από δύο). Αν τώρα η Α και η Γ δείχνουν στην Δ, τότε αυτή θα αποκτήσει Page Rank = 3 (1 από την Α + 2 από την Γ).

περισσότερα για τον αλγόριθμο Page Rank: http://pr.efactory.de/

lumenintervalum wrote:2.αυτά πως τα στοιχεία πως τα μάθατε;;(προφανώς κάπου τα διαβάσατε...)
Φοβάμαι πως αναγκάστηκα :mad: να τα μάθω λόγω του θέματος της πτυχιακής μου! Άμα ενδιαφέρεσαι πάντως στο web υπάρχουν άπειρες πληροφορίες.
Image
.::YF::.
User avatar
vagalati
Mbyte level
Mbyte level
Posts: 579
Joined: Tue Mar 16, 2004 2:46 pm
Location: 7000 miles away from aueb

Post by vagalati » Sun Jun 06, 2004 11:57 pm

HdkiLLeR wrote:Το χρησιμοποιούνε ακόμη αλλά απ' ότι έχω καταλάβει με κάποια σειρά πρτοτεαιότητας γίνεται η κατάταξη...πχ το δικό μου το site που είχε παρουσίαση για quantum computing το πιάνει το google.(στα meta tags είχα βάλει τέτοια key words).
Πάντως αν έβαζες linuxpage στο google πετούσε πρώτη τη δική μου σελίδα, χωρίς καν να έχω τα συγκεκριμένα meta-tags.
Ni!! Ni!! Ni!!
User avatar
HdkiLLeR
Venus Project Founder
Venus Project Founder
Posts: 4356
Joined: Tue Jan 27, 2004 4:41 pm
Academic status: Alumnus/a
Gender:
Location: New York, NY
Contact:

Post by HdkiLLeR » Mon Jun 07, 2004 12:05 am

Σίγουρα ρε σύ δεν είναι δυνατόν να ψάχνουν μόνο απο τα meta tags ...εδώ σκανάρουν για συγκεκριμένα patterns ακόμη και docs(όχι απαραίτητα .doc) που μπορείς να έχεις μέσα.
-----BEGIN GEEK CODE BLOCK-----
Version: 3.12
GCS d-->--- s+:+ a- C++(+++) BILS++++$ P--- L++++>+++++ E--- W+++ N+ o+ K w--
O M+ V-- PS++>+++ PE- Y++ PGP++ t+ 5+ X+ R* tv b++ DI- D+ G+++ e+++>++++ h r++ y++
------END GEEK CODE BLOCK------

"UNIX is basically a simple operating system, but you have to be a genius to understand the simplicity." -- Dennis Ritchie
User avatar
vagalati
Mbyte level
Mbyte level
Posts: 579
Joined: Tue Mar 16, 2004 2:46 pm
Location: 7000 miles away from aueb

Post by vagalati » Mon Jun 07, 2004 9:47 pm

Πάντως μιας και το ανέφερες στην σελίδα μου είχα βάλει ένα σωρό ελληνικά howtos σε txt απο το hellug. :-D :-D :-D
Ni!! Ni!! Ni!!
Post Reply

Return to “Software”