Error message

  • Warning: ini_set() has been disabled for security reasons in drupal_environment_initialize() (line 516 of /home/nikosvas/public_html/includes/bootstrap.inc).
  • Warning: ini_set() has been disabled for security reasons in drupal_environment_initialize() (line 519 of /home/nikosvas/public_html/includes/bootstrap.inc).
  • Warning: ini_set() has been disabled for security reasons in drupal_environment_initialize() (line 520 of /home/nikosvas/public_html/includes/bootstrap.inc).
  • Warning: ini_set() has been disabled for security reasons in drupal_environment_initialize() (line 521 of /home/nikosvas/public_html/includes/bootstrap.inc).
  • Warning: ini_set() has been disabled for security reasons in drupal_environment_initialize() (line 523 of /home/nikosvas/public_html/includes/bootstrap.inc).
  • Warning: ini_set() has been disabled for security reasons in drupal_environment_initialize() (line 525 of /home/nikosvas/public_html/includes/bootstrap.inc).
  • Warning: ini_set() has been disabled for security reasons in include_once() (line 264 of /home/nikosvas/public_html/sites/default/settings.php).
  • Warning: ini_set() has been disabled for security reasons in include_once() (line 265 of /home/nikosvas/public_html/sites/default/settings.php).
  • Warning: ini_set() has been disabled for security reasons in include_once() (line 273 of /home/nikosvas/public_html/sites/default/settings.php).
  • Warning: ini_set() has been disabled for security reasons in include_once() (line 280 of /home/nikosvas/public_html/sites/default/settings.php).
  • Warning: ini_set() has been disabled for security reasons in drupal_settings_initialize() (line 614 of /home/nikosvas/public_html/includes/bootstrap.inc).
  • Strict warning: Only variables should be passed by reference in samara_preprocess_page() (line 78 of /home/nikosvas/public_html/sites/all/themes/samara/template.php).

Νίκος Βασιλάκος: Αναζήτηση: Τα σκουπίδια και η αναζήτηση στο Δίκτυο

Τα σκουπίδια και η αναζήτηση στο Δίκτυο

«-Μήπως θα μπορούσες να μου πεις, σε παρακαλώ, ποιο δρόμο πρέπει να πάρω;
-Εξαρτάται, πάνω απ' όλα, από το πού θέλεις να πας, είπε η Γάτα.
-Δεν με νοιάζει και πολύ πού θα πάω… είπε η Αλίκη.
-Τότε δεν έχει σημασία ποιο δρόμο θα πάρεις, είπε η Γάτα.
-…φτάνει να φτάσω σε κάποιο μέρος, εξήγησε η Αλίκη.
-Α, αυτό σίγουρα θα το καταφέρεις, είπε η Γάτα, φτάνει μόνο να περπατήσεις αρκετά.»
Λιούις Κάρολ «Η Αλίκη στη χώρα των θαυμάτων»

Οι «Δικτυουλκοί»
Λίγο μετά τη δίνη του δευτέρου Παγκοσμίου Πολέμου, μέσα σε αιγυπτιακούς τάφους βρέθηκαν τυλιγμένα κομμάτια παπύρου παραχωμένα στα ξηρά τοιχία της αρχαίας κατασκευής.
Η τοποθέτηση παπύρου στα αιγυπτιακά ταφικά μνημεία ήταν συνηθισμένη διαδικασία για τους ταριχευτές ιερείς καθώς τα φύλλα του φυτού συνέβαλλαν στην απορρόφηση της υγρασίας του χώρου. Οι πάπυροι που βρέθηκαν τότε είχαν στην ταλαιπωρημένη από τον χρόνο επιφάνειά τους ελληνικά ψηφία: ένα απόσπασμα από τους «Δικτυουλκούς», χαμένο σατυρικό δράμα του Αισχύλου, το οποίο έγινε μετέπειτα γνωστό στους μελετητές με την κωδική ονομασία Ox. Pap. 18.
Το απόσπασμα των «Δικτυουλκών» που σώθηκε προέρχεται από την εισαγωγή του έργου και παρουσιάζει δυο ψαράδες που τραβούν με κόπο ένα ανεξήγητα βαρύ δίχτυ. Το βάρος οφείλεται σε ένα σεντούκι που περιέχει την Δανάη και τον Περσέα μωρό. Επειδή οι ψαράδες δεν μπορούν να το τραβήξουν στη στεριά, ζητούν βοήθεια. Μέχρι εδώ φτάνει το απόσπασμα του κειμένου που μπορούμε να διαβάσουμε.
Δικτυουλκοί είναι οι έλκοντες το δίκτυον, οι ψαράδες που τραβάνε τα πλεμάτια και -στην περίπτωση του Αισχύλου- βρίσκουν θησαυρούς. (Δια)δικτυουλκοί είναι οι σημερινοί χρήστες του Διαδικτύου, με πολλές ομοιότητες αλλά μία ουσιαστική διαφορά: οι σύγχρονοι κυβερνοαλιείς ψαρεύουν σε μια θάλασσα η οποία διαρκώς επεκτείνεται, γι' αυτό έχουν στο αμπάρι τους τις μηχανές αναζήτησης. Ως αντίδοτο στην διαρκή εξάπλωση του Ίντερνετ με παραγοντικό ρυθμό.

Ο παγκόσμιος ιστός
Σε μερικά χρόνια (ήδη συμβαίνει παρόλο που οι περισσότεροι δεν το έχουν αντιληφθεί) μια από τις σημαντικότερες και πιο ακριβοπληρωμένες δουλειές θα είναι ο websearcher ή ιστηλάτης (κατά τον ιχνηλάτη).
Μόνο ένας ικανός ιστηλάτης θα μπορεί να βρίσκει εν ριπή οφθαλμού οτιδήποτε και φυσικά δωρεάν στο Δίκτυο. Από το Concerto του Vivaldi νούμερο 7 για τέσσερα βιολιά και τσέλο μέχρι την δεύτερη έκδοση του Police Criminelle, Technique et Tactique και το εγχειρίδιο γραφής της αγγλικής γλώσσας για δυτικοαυστραλούς (ναι, υπάρχει και αυτό στο δίκτυο).
Για πρώτη φορά στην ιστορία της ανθρωπότητας (εφ' όσον κάποιος έχει πρόσβαση στο Ίντερνετ) δεν έχει καμμία απολύτως σημασία αν ζει σε μια μεγάλη πόλη με πελώριες βιβλιοθήκες, αξιόλογα πανεπιστήμια και πλούσια πολιτιστική ζωή, ή αν μένει στο μέσον του πουθενά μιας πολύ φτωχής χώρας. Το όνειρο του απομονωμένου φαροφύλακα είναι πλέον πραγματικότητα! Στο Διαδίκτυο λιγοστεύει η μοναξιά…
Όλα μπορούν να βρεθούν στο Διαδίκτυο: κάθε βιβλίο, κάθε εφημερίδα, κάθε πανεπιστημιακή εργασία, κάθε εικόνα και σιγά σιγά κάθε ήχος, κάθε μουσική και κάθε ταινία. Αρκεί να υπάρχει η περιτίμητη πρόσβαση.
Βεβαίως η γνώση που βρίσκεται συσσωρευμένη στον Παγκόσμιο Ιστό επιπλέει ανάμεσα σε εκατομμύρια σκουπίδια και χιλιάδες άχρηστες πληροφορίες. Οπότε χρειάζεται προσοχή όταν ψάχνει κανείς.

Το συνεχώς διαστελλόμενο Διαδίκτυο με αριθμούς
Τον Δεκέμβριο του 1997 υπήρχαν 320 εκατ. ιστοσελιδες.
Τον Φεβρουάριο του 1999 μια σειρά μελετών κατέληξε στο ό,τι το μέγεθος του Web ήταν 800 εκατ. ιστοσελίδες με 15 τρισεκατομμύρια bytes κειμενικών πληροφορίων (κάθε byte είναι ένας χαρακτήρας κειμένου περίπου) και 180 εκατομμύρια εικόνες ήτοι 3 τρισεκατομμύρια bytes δεδομένων.
Το Φεβρουάριο του 2000 όλες οι εκτιμήσεις συνέκλιναν στο ότι υπάρχουν πάνω από 1,5 δισεκατομμύρια ιστοσελίδων στον παγκόσμιο ιστό.

Το Σεπτέμβριο του 2000 είχαμε φτάσει αισίως στις 2.200.000.000 ιστοσελίδες, στα 37.000.000.000.000 bytes κειμένου, στις 600.000.000 εικόνες και στα 10.000.000.000.000 bytes δεδομένων εικόνων!
Κάθε μέρα προστίθενται στον παγκόσμιο ιστό περισσότερες από 3.000.000 νέες ιστοσελίδες, με περισσότερα από 60.000.000.000 νέα bytes κειμένου και πάνω από 1.000.000 νέες εικόνες (με 16.000.000.000 νέα bytes δεδομένων εικόνων). Και όλα αυτά πολλαπλασιάζονται…

*Οι ανωτέρω εκτιμήσεις περιλαμβάνουν μόνο τις δημοσίως προσπελάσιμες πληροφορίες. Δεν περιλαμβάνει τις πληροφορίες που βρίσκονται προφυλαγμένες πίσω από πύρινους τοίχους (firewalls), τις ιστοσελίδες που βρίσκονται μέσα σε intranet, ούτε τις σελίδες που για να δει κανείς πρέπει να δώσει κωδικό ή να συμπληρώσει φόρμες αναζήτησης.

Στρατηγική αντιμετώπισης ερευνών
Αντίθετα με την κοινή αντίληψη, υπάρχουν πολλές πηγές πληροφοριών στον Παγκόσμιο Ιστό και κάθε μια από αυτές αξίζει να ερευνηθεί με τη χρήση διαφορετικών τεχνικών.
Η πρώτη δουλειά που πρέπει να κάνει κάθε σώφρων χρήστης είναι να ξεκαθαρίσει τί ψάχνει και πού θα ψάξει. Οι «μεγάλες» μηχανές αναζήτησης καλύπτουν (στην καλύτερη των περιπτώσεων) μόνο ένα μικρό μέρος του Παγκόσμιου Ιστού. Επιπλέον, δεν καταγράφουν απαραιτήτως τα πιο ενδιαφέροντα κομμάτια του Διαδικτύου.
Προτιμούν το εμπορικό περιεχόμενο έναντι του εκπαιδευτικού, τους δικτυακούς τόπους των ΗΠΑ έναντι των Ευρωπαϊκών και φυσικά διαλέγουν τα πιο δημοφιλή έναντι των υπολοίπων άγνωστων sites.
Κάθε μηχανή έχει τις δικές τις εγγενείς δυνατότητες και αδυναμίες, άρα πρέπει να εναλλάσσει κανείς την μηχανή που χρησιμοποιεί ανάλογα με το τι ζητά και να μη χρησιμοποιεί όλο την ίδια.

Η ιντερνετική κινούμενη άμμος
Δυστυχώς όμως τα βάσανα των χρηστών δεν σταματούν εδώ. Οι ιστοσελίδες αλλάζουν, αφαιρούνται ή ανανεώνονται διαρκώς. Οι αλλαγές μπορεί να είναι μικρές, μεγάλες ή ολοκληρωτικές. Ο μέσος όρος ζωής μιας ιστοσελίδας διαρκεί ένα με δύο μήνες. Αυτό πολύ απλά σημαίνει ότι ανά δίμηνο (στην καλύτερη περίπτωση) αλλάζουν 40 εκατομμύρια σελίδες και 10 εκατομμύρια εικόνες. Τώρα ίσως νιώθετε τις διαστάσεις του προβλήματος.Κανένας αλγόριθμος, καμμία υπολογιστική δύναμη και κανένας υπερυπολογιστής δεν μπορεί να αντιμετωπίσει αυτό το συνεχές παλλιρροιακό κύμα σ' έναν εικονικό κόσμο που στερείται την ευεργετική άμπωτη.

Ενημέρωση και ανανέωση
Οι μηχανές αναζήτησης αναταξινομούν πολύ αργά και με μεγάλη δυσκολία. Προσπαθούν να καθαρίζουν τις βάσεις δεδομένων τους από το ενοχλητικό «HTTP 404: File not found» για τις σελίδες που λείπουν σε δύο συναπτούς ελέγχους, ενώ το να ακολουθήσουν και τους δεσμούς των σελίδων ώστε να οδηγηθούν σε ανεξερεύνητες περιοχές του Διαδικτύου είναι πράγμα σπάνιο.
Ο ρυθμός ενημέρωσης των μηχανών είναι αργός. Μια πολύ καλή δοκιμασία είναι να βρείτε ένα μη καταχωρημένο δικτυακό τόπο και να τον προσθέσετε μόνοι σας σε μια από τις μεγάλες μηχανές αναζήτησης. Κάντε το. Η μηχανές Google και Northernlight θα καταχωρήσουν ένα σημαντικό μέρος του εντός των δύο επομένων εβδομάδων, η Altavista θα καταχωρήσει (σχεδόν) μόνο τις σελίδες που δηλώσατε (χωρίς να ακολουθήσει δεσμούς), ενώ η Fast/Alltheweb θα κάνει μήνες για να ενημερωθεί…
Άρα έχουμε ένα επιπλέον πρόβλημα με τις μεγάλες μηχανές αναζήτησης: τα έωλα sites αφθονούν, ενώ τα καινούργια απουσιάζουν.

________________________κουτάκι_______________________
Πρόβλημα 1ον:
Υπέρ των 2 δις δικτυακών τόπων.
Κανένας δεν ξέρει πραγματικά πόσα είναι και οι εκτιμήσεις είναι πολύ πιο χαμηλά των πραγματικών δεδομένων.
Πρόβλημα 2ον:
Μηχανές αναζήτησης που δεν προλαβαίνουν.
Βέβαια, οι μηχανές αναζήτησης καυχώνται ότι διαλέγουν μικρότερο αριθμό σελίδων ενώ στην πραγματικότητα έχουν επισκεφθεί πολλές περισσότερες, ώστε να είναι περισσότερο αξιόπιστες στα αποτελέσματα που δίνουν. Αυτό δυστυχώς απέχει πολύ από την διαδικτυακή πραγματικότητα.
Πρόβλημα 3ον:
Η συνεχής ανανέωση των ιστοσελίδων δυσκολεύει το έργο των μηχανών.
Το να ενημερώνουν τις βάσεις τους ομοιάζει με τη συλλογή ύδατος με τον πίθο των Δαναΐδων (το πιθάρι σουρωτήρι).
______________________τέλος στο κουτάκι______________

Οι νέες τεχνικές έρευνας
Το πρώτο πράγμα που πρέπει να μάθει κανείς είναι να χρησιμοποιεί αποδοτικά τις υπάρχουσες μηχανές αναζήτησης. Θα παρατηρήσετε αρκετές ενδιαφέρουσες διαφορές σε πολλές από αυτές. Με τη χρήση θα αντιληφθείτε σιγά σιγά τους αλγορίθμους που χρησιμοποιεί η κάθε μια από τους προγραμματιστές τους.

______________________κουτάκι______________________
Ποιος είναι ο καλός ιστηλάτης:
1. Ο φίλος που μπορεί μέσα σε μιά-δυό ώρες να εντοπίσει και να συγκεντρώσει όλο το υλικό που χρειάζεται για να γράψει κανείς μια πανεπιστημιακή εργασία εξαμήνου, ενώ θα χρειαζόταν τουλάχιστον τρεις μήνες μόνο για την συγκέντρωση του υλικού.
Ωστόσο πάλι θα πρέπει να την γράψετε.
2. Ο ικανός συνεργάτης ο οποίος -με έναν υπολογιστή και συνεχή σύνδεση στο Διαδίκτυο- μπορεί να λύσει κάθε βιβλιογραφικό πρόβλημα για έναν Δήμο.
Μένει να δούμε αν οι Δήμοι θέλουν να λύσουν τα προβλήματα που αντιμετωπίζουν οι βιβλιοθήκες τους.
3. Ο καλός εκείνος άνθρωπος, την βοήθεια του οποίου θα χρειαζόμαστε συχνά και επιτακτικά στα επόμενα χρόνια, εκτός βέβαια και αν εντρυφήσουμε στην διαδικασία του ψαξίματος.
_____________________τέλος στο κουτάκι________________

Μερικοί αλγόριθμοι ερευνούν πόσοι τόποι παραπέμπουν σε μια ιστοσελίδα και έτσι την ανεβάζουν στη λίστα εμφάνισης αναζήτησης (Google και Infoseek), άλλες μηχανές αξιολογούν τη θέση του τόπου από τον αριθμό των ανθρώπων που κάνουν κλικ με το ποντικάκι τους μέσα στις λίστες που εμφανίζουν (όπως η Hotbot).
Οι μηχανούλες αυτές που προσφέρουν «δωρεάν» υπηρεσίες ενδιαφέρονται να συλλέξουν πληροφορίες για τις προτιμήσεις των εκάστοτε και εκασταχού χρηστών. Αυτό ακριβώς κάνουν σε κάθε δικό μας κλικ.

--------------------------------κουτάκι------------------------------------
Τρεις τρόποι για δημιουργική αναζήτηση και μια διαπίστωση
1. Ψάχνετε για πληροφορίες μόνοι σας
2. Ψάχνετε ανθρώπους που έχουν ήδη αναζητήσει την πληροφορία και είναι πρόθυμοι να σας βοηθήσουν.
3. Δελεάζετε ανθρώπους που έχουν ήδη ψάξει για την πληροφορία αυτή και τους προκαλείτε κρύβοντας το τι ήδη γνωρίζετε.
Η διαπίστωση: Μέσα στον παγκόσμιο ιστό υπάρχουν πολλοί ιστοί. Η μορφή κάθε τέτοιου ιστού μοιάζει με κόμβο-γρίφο και -δυστυχώς για εμάς- οι πιο σημαντικοί του κόμβοι είναι ασύνδετοι (αλλά εξαιρετικά χρήσιμοι), ενώ υπάρχουν άλλοι κόμβοι συνδεδεμένοι (αλλά παντελώς άχρηστοι).

--------------------------τέλος στο κουτάκι------------------------------

Ο αριθμός των παραμέτρων που θα έπρεπε να λάβει υπόψιν του κανείς είναι μεγάλος. Η ψυχολογία του χρήστη παίζει σημαντικό ρόλο. Η προσοχή στην λεπτομέρεια και η εμμονή καθορίζει την στρατηγική του ψαξίματος μαζί με το άγχος και την ικανοποίηση, συναισθήματα που βιώνει ο κάθε επίδοξος ιστηλάτης.
Αντίθετα με το συναίσθημα που έχουν οι νέοι χρήστες, η πληροφορία στο Διαδίκτυο δεν είναι ανοργάνωτη αλλά οργανωμένη σε ιδιαίτερα σχήματα (οι μηχανές αναζήτησεις είναι ένα μόνο τέτοιο σχήμα οργάνωσης πληροφοριών). Άλλα σχήματα σχετίζονται με τα μονοπάτια που ακολουθεί κανείς για να βρει την πληροφορία (όπως είναι το usenet, τα newsgroups, οι maillists, το ftp και άλλα).

Η έρευνα τοποθετημένη στο χώρο: η χωροθετική αναζήτηση
Η χωροθετική αναπαράσταση βοηθά στην αναζήτηση διότι αναπαριστά (πολλές φορές και σε τρεις διαστάσεις) μια έρευνα. Ομαδοποιημένη ανά θέμα ή κατηγορία η πληροφορία ξεδιπλώνεται και γίνεται πιο οικεία στο χρήστη.
Για να δείτε τέτοια παραδείγματα οργάνωσης μπορείτε να επισκεφθείτε την Cartia (www.cartia.com), ή τα newsmaps (www.newsmaps.com) που προσφέρουν κατακερματισμένα εκθέματα πληροφοριών.

Ένα ρομπότ για κάθε χρήστη
Αντίθετα με τους ψαράδες του Αισχύλου, οι σύγχρονοι χρήστες του Διαδικτύου μπορούν να στείλουν τα δικά τους ρομποτάκια (τους δικούς τους δικτυουλκούς) για ψάρεμα πληροφοριών.
Οι αυτοματισμοί όμως χρειάζονται μεγάλη προσοχή. Τα ρομπότ βασίζονται σε σύγκριση ομοιοτήτων και αντιθέσεων. Με τη βοήθεια της χνουδωτής λογικής (fuzzy logic) που εμφανίστηκε αρχικώς στα πλυντήρια ρούχων (εξ ου και το όνομα) η σύγκριση δεν είναι άσπρο-μαύρο αλλά υπάρχει και η περιοχή του γκρίζου.
Αν οι δικτυουλκοί της ιστορίας είχαν ρομπότ για το ψάρεμα θα αλίευαν λιγότερες πέτρες ή άλλα αντικείμενα που υπάρχουν στον βυθό της θάλασσας και μάλιστα στο μισό χρόνο. Αρκεί το ρομπότ-αλιέας να είχε εντολή να διακρίνει μεταξύ έμψυχου και άψυχου, ζωντανού και νεκρού. Όπως όμως συμβαίνει με τους περισσότερους τεχνολογικούς αυτοματισμούς ελλοχεύουν κίνδυνοι: μια τέτοια μέθοδος αλιείας δεν θα έφερνε ποτέ το σεντούκι με τη Δανάη και το μικρό Περσέα. Θα αγνοούσε τον θησαυρό ξαναρίχνοντάς τον αδιάφορα στη θάλασσα. Ανάλογο αποτέλεσμα έχει η χρήση των αραχνών-ρομπότ έρευνας στο Διαδίκτυο.
Πριν ξεκινήσετε το ψάξιμο, αναζητείστε τους τρόπους. Η προσαρμογή των μηχανών αναζήτησης θα σας γλυτώσει από πολύ κόπο και χρόνο. Προσέξτε μόνο πώς λειτουργούν τα ρομπότ και οι αλγόριθμοι που χρησιμοποιούν οι αράχνες των μηχανών. Το Διαδίκτυο δεν είναι τόσο αθώο όσο φαίνεται και είναι πιο πλούσιο από ό,τι πιστεύουμε.

Νίκος Βασιλάκος

2011 © νίκος βασιλάκος метр