Søndag Aften
In Association with Amazon.com

FRITEKSTSØGNING
Søg blandt over 500 artikler


Støttet af Kulturministeriets bevilling til almenkulturelle tidsskrifter


september 1999


Søg og du skal finde..måske


håtetepekolonskråstregskråstreg:

Mange ser derfor nettet som begyndelsen på realiseringen af et gigantisk digitalt bibliotek. Men drømmen om det digitale bibliotek er desværre endnu langt fra at være realiseret.

Nettet har vokseværk. I dag udgøres World Wide Web af over 400 millioner dokumenter om alt mellem himmel og jord. Der findes således dokumenter om veteranbilforeninger, lægeartikler, Fibonacci-talrækker, de nyeste forskningsresultater om amazonområdets fauna, den amerikanske borgerkrig, nyhedsartikler osv. osv.

Og World Wide Web øges fortsat med en million nye elektroniske sider. Om dagen.

Mange ser derfor nettet som begyndelsen på realiseringen af et gigantisk digitalt bibliotek. Et bibliotek der med tiden vil komme til at indeholde alt, hvad der nogensinde er og vil blive skrevet af bøger, tidsskrifter, videnskabelige rapporter og opslagsværker.

Men drømmen om det digitale bibliotek er desværre endnu langt fra at være realiseret. For i modsætning til et fysisk bibliotek, hvor man uden det store besvær altid kan finde dét, man søger, er det at søge oplysninger på nettet efterhånden blevet en hel videnskab for sig.

Demokratiske søgerobotter

På grund af nettets anarkistiske og uorganiserede struktur kan enhver frit lægge dokumenter ud på nettet og forsyne det med nogle nøgleord til brug for de søgerobotter- webcrawlers, spiders eller blot (ro)bots- der utrætteligt gennemsøger nettet i deres jagt på nye websider.

Søgerobotterne registrerer automatisk siderne ud fra de nøgleord, der optræder på dem, og gemmer disse oplysninger i en database, hvorfra man så senere kan søge og udtage oplysningerne igen.

Men søgerobotter er demokratiske. Alle indhentede oplysninger vægtes med samme relevans. En søgerobot skelner med andre ord ikke mellem, om et bestemt søgeord, der optræder på en side, er en del af et digt, en videnskabelig artikel eller en reklame.

Uanset at lighed måske nok kan være ønskelig i så mange andre sammenhænge, så er det denne digitale egalitarisme, som er årsagen til så mange af de besværligheder, vi oplever, når vi skal finde oplysninger på nettet.

Indeksbaserede søgemaskiner

På en søgning i søgemaskiner som AltaVista (http://www.altavista.com), Northern Light (http://ww.northernlight.com), og Excites (http://ww.excite.com) databaser får man på et bestemt søgeord en liste eller indeks for samtlige steder, hvor ens søgeord optræder. Ofte er denne liste svimlende lang, og man bliver derfor kun præsenteret for de sider, som søgemaskinen "formoder" er de mest relevante for ens søgning.

Nu vil selvfølgelig ikke alle de sider, hvor ens søgeord optræder være lige relevante for én. Når søgerobotterne ikke kan sortere siderne efter relevans som et menneske, gøres dette i stedet efter bestemte regler for, hvordan og hvor mange gange søgeordet optræder på siderne.

Denne sortering af søgeresultaterne sker således gennem en optælling af, hvor mange gange søgeordet optræder i et dokuments titel, kapiteloverskrifter eller i bestemte skrifttyper: Jo flere gange et søgeord optræder på en side med søgeordet, desto mere relevant anses siden for at være, og desto højere placering gives den på listen.

Der er selvfølgelig en vis fornuft i sådanne indeksbaserede søgemaskiners måde at sortere søgeresultater på. Men det skaber visse problemer:

Kommercielle websider, som har en naturlig interesse i at blive vist ofte, konstrueres nemlig, så søgerobotterne rangerer disse sider højt. En yndet praksis er at gentage søgeordet flere gange på siderne med skrifttyper, som ikke kan ses af sidens brugere, men som alligevel bliver registreret af søgerobotterne.

Dermed kan en enkelt søgning give en masse resultater for kommercielle sider, som søgemaskinen bedømmer som "højst relevante", men som intet har at gøre med det, vi søger efter.

Dertil kommer, at ens søgeord måske ikke engang optræder særlig mange gange på de sider, som kunne være særdeles relevante for ens søgning. Det betyder i praksis, at relevante sider kan blive placeret så langt nede på listen for søgeresultatet, at man aldrig når frem til dem.

Derudover kan det også være tilfældet, at ens søgeord måske ikke engang optræder på relevante sider for ens søgning. Sider som derfor ikke er medtaget i listen.

Emnebaserede søgemaskiner

En anden metode til at lave en mere effektiv sortering af søgeresultater er ved at benytte sig af menneskelig assistance til at læse, klassificere og dernæst udvælge sider om bestemte emner.

Denne strategi benytter Emnebaserede søgemaskiner som Yahoo (http://www.yahoo.com) og danske Jubii (http://www.jubii.dk) sig af, så man som bruger bliver præsenteret for et emnekatalog, der omhandler det, man søger.

Emnebaserede søgemaskiner nyder stor popularitet. De er lette at bruge, og man er næsten altid sikret en eller anden form for brugbare oplysninger. Men de har imidlertid også deres naturlige begrænsninger.

For i modsætning til de største af de indeksbaserede søgemaskiners over 100 millioner sider, har Yahoo som er den største og ældste søgemaskine "kun" omkring 1 million katalogiserede websider. Og med de mere end én million nye websider der føjes til nettet om dagen, siger det sig selv, at man skulle bruge næsten lige så mange mennesker for at kunne holde sig á jour med den evige strøm af elektroniske dokumenter.

Meta-søgemaskiner

Men der endnu en ting, som gør det svært at søge og finde oplysninger på nettet.

Til trods for det svimlende antal sider i de største søgemaskiners databaser, er nettet så stort, at det, man søger, måske befinder sig i en anden søgemaskines database.

Det problem er der imidlertid andre søgemaskiner, der forsøger at tage højde for. Meta-søgemaskiner som InferenceFind (http://www.infind.com), MetaFind (http://www.metafind.com) og Cyber 411 (http://www.cyber411.com) videresender ganske enkelt ens søgning til andre søgemaskiners database, så man i stedet for at søge ét sted af gangen, nu kan søge i mange søgemaskiner på én gang.

Problemet ved en sådan søgemåde er bare, at de fremmede søgemaskiners databaser- typisk de fem til seks største- kun bliver "besøgt" i kort tid af søgerobotten. Ofte bliver kun 10 procent af den samlede datamængde i disse søgemaskiner undersøgt.

Derudover tillader forskellige søgemaskiner forskellig brug af logiske søgetegn som og, eller, nær, ikke, både, +, -, / osv. Avancerede søgninger på meta-søgemaskiner er derfor vanskeliggjort af, at der ofte kun bliver søgt på de første par af ens søgeord uden eventuelle logiske søgetegn.

Nye søgemetoder og hyperlinks

Der forskes stadigvæk i at udvikle nye og mere effektive søgemaskiner. Noget, der er et presserende problem, eftersom World Wide Web inden for de næste 2-3 år vil udgøres af mere end en milliard websider.

Det nyeste med hensyn til ordningen og sorteringen af de endeløse søgeresultatlister er, at man tager udgangspunkt i de myriader af hyperlinks, der forbinder nettets mange sider med hinanden.

I princippet er ethvert hyperlink- dvs. de understregede ord på en webside, som gør, at man kan bevæge sig fra et sted til et andet på nettet- en anbefaling fra én menneskelig bruger til en anden.

Selvfølgelig er der undtagelser som: "Klik hér for at vende tilbage til hovedmenuen", og "Klik hér for at se en dårlig hjemmeside". Men på de fleste sider om et bestemt emne vil der samtidig være anbefalinger af andre sider om det samme emne i form af hyperlinks.

Således vil mange sider, der eksempelvis omhandler menneskerettigheder også have hyperlinks til Amnesty International, fordi mange mener, den er en god side om menneskerettigheder.

Google

Søgemaskinen Google (http://www.google.com), der er udviklet af forskere på Stanford University, tager derfor alle søgeresultaterne fra et bestemt emne og rangerer dem ud fra, hvor mange af de andre sider fra den samme søgeresultatliste, der har hyperlinks til hinanden.

Teorien er selvfølgelig, at gode sider fra en søgeresultatliste vil blive refereret til af mange af de andre sider om det pågældende emne.

Clever

En anden søgemaskine, der ligesom Google også sorterer søgeresultater ved hjælp af hyperlinks, er Clever, der endnu ikke er kommmet på nettet, fordi den fortsat er under udvikling af IBM.

I lighed med Google tager Clever også udgangspunkt i de sider, som rangeres højest af en anden søgemaskine. Men til denne liste af "gode" sider tilføjes yderligere alle de sider, som har hyperlinks til de "gode" sider.

Dernæst sorteres alle disse sider gennem avanceret matematik: Kort fortalt sker det ved, at "gode" hyperlink er hyperlinks, som henviser til "gode" sider med en høj placering. Disse "gode" sider gives så en ny placering efter, hvor mange "gode" hyperlinks de har. Denne proces gentages nu nogle gange, indtil man har fået sine søgeresultater færdigsorteret.

Selvom hverken Google eller Clever endnu er helt færdigudviklede, er dette måske måden for fremtidens søgemaskiner at bruge den information, der i forvejen findes på nettet om, hvad andre mener, er gode og relevante sider om bestemte emner. Men uden at skulle bruge tid og menneskelige resourcer som hos eksempelvis Yahoo.

Men uanset hvor intelligente søgemaskinerne bliver, vil der altid være programmører der beskæftiger sig med at bryde koden for at få en god position. Som i den store internationale viruskrig, kan man følge kampen mellem søgemaskinerne og de der misbruger en programteknisk indsigt. Koden til Google er for eksempel knækket.

Konservative søgemaskinebrugere

Indtil drømmen om nettet som det digitale bibliotek bliver realiseret, og man altid kan finde, hvad man søger, klarer de fleste sig med et par enkelte, faste søgemaskiner.

Men dermed kan man gå hen og glemme, at der findes utallige andre søgemaskiner, som man måske også kunne få glæde af at prøve.

Eksempelvis findes der en række mindre kendte emnebaserede søgeværktøjer som Librarian’s Index to the Internet (http://www.lii.org),

Search.com (http://search.cnet.com) , Beaucoup (http://www.beaucoup.com), WebData (http://www.webdata.com) og Infomine (http://infomine.ucr.edu/Main.html).

Disse nyttige søgemaskiner giver ved en søgning links til de tusindvis af on-line databaser, der findes på universiteter, højere læreanstalter o.l.

Der findes endvidere websites, der har specialiseret sig i at holde folk opdateret om den nyeste viden og udvikling indenfor søgemaskiner. På disse kan man ofte finde tips og gode råd om, hvordan man søger og finder oplysninger på nettet. Search Engines Watch (www.searchenginewatch.com) og Notess (www.notess.com) hører til de mest kendte og udsender gratis nyhedsbreve til interesserede.

Hvis man skulle være interesseret, findes der sågar en website for søgerobotter: Web robots homepage (www.info.webcrawler.com/mak/projects/robots/robots.html) hedder den, og hér kan man få alt at vide om, hvordan en søgerobot arbejder.

Søndag Aften 0999

Tidligere håtetepekolonskråstregskråstreg:
www.jeg-hader-dig.nu
Gratis, gratis, gratis, gratis
Hvis Microsoft boede i Saeby
En engel på skærmen
Krig via computeren
Digital konfliktløsning
Filter mod filter
Hvad skal hjemmesiden hedde?
Spøgelsesbyer på nettet
Det kreative 2000-problem

Må gerne kopieres eller citeres med angivelse af Søndag Aften som kilde.

[Næste artikel]

 



Samlet oversigt over
CulturCronikker 1997-2007





 




arkitektur & design | biblioteker | film | internet | kunst | litteratur | musik | teater & dans

colofon | | links | søg | debat | gæstebog | nyhedsbrev | @ -mail til redaktionen

© 1997- Søndag Aften. All rights reserved.