Suche

Voraussetzung für eine Suche in den Cache-Archiven mit dem WebAssistant ist eine Indexierung.

Die Suche können Sie aufrufen:

Wählen Sie zunächst das zu verwendente Cache-Archiv aus. Beachten Sie, dass nur indizierte Archive verfügbar sind. Sie können nach Wörtern, Domains und URLs suchen. Geben Sie mehrere Kriterien an, werden diese mit UND verknüpft.

Suchbegriffe

Suche nach einem Wort
Beispiel:
EingabeSuche nach Seiten, die das Wort …
archiv Exakt enthalten: archiv
webpage* Am Anfang enthalten: webpage
*website Am Ende enthalten: website
*mirror*Enthalten: mirror
Suche nach einer Domain
Anzugeben ist zusätzlich das Schlüsselwort: site
Beispiel:
EingabeSuche nach Seiten, die im Domainnamen die Zeichen …
site:mm3tools Exakt enthalten: mm3tools
site:proxy* Am Anfang enthalten: proxy
site:*browser Am Ende enthalten: browser
site:*offline*Enthalten: offline
Suche nach Zeichen in einer URL
Anzugeben ist zusätzlich das Schlüsselwort: url
Beispiel:
EingabeSuche nach Seiten, die in der URL die Zeichen …
url:downloadEnthalten: download

Ergebnis einer Suche

Die gefundenen Ergebnisse werden in einer übersichtlichen Trefferliste dargestellt. In dieser sind Dateien (Seiten) mit ihrer URL, Größe, Archivierungsdatum sowie ca. 200 Zeichen Text aufgelistet.
Textdateien sind zusätzlich durch TXT gekennzeichnet.
Bei HTML-Dateien wird zusätzlich der Titel und die Zusammenfassung (Description) angegeben.
Die Reihenfolge der Dateien entspricht der alphabetischen Sortierung nach der URL. Mehrere Dateien aus der gleichen Domain werden eingerückt dargestellt. Dateien mit rotem Archivierungsdatum wurden nach Erstellung des Index aktualisiert. Über den Link Marker wird die Seite mit markierten Suchwörtern (Such-Wort) angezeigt. Diese Anzeige ist nicht bei allen Dateien möglich.

Information über den Index

Wort-Histogramm

Das Histogramm liefert eine Sortierung der Wörter und die Anzahl der Dateien, in denen das entsprechende Wort vorkommt.

Für eine alphabetische Sortierung verwenden Sie das Schlüsselwort: wordAlphabetical
Beispiel:
EingabeHistogramm über Wörter, die die Zeichen …
wordAlphabetical:‌archiv Exakt enthalten: archiv
wordAlphabetical:‌webpage* Am Anfang enthalten: webpage
wordAlphabetical:*website Am Ende enthalten: website
wordAlphabetical:*mirror*Enthalten: mirror
wordAlphabetical:* Beliebige Zeichen enthalten (alle Wörter)

Für eine Sortierung nach Häufigkeit verwenden Sie das Schlüsselwort: wordFrequency
Für eine Sortierung nach der Wortlänge verwenden Sie das Schlüsselwort: wordLength

Domain-Histogramm

Das Histogramm liefert eine alphabetische Sortierung der Domains und die Anzahl der Dateien, die in der jeweiligen Domain enthalten sind.

Verwenden Sie hierfür das Schlüsselwort: siteAlphabetical
Beispiel:
EingabeHistogramm über Domains, deren Domainnamen die Zeichen …
siteAlphabetical:‌mm3tools Exakt enthalten: mm3tools
siteAlphabetical:‌proxy* Am Anfang enthalten: proxy
siteAlphabetical:*browser Am Ende enthalten: browser
siteAlphabetical:*offline*Enthalten: offline
siteAlphabetical:* Beliebige Zeichen enthalten (alle Domainnamen)

Für eine Sortierung nach Häufigkeit verwenden Sie das Schlüsselwort: siteFrequency

Indexierung

Die Suche in den Cache-Archiven mit dem WebAssistant setzt eine Indexierung voraus. Es werden Text- und HTML-Dateien (Seiten) indexiert. Der Algorithmus des Indexierer arbeitet weitgehend sprachunabhängig. Dabei werden für Großbuchstaben immer die entsprechenden Kleinbuchstaben verwendet. Es werden das lateinische und russische Alphabet sowie einige Sonderzeichen von europäischen Sprachen unterstützt.
Bitte informieren Sie Tools, falls Sie eine andere Sprache benötigen.

Skript-Dateien

Sie starten die Indexierung mit einer der folgenden Skript-Dateien im Ordner: MM3-WebAssistantProfessional/script/
SkriptBetriebssystem
MM3-Utility.bat Windows von Microsoft
MM3-Utility.sh Linux und UNIX
MM3-Utility.commandMac OS X von Apple
Im ersten Dialog werden alle Utilities angezeigt. MM3-Indexer starten Wählen Sie aus: Erstellen eines Index für die Suche über ein Cache-Archiv
Mit Weiter kommen Sie zu dem Konfigurationsdialog Indexer. MM3-Indexer Konfiguration

Einstellung des Indexierers

Für die Indexierung können Sie folgende Einstellungen vornehmen:
  • Auswahl des zu indexierenden Cache-Archives
  • Festlegung der minimalen Wortlänge.
    In die Indexierung werden nur Wörter aufgenommen, die eine minimale Wortlänge besitzen. Vereinfacht besteht diese Wortlänge aus den Zeichen eines Wortes.
  • Ansicht der positiven und negativen Wortliste
    • Negativ Wortliste
      Diese Wörter werden nicht in den Index aufgenommen.
      Stop-Wörter für deutsch, englisch und russisch sind vorhanden.
      Haben Sie zusätzliche STOP-Wörter erstellt, teilen Sie uns diese bitte mit.
    • Positiv Wortliste
      Diese Wörter werden aufgenommen, trotz Unterschreitung der minimalen Wortlänge.

    Die entsprechenden Dateien positive.*.txt und negative.*.txt befinden sich im Ordner MM3-WebAssistantProfessional/config/search/. Die Wortlisten können Sie an Ihren Bedarf anpassen. Das Zeichen * steht für eine sprachspezifische Wortliste, z.B. en für die englische und de für die deutsche Sprache. Alle Dateien mit einem entsprechend strukturiertem Dateinamen werden verwendet. Empfohlen wird für die Kennzeichnung der Sprache, die Abkürzungen nach ISO LanguageCode (ISO-639) zu verwenden.

Nach den vorgenommen Einstellungen starten Sie die Indexierung. Die benötigte Dauer ist abhängig von der Größe des Archivs und kann längere Zeit in Anspruch nehmen. Vor einer Indexierung schließen Sie bitte den WebAssistant.

Ausgabe

Der Ausgabe des Indexer können Sie entnehmen:
  • Indexiertes Cache-Archiv
  • Anzahl der noch zu indexierenden Domains
  • Zur Zeit indexierte Domain
  • Bisher benötigte Zeit
  • Fortschrittsbalken
  • Zusammenfassende Statistik über die Indexierung

Starten mit einer Befehlszeile

Den Indexer können Sie auch mit folgender Befehlszeile starten:

java -jar MM3-WebAssistant.jar Indexer cacheActive=D:\CacheArchiv\ minWordLength=2 withNumber=yes start

Speicherproblem

Der Speicherbedarf ist abhängig von der Größe des Archivs und der gewählten minimalen Wortlänge. Sie können für den Indexer den verfügbaren Speicher in der Skriptdatei erhöhen, falls das Indexieren mehr Speicher benötigt. Alternativ können Sie das Cache-Archiv in mehrere Archive unterteilen oder die minimale Wortlänge vergrößern.

MM3-WebAssistant

Suche