• Flo erzählt von China :)
  • Treffen VI/2012: Dienstag 14.08.2012 NUR
  • Flo lädt zu den IT Agenten ein, vorgemerkt für Juli, da in MUC
  • Froh bringt Redhat für die Softwarearchitekten-Walz ins Spiel
  • Xing-Gruppe wurde erstellt. Die Moderatoren sorgen für positive Aktivität
  • Todo für nächstes Mal: Fotoapparat
  • Todo bis Mai: Knackige Beschreibung was ist WSA?

Vortrag Lucene (Michi)

  • Lucene ist sehr bequem, wenig Aufwand nötig
  • Integration von Lucene in Hibernate: Hibernate Search, nimmt einen die Integration in die eigene Anwendung ab, macht noch weniger Arbeit als Lucene
  • Warum doppelte Datenhaltung bei Suche in Datenbanken? Warum nicht Fulltext-Index der DB nutzen?
    • Bei Oracle funktioniert es aus der Datenbank ganz gut und zuverlässig (CREATE FULLTEXT INDEX)
    • Features: Operatoren wie NEAR, Stemming, Flexion, etc. Datenbank ist evtl. nicht so gut
    • Das Lucene-.jar kann man leicht mal in der neuesten Version deployen (Ein Upgrade der DB ist wahrscheinlich haariger)
  • Lucene ist rasend schnell, einlesen und indizieren (angeblich 95GB/h)
  • Skalierbar: Keine Erfahrung, Michi verwendet synchrone Indizierungsmethode, es existiert aber auch eine asynchrone & eine near Realtime Indizierung
  • Joe: Den Indexer sollte man aufheben (Objekt in Java), wenn man ihn „loslässt“ und schließt, macht er ein fsync auf die Dateien → slow.
  • Lucene ist sehr klein (kleines jar)
  • Lucene gibt es für quasi alle Sprachen, Java, Pyhton, .NET, … etc.
  • Mit minimalem Aufwand maximales Ergebnis, spätestens mit Lucene in Action & Codebeispielen bekommt man einen riesigen Werkzeugkasten (den man i.d.R. gar nicht erst braucht)
    • z.B. finde raus, was der Query-Analyzer im Detail aus einem Query macht
  • Joe: zusammen mit Lucene gibt's ein Tool um den Index anzusehen (Luke) - visualizing lucene indexes

Lucene Universe

  • Solr: complete search engine
    • Search server, eher Web-targeted (Restful API, JSON)
    • Solr als kompletter Service / Lucene eher als Library zum einbinden.
    • Quote: Apache Tika, an extensible Java-based framework for content analysis and detection
    • Viele „Import-Filter“ (liest alle möglichen Datenformate, auch Office, epub, Videometadaten…)
    • Alfresco hat Tika im Bauch
  • Google Enterprise connector
    • „Hier ist mein Dateisystem, indiziere das bitte mal“
    • Klingt so, als wäre das auf der gleichen Ebene wie Tika (Datenextraktion etc.)
    • Man kann als Backend Lucene verwenden anstelle der proprietären Google-Magie
  • Hibernate Search: Schauen wir nachher noch genauer an
    • Nutch kann spidern, link-graphen verfolgen und ist auf web-suchen spezialisiert
    • Baut auf Solr auf

Indexing API

  • Siehe Folie
  • Michi: 2,6 Mio records macht 400MB Indexdaten

Froh meint: Michi braucht Tree Style Tabs: https://addons.mozilla.org/de/firefox/addon/tree-style-tab/

  • Fragen für später:
    • Froh: Indizierung von „nicht Text“, z.B. ein Logbuch eines Sicherheitssystems
      • Es gibt weblog, syslog analyzer für Lucene