Case Study:
Stiftung Wissenschaft und Politik

Headless Chrome basiertes Scraping-Tool für das Monitoring von Thinktanks

Kunde

Die Stiftung Wissenschaft und Politik (SWP) ist eine renommierte Forschungseinrichtung, die sich auf die Analyse internationaler Politik spezialisiert hat. Als eine führende Denkfabrik in Deutschland bietet die SWP fundierte Informationen und Beratung für politische Entscheidungsträger und die interessierte Öffentlichkeit. Ihre Forschungsarbeit ist darauf ausgerichtet, komplexe globale Herausforderungen zu verstehen und darauf basierend strategische Lösungsansätze zu entwickeln. Die SWP wird weitgehend von der Bundesregierung finanziert und arbeitet eng mit zahlreichen nationalen sowie internationalen akademischen und politischen Institutionen zusammen.

Projekt

Die Stiftung Wissenschaft und Politik (SWP) stand vor der Herausforderung, das Verfolgen von Veröffentlichungen verschiedenster Quellen im Internet effizienter zu gestalten. Bisher erfolgte dies manuell, was einen enormen Zeitaufwand bedeutete und die Ressourcen der Organisation stark beanspruchte. Das Ziel des Projekts war daher, eine Lösung zu finden, die es ermöglicht, diesen Prozess so weit wie möglich zu automatisieren. Die damit einhergehenden Probleme umfassten nicht nur die Automatisierung der Datenerfassung selbst, sondern auch die effiziente Handhabung und Aggregierung der gesammelten Daten. Weiterhin war eine Herausforderung, die extrahierten Daten in einem nutzbaren Format bereitzustellen, das für weitere Analysen und Berichte verwendet werden kann. CosmoCode wurde damit beauftragt, eine solche Lösung zu entwickeln, die den spezifischen Anforderungen der SWP gerecht wird und gleichzeitig einen reibungslosen Übergang von manuellen zu automatisierten Prozessen ermöglicht.

Umsetzung

CosmoCode entwickelte für die Stiftung Wissenschaft und Politik ein ausgeklügeltes WebMonitor Assistenzsystem, das automatisches Monitoring von Webseiten ermöglicht und dabei technologische Herausforderungen meisterte. Das Kernstück der Lösung bildet ein dynamisches, auf Django basierendes Web-Scraping-System mit einer PostgreSQL-Datenbank für die Datenhaltung. Diese Auswahl an Open Source Technologien gewährleistet Flexibilität sowie eine robuste Datenhandling- und Speicherungsinfrastruktur, zugeschnitten auf die Bedürfnisse von SWP.

Die Implementierung umfasste zwei Hauptkomponenten: ein webbasiertes Interface und einen automatisierten Web-Scraper. Das Interface ermöglicht die einfache Konfiguration von Monitoring-Parametern und das Abrufen von Ergebnisdaten, während der Scraper die zugewiesenen Webseiten systematisch nach neuen Publikationen durchsucht. Um auch komplexe Webseiteninhalte zuverlässig zu extrahieren, nutzt der Scraper einen headless Chrome Browser, gesteuert durch die Playwright-Bibliothek. Dieser Ansatz stellt sicher, dass auch aus dynamischen, JavaScript-gestützten Webseiten Daten extrahiert werden können.

Für die effiziente Verwaltung und Archivierung der gesammelten Publikationen bietet das WebMonitor Assistenzsystem eine erweiterte Exportfunktion, die es ermöglicht, die extrahierten bibliographischen Daten nahtlos in Citavi sowie Zotero zu übertragen. Diese Funktion ist besonders nützlich für Nutzer, die in wissenschaftlichen oder forschungsbasierten Bereichen arbeiten, da sie eine einfache Integration der gesammelten Daten in bestehende persönliche oder institutionelle Bibliotheken erlaubt.

Die Herausforderungen, die während der Entwicklung bewältigt wurden, umfassten die präzise Selektorentwicklung zur Identifikation bibliographischer Daten und das Design eines effizienten Duplikate-Erkennungssystems, welches sich auf URL- und Textvergleiche stützt. Darüber hinaus wurde großen Wert auf einfache Bedienbarkeit gelegt, um SWP-Mitarbeitern die Nutzung und Verwaltung des Systems ohne tiefgreifende technische Kenntnisse zu ermöglichen.

In einer Erweiterung wurde ElasticSearch als zentraler Bestandteil für die Recherche in den erfassten Publikationen integriert. Dieser leistungsstarke Indexing-Dienst ermöglicht es, sämtliche bibliographischen Daten der durch den Web-Scraper aufgezeichneten Publikationen effizient zu durchsuchen. Die Einbindung von ElasticSearch erlaubt es, Suchanfragen auf Basis verschiedener Kriterien zu formulieren und dabei auch sprachabhängiges Indexing zu nutzen, um die Relevanz der Suchergebnisse zu optimieren. Durch diese Technologie wird es den Nutzern ermöglicht, schnell und präzise Informationen aus einer großen Menge an Daten zu extrahieren, was eine erhebliche Verbesserung der Informationsaufbereitung und -analyse darstellt.

Für das Hosting des WebMonitor Assistenzsystems bietet CosmoCode umfassende Dienstleistungen, die den stabilen und sicheren Betrieb der Software gewährleisten. Unsere Leistungen umfassen das Managed Hosting, was nicht nur die regelmäßige Wartung der Serverinfrastruktur, sondern auch kontinuierliches Monitoring und regelmäßige Backups einschließt. Dies stellt sicher, dass das System stets verfügbar bleibt und Datenverluste durch effektive Backupstrategien minimiert werden.

Kunde
Stiftung Wissenschaft und Politik
Zeitraum
2020 - 2024

Wir können auch Ihr Projekt umsetzen!

Sie wollen ein ähnliches Projekt umsetzen? Oder sie haben eine ganz andere Idee? Sprechen Sie uns an und wir finden gemeinsam die beste Lösung.