AEE

ERFOLGSGESCHICHTE

Wie Arbisoft AEE dabei geholfen hat, die Crawltime von 168 Stunden auf weniger als 4 Stunden zu reduzieren

Arbisoft hat mit AEE kooperiert, um die Zukunft mit sicherer, sauberer und erschwinglicher Energie zu schaffen, sodass fundierte Entscheidungen auf Grundlage von Daten getroffen werden können. Unsere Datenexperten haben große Datenmengen von wichtigen Richtlinienwebsites gecrawlt, optimiert und und den Prozess automatisiert.

Lassen Sie uns mehr über Ihr Projekt sprechen →

BRANCHE

Energie

HAUPTSITZ

Boston

PLATTFORMEN

Web

eric-fitz

“We now have more data than the largest online encyclopedia as a result of leveraging Arbisoft’s expertise. They’re definitely web crawling experts.”

Eric Fitz,
Vice President, Engineering and Product Development

AEE & Arbisoft

Advanced Energy Economy oder AEE ist eine Gruppe von Unternehmen, die als Mission haben, eine blühende Wirtschaft zu fördern, die sich auf sichere, nachhaltige, saubere und erschwingliche Energie stützt. Sie tun dies, indem sie Politik, Analyse und Bildung unterstützen – und hierfür benötigen sie Zugang zu Daten. Zu einer großen Menge an Daten. PowerSuite – das Produkt von AEE sammelt große Mengen öffentlicher Daten von Websites der Public Utility Commission für jeden US-Bundesstaat und stellt sie PowerSuite-Abonnenten in einem leicht verständlichen, aggregierten Formular zur Verfügung. Die Abonnenten können aktualisierte Informationen abrufen, langfristige Trends verfolgen und vor allem bessere Entscheidungen treffen. Und hier kommt Arbisoft ins Spiel.

Wie wir zusammenpassen

Um wettbewerbsfähig zu sein, musste PowerSuite täglich 50 große PUC-Websites durchsuchen. Das war mit enormen Gemeinkosten in Bezug auf Zeit, Leistung und Ausgaben für API-Dienste verbunden. Es musste ein effektiverer Weg geschaffen werden – und so traffen sie auf Arbisoft, um diesen Weg zu finden. Wir haben einen maßgeschneiderten Crawling-Mechanismus entwickelt, der auf automatisierten und intelligenten Datenextraktoren basiert und semantische Analysen ermöglicht. Wir haben ihr System optimiert und es ermöglichst die Reinigung der Daten in Echtzeit durch zu führen. Damit wurde die Zeit zwischen Datenerfassung und Datenverwendbarkeit weiter verkürzt. Wir haben auch eine REST-API zur Verfügung gestellt, die Daten an die benutzerbezogene Ruby on Rails-App weiterleitet. Die Hochleistungs-API wurde ursprünglich mit der Google App Engine implementiert und später auf die Django REST Framework-App umgestellt.

Wir schaffen nachweisbare Resultate

Unsere Arbeit hat das Abrufen von Daten überaus effizienter gemacht und die Laufzeit des Crawlers von über einer Woche (168+ Stunden) auf weniger als 4 Stunden reduziert. Das bedeutete einen enormen Rückgang der minimalen Betriebszeit um 97,6%, wodurch die Fähigkeit der Indizierungsroboter, neue Informationen zu erfassen und den Abonnenten so schnell wie möglich zu präsentieren, erheblich verbessert wurde. Trotz einer enormen Produktivitätssteigerung konnten auch die Kosten für das Herunterladen von Daten im Vergleich zur herkömmlichen Methode halbiert werden. Die Umstellung der API von der Google App Engine auf das Django REST Framework hat außerdem zu zusätzlichen 600 Dollar pro Monat und damit zu einer Einsparungen von etwa 7.200 Dollar pro Jahr geführt.

Technology Used

Python, Django, Scrapy

REQUEST A QUOTE