Websiten automatisiert parsen

Disclaimer: Dieser Thread wurde aus dem alten Forum importiert. Daher werden eventuell nicht alle Formatierungen richtig angezeigt. Der ursprüngliche Thread beginnt im zweiten Post dieses Threads.

Websiten automatisiert parsen
Hallo zusammen,

ich würde gerne eine Reihe von Websiten parsen, also die Seiten ausrufen und gewisse Informationen aus dem Quellcode ziehen. Das Ganze soll 24/7 geschehen, cool wäre ein das über einen Cloudservice zu machen.
Kennt ihr irgendwelche Dienste, die das (möglicht kostengünstig) anbieten? Kennt ihr spezielle Bibliotheken oder Frameworks, die für die Implementierung geeignet sind? Sonstige Tipps? :wink:

Danke!


Webseiten parsen habe ich bisher immer mit BeautifulSoup in Python gemacht. Ob das in der Cloud funktioniert ka, aber Google App Engine bietet zumindest schon mal Python an.


Webseiten lassen sich auch schön mit Perl parsen und wenn das ganze dauerhaft laufen soll, würde ich dafür nen Raspberry Pi nehmen.