<html><head><meta http-equiv="content-type" content="text/html; charset=utf-8"></head><body dir="auto"><div><span></span></div><div><font size="2" face="sans-serif">Hi,</font><br>
<br>
<font size="2" face="sans-serif">I just wrote a linkcheck crawler that checks the remote URLs stored in an EPrints repo and updates the issues list for URLs that have an invalid format or report HTTP status codes other than 200.</font><br>
<font size="2" face="sans-serif">Please let me know if there is an interest to have it available, then I will put it on GitHub. There's some more work to do, e.g. move some of the methods to a plugin so that they can be called from elsewhere.</font><br>
<br>
<font size="2" face="sans-serif">Please also be aware that by applying a linkcheck crawler your editorial team may come under strain to fix all the dead links. Our initial run revealed that after 10 years of running our repository, about 25% of the URLs (about 7500 in our case) are now working anymore.</font><br>
<br>
<font size="2" face="sans-serif">The script also produces a report by HTTP status code and that is sorted either by eprint id or by URL. The latter allows to identify patterns so that URLs can be replaced or removed in batch.</font><br>
<br>
<font size="2" face="sans-serif">Best regards,</font><br>
<br>
<font size="2" face="sans-serif">Martin</font><br>
<br>
<font size="2" face="sans-serif">--</font><br>
<font size="2" face="sans-serif">Dr. Martin Brändle</font><br>
<font size="2" face="sans-serif">Zentrale Informatik</font><br>
<font size="2" face="sans-serif">Universität Zürich</font><br>
<font size="2" face="sans-serif">Stampfenbachstr. 73</font><br>
<font size="2" face="sans-serif">CH-8006 Zürich</font><br>
</div></body></html>