<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN">
<html><body style='font-family: Verdana,Geneva,sans-serif'>
<p>Brian, if I were you, I'd remove RobotsTxt.pm (is ref'ed in Apache/Rewrite I think) and just have a static "robots.txt" file served by eprints as per any other static file. That will give you direct control on its content. RobotsTxt.pm is not useful at all imo.</p>
<p>Then eprints doesn't do anything special for robots. You can try Crawl-delay (but I don't think that's standard directive so might not be followed by other crawlers). Last thing you can do is black-list it :-)</p>
<p>Seb</p>
<p>On 19.12.2014 17:00, Brian D. Gregg wrote:</p>
<blockquote type="cite" style="padding-left:5px; border-left:#1010ff 2px solid; margin-left:5px"><!-- html ignored --><!-- head ignored --><!-- meta ignored --><!-- meta ignored --><!-- node type 8 --><!-- node type 8 -->
<div class="WordSection1">
<p class="MsoNormal"><a name="_MailEndCompose"></a><span style="color: #1f497d;">As a follow up, I&rsquo;ve found that the perl_lib/robots.pm that I found is related to AWSTATS &ndash; so that isn&rsquo;t going to help here.&nbsp; So please ignore that bit of info.<!-- o ignored --></span></p>
<p class="MsoNormal"><span style="color: #1f497d;"><!-- o ignored -->&nbsp;</span></p>
<p class="MsoNormal"><span style="color: #1f497d;">-Brian.<!-- o ignored --></span></p>
<p class="MsoNormal"><span style="color: #1f497d;"><!-- o ignored -->&nbsp;</span></p>
<div>
<p class="MsoNormal"><strong><span style="font-size: 18.0pt; color: #323e4f;">Brian D. Gregg<!-- o ignored --></span></strong></p>
<p class="MsoNormal"><em><span style="font-size: 14.0pt; color: #323e4f;">Solutions Architect </span></em><span style="font-size: 14.0pt; color: #323e4f;">|<em> Manager Systems Development<!-- o ignored --></em></span></p>
<p class="MsoNormal"><span style="color: #323e4f;">University of Pittsburgh | University Library System<!-- o ignored --></span></p>
<p class="MsoNormal"><span style="color: #323e4f;">Address: </span><a href="https://maps.google.com/maps?q=7500+Thomas+Blvd,+Pittsburgh,+PA&amp;hl=en&amp;sll=41.117935,-77.604698&amp;sspn=7.662465,13.73291&amp;oq=7500+Tho&amp;t=h&amp;hnear=7500+Thomas+Blvd,+Pittsburgh,+Pennsylvania+15208&amp;z=17"><span style="color: #0563c1;">7500 Thomas Blvd.&nbsp; Room 129 Pittsburgh, PA 15208</span></a><span style="color: #323e4f;"><!-- o ignored --></span></p>
<p class="MsoNormal"><span style="color: #17365d;">Tel: (412) 648-3264 | Email: </span> <a href="mailto:bdgregg@pitt.edu"><span style="color: #0563c1;">bdgregg@pitt.edu</span></a><span style="color: #17365d;"> | Fax: (412) 648-3585<!-- o ignored --></span></p>
</div>
<p class="MsoNormal"><span style="color: #1f497d;"><!-- o ignored -->&nbsp;</span></p>
<div>
<div style="border: none; border-top: solid  #E1E1E1  1.0pt; padding: 3.0pt  0in  0in  0in;">
<p class="MsoNormal"><strong>From:</strong> eprints-tech-bounces@ecs.soton.ac.uk [mailto:eprints-tech-bounces@ecs.soton.ac.uk] <strong>On Behalf Of </strong>Brian D. Gregg<br /><strong>Sent:</strong> Friday, December 19, 2014 11:40 AM<br /><strong>To:</strong> eprints-tech@ecs.soton.ac.uk<br /><strong>Subject:</strong> [EP-tech] How to modify robots.txt and add a new bot?<!-- o ignored --></p>
</div>
</div>
<p class="MsoNormal"><!-- o ignored -->&nbsp;</p>
<p class="MsoNormal">All,<!-- o ignored --></p>
<p class="MsoNormal"><!-- o ignored -->&nbsp;</p>
<p class="MsoNormal">I&rsquo;ve noticed that we are getting crawled by what seems to be a newer robot &ldquo;AhrefsBot&rdquo; (<a href="http://ahrefs.com">http://ahrefs.com</a>) That also seems to be ignoring the &ldquo;Disallow: /cgi/&rdquo; stanza as when looking at the logs or the apache server-status it is hitting things in /cgi.&nbsp; <span style="font-family: Wingdings;"> L</span><!-- o ignored --></p>
<p class="MsoNormal"><!-- o ignored -->&nbsp;</p>
<p class="MsoNormal">As a first measure to reign this bot in I&rsquo;d like to add a parameter to the default robots.txt file &ldquo;Crawl-Delay: 2&rdquo; per their documentation (<a href="https://ahrefs.com/robot/">https://ahrefs.com/robot/</a>) but not finding a simple way of doing in EPrints so I started to go through the files and ran across: perl_lib/EPrints/Apache/RobotsTxt.pm where I see what is the default definition for the robots.txt file.&nbsp; I&rsquo;ve updated that file and restarted the web server but alas the robots.txt file does not change.&nbsp; <!-- o ignored --></p>
<p class="MsoNormal"><!-- o ignored -->&nbsp;</p>
<p class="MsoNormal">So two questions:<!-- o ignored --></p>
<p class="MsoListParagraph" style="text-indent: -.25in; mso-list: l0 level1 lfo2;"><span style="mso-list: Ignore;">1.<span style="font: 7.0pt  'Times New Roman';">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span></span>Does anyone have a hint on what needs to be done to identify a new bot correctly? &nbsp;I&rsquo;ve also found the perl_lib/robots.pm but not sure where to add the AhrefsBot to the file.<!-- o ignored --></p>
<p class="MsoListParagraph" style="text-indent: -.25in; mso-list: l0 level1 lfo2;"><span style="mso-list: Ignore;">2.<span style="font: 7.0pt  'Times New Roman';">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span></span>Does anyone know how to update the robots.txt file?&nbsp; Is it per archive?<!-- o ignored --></p>
<p class="MsoNormal"><!-- o ignored -->&nbsp;</p>
<p class="MsoNormal">Thanks,<!-- o ignored --></p>
<p class="MsoNormal">Brian Gregg.<!-- o ignored --></p>
<p class="MsoNormal"><!-- o ignored -->&nbsp;</p>
<p class="MsoNormal"><!-- o ignored -->&nbsp;</p>
<p class="MsoNormal"><strong><span style="font-size: 18.0pt; color: #323e4f;">Brian D. Gregg<!-- o ignored --></span></strong></p>
<p class="MsoNormal"><em><span style="font-size: 14.0pt; color: #323e4f;">Solutions Architect </span></em><span style="font-size: 14.0pt; color: #323e4f;">|<em> Manager Systems Development<!-- o ignored --></em></span></p>
<p class="MsoNormal"><span style="color: #323e4f;">University of Pittsburgh | University Library System<!-- o ignored --></span></p>
<p class="MsoNormal"><span style="color: #323e4f;">Address: <a href="https://maps.google.com/maps?q=7500+Thomas+Blvd,+Pittsburgh,+PA&amp;hl=en&amp;sll=41.117935,-77.604698&amp;sspn=7.662465,13.73291&amp;oq=7500+Tho&amp;t=h&amp;hnear=7500+Thomas+Blvd,+Pittsburgh,+Pennsylvania+15208&amp;z=17"> 7500 Thomas Blvd.&nbsp; Room 129 Pittsburgh, PA 15208</a><!-- o ignored --></span></p>
<p class="MsoNormal"><span style="color: #17365d;">Tel: (412) 648-3264 | Email: <a href="mailto:bdgregg@pitt.edu"> bdgregg@pitt.edu</a> | Fax: (412) 648-3585<!-- o ignored --></span></p>
<p class="MsoNormal"><!-- o ignored -->&nbsp;</p>
</div>
<!-- html ignored --><br />
<pre>*** Options: <a href="http://mailman.ecs.soton.ac.uk/mailman/listinfo/eprints-tech">http://mailman.ecs.soton.ac.uk/mailman/listinfo/eprints-tech</a>
*** Archive: <a href="http://www.eprints.org/tech.php/">http://www.eprints.org/tech.php/</a>
*** EPrints community wiki: <a href="http://wiki.eprints.org/">http://wiki.eprints.org/</a>
*** EPrints developers Forum: <a href="http://forum.eprints.org/">http://forum.eprints.org/</a>
</pre>
</blockquote>
<p>&nbsp;</p>
<div>&nbsp;</div>
</body></html>