<html><head><meta http-equiv="Content-Type" content="text/html charset=windows-1252"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;">Sorry, just noticed you said you don't have shell access to the server.<div><br></div><div>You could download from the browse views:</div><div><br></div><div><a href="http://researchonline.lshtm.ac.uk/cgi/exportview/year/1975/XML/1975.xml">http://researchonline.lshtm.ac.uk/cgi/exportview/year/1975/XML/1975.xml</a></div><div><br></div><div>You can iterate up through the years, but I wouldn't recommend parallelising this. &nbsp;Make sure you've finished downloading 2015's before you take on 2016. &nbsp;I downloaded 2015's and it only took around 5 minutes. &nbsp;If you wanted a robust process, you could scrape this page:&nbsp;<a href="http://researchonline.lshtm.ac.uk/view/year/">http://researchonline.lshtm.ac.uk/view/year/</a>&nbsp;and verify that you've downloaded the correct number of items in the XML:</div><div><br></div><div><span class="Apple-tab-span" style="white-space:pre">        </span>grep 'eprint id=' 2015.xml | wc -l</div><div><br></div><div>...will almost certainly give you the number of eprints without having to parse a large XML file.</div><div><br></div><div>If you have enough access to the machine to be able to configure more browse views, then you may be able to set up a view that is 'unlinked' (meaning it's there, but the repository doesn't link it on the /view page) that streamlines this further.</div><div><br></div><div><br></div><div>Have you considered using the OAI interface? &nbsp;It won't give you eprints XML, but you can just download all items that have changed.</div><div><br></div><div><br><div apple-content-edited="true">
<div style="color: rgb(0, 0, 0); letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;"><div style="color: rgb(0, 0, 0); letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;"><div style="color: rgb(0, 0, 0); letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;">--<br>Adam Field<br></div></div></div>
</div>
<br><div><div>On 27 Mar 2017, at 22:39, Adam Field &lt;<a href="mailto:af05v@ecs.soton.ac.uk">af05v@ecs.soton.ac.uk</a>&gt; wrote:</div><br class="Apple-interchange-newline"><blockquote type="cite"><meta http-equiv="Content-Type" content="text/html charset=windows-1252"><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;">Have you tried a commane-line export. &nbsp;Even if it takes a while, as long as it doesn't consume too many system resources then your repository will still be nice and snappy. &nbsp;You could, for example, trigger it to run at 1am, and write the export to a location in your html directory, then wget it a day later (just in case it runs longer). &nbsp;You could speed up wgetting by zipping it<div><br></div><div>the command would be:</div><div><br></div><div>&lt;eprints_root&gt;/bin/export &lt;repositoryid&gt; archive XML | gzip &gt; &lt;eprints_root&gt;/archives/&lt;archive_id&gt;/htm/en/eprint_archive.xml.gzip</div><div><br></div><div>wget would be:</div><div><br></div><div>wget &lt;base_url&gt;/eprint_archive.xml.gzip | gunzip &gt; eprint_archive.xml</div><div><br><div><br></div><div>Note that there shouldn't be any security issues because the archive dataset is the live items, so it should be all publicly visible anyway. &nbsp;Also, be careful that you aren't downloading it at the time your regenerating it.</div><div><br></div><div>Lastly, the above was typed directly into the email -- your mileage may vary both with syntax and conceptual errors.</div><div><br></div><div><br><div apple-content-edited="true">
<div style="letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;"><div style="letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;"><div style="letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;">--<br>Adam Field<br></div></div></div>
</div>
<br><div><div>On 27 Mar 2017, at 14:51, Andy Reid &lt;<a href="mailto:Andy.Reid@lshtm.ac.uk">Andy.Reid@lshtm.ac.uk</a>&gt; wrote:</div><br class="Apple-interchange-newline"><blockquote type="cite">

<meta http-equiv="Content-Type" content="text/html; charset=us-ascii">
<meta name="Generator" content="Microsoft Word 15 (filtered medium)">
<style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0cm;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;
        mso-fareast-language:EN-US;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:#0563C1;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:#954F72;
        text-decoration:underline;}
p.msonormal0, li.msonormal0, div.msonormal0
        {mso-style-name:msonormal;
        mso-margin-top-alt:auto;
        margin-right:0cm;
        mso-margin-bottom-alt:auto;
        margin-left:0cm;
        font-size:12.0pt;
        font-family:"Times New Roman",serif;}
span.EmailStyle18
        {mso-style-type:personal-compose;
        font-family:"Calibri",sans-serif;
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-size:10.0pt;
        font-family:"Calibri",sans-serif;
        mso-fareast-language:EN-US;}
@page WordSection1
        {size:612.0pt 792.0pt;
        margin:72.0pt 72.0pt 72.0pt 72.0pt;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]-->

<div lang="EN-GB" link="#0563C1" vlink="#954F72">
<div class="WordSection1"><p class="MsoNormal">Hi,<o:p></o:p></p><p class="MsoNormal">I do some checking, analysis and visualisation of our repository in a third-party package, and I have it set up to ingest Eprints XML.&nbsp; Iíd like to update this once a week or so, but if I download it all in one big go it takes about 3 hours,
 1.5GB, and tends to fail halfway in.&nbsp; I have been doing it manually one year at a time, but that means 17 separate manual search-and-download operations, each taking ten minutes or so.&nbsp; I donít have shell access to the server, so canít script it command-line.&nbsp;
<o:p></o:p></p><p class="MsoNormal"><o:p>&nbsp;</o:p></p><p class="MsoNormal">I have looked at the search page but after a search, the download form references a cached search id so I canít just copy the URL in the download form.&nbsp;
<o:p></o:p></p><p class="MsoNormal"><o:p>&nbsp;</o:p></p><p class="MsoNormal">Can anyone give me a template for a URL that would work in a single pass in wget or libwww,&nbsp; that I could then cron to fetch the EPXML ?&nbsp; Obviously I have to be able to authenticate as wellÖ&nbsp; ?<o:p></o:p></p><p class="MsoNormal"><o:p>&nbsp;</o:p></p><p class="MsoNormal"><span style="mso-fareast-language:EN-GB">Andy Reid<o:p></o:p></span></p><p class="MsoNormal"><span style="mso-fareast-language:EN-GB">Research Information Manager<o:p></o:p></span></p><p class="MsoNormal"><span style="mso-fareast-language:EN-GB">Executive Office, Room G40a<o:p></o:p></span></p><p class="MsoNormal"><span style="mso-fareast-language:EN-GB">London School of Hygiene and Tropical Medicine<o:p></o:p></span></p><p class="MsoNormal"><span style="mso-fareast-language:EN-GB">Keppel St, LONDON, WC1E 7HT<o:p></o:p></span></p><p class="MsoNormal"><span style="mso-fareast-language:EN-GB">0207-927-2618 (Internal/Teleworker x2618)
<o:p></o:p></span></p><p class="MsoNormal"><o:p>&nbsp;</o:p></p>
</div>
</div>

*** Options: <a href="http://mailman.ecs.soton.ac.uk/mailman/listinfo/eprints-tech">http://mailman.ecs.soton.ac.uk/mailman/listinfo/eprints-tech</a><br>*** Archive: <a href="http://www.eprints.org/tech.php/">http://www.eprints.org/tech.php/</a><br>*** EPrints community wiki: <a href="http://wiki.eprints.org/">http://wiki.eprints.org/</a><br>*** EPrints developers Forum: <a href="http://forum.eprints.org/">http://forum.eprints.org/</a><br></blockquote></div><br></div></div></div>*** Options: <a href="http://mailman.ecs.soton.ac.uk/mailman/listinfo/eprints-tech">http://mailman.ecs.soton.ac.uk/mailman/listinfo/eprints-tech</a><br>*** Archive: <a href="http://www.eprints.org/tech.php/">http://www.eprints.org/tech.php/</a><br>*** EPrints community wiki: <a href="http://wiki.eprints.org/">http://wiki.eprints.org/</a><br>*** EPrints developers Forum: <a href="http://forum.eprints.org/">http://forum.eprints.org/</a><br></blockquote></div><br></div></body></html>