<html><body>
<p><font size="2" face="sans-serif">Hi James,</font><br>
<br>
<font size="2" face="sans-serif">we did recently import in our repository about 3000 metadata records and PDFs from Swiss National Licence program and attached about a further 2000 PDFs to existing metadata.</font><br>
<font size="2" face="sans-serif">Currently I'm working on importing about 4000 e-theses (metadata + PDF) &nbsp;and later 60'000 metadata records of print theses of University of Zurich (back into 19th century) from UZH's library system Aleph. This will increase the current size of our repo by 50%.</font><br>
<br>
<font size="2" face="sans-serif">1) Biggest pro of having all documents in one repo is findability - you don't want the user to have to search several times in different repos.</font><br>
<font size="2" face="sans-serif">Con is that if one does not have the full-text (as above), the overall full-text and OA ratio may be diluted.</font><br>
<br>
<font size="2" face="sans-serif">2) Was answered by David Newman. Be aware that the code by Neugebauer and Han for ingesting documents is not up-to-date and did not work an EPrints 3.3 repository - had to learn that the hard way. If you need code samples let me know.</font><br>
<br>
<font size="2" face="sans-serif">3) There may be not something as a preferred or ideal format. You have to work with what you get from the data provider. In our case, this meant writing our own import scripts and plug-ins. Also, there may be data quality issues, which means one has to do thorough data analysis before and massive data massaging during import (if you have XML data, XSLT 2.0 is your friend because of its strong grouping and sorting facilities). And one has to be prepared to implement error handling for all kind of errors that can be caused by wrong, incomplete or missing data.</font><br>
<br>
<font size="2" face="sans-serif">In the case of National Licenses, this involved:</font><br>
<font size="2" face="sans-serif">- getting CSV files from the data provider</font><br>
<font size="2" face="sans-serif">- 1 script and 2 import plug-ins (NationalLicense, DOI)</font><br>
<font size="2" face="sans-serif">- filtering out wrong records because the provider did an unsufficient affiliation matching and there were als records from ETH Zurich (instead of University of Zurich)</font><br>
<font size="2" face="sans-serif">- extracting the DOIs, then do an duplicate match or import via DOI plugin to which a separate handler had to be passed</font><br>
<font size="2" face="sans-serif">- do a guess of the Dewey classification based on the ISSN of the journal where the article was published using our journal database</font><br>
<font size="2" face="sans-serif">- fetching the abstracts from a separate URL - the abstracts were not stored in the CSV and sometimes are not available via Crossref</font><br>
<font size="2" face="sans-serif">- adding missing fields that are not available in the metadata (e.g. publication status, subject, OA status, copyright, and so on)</font><br>
<font size="2" face="sans-serif">- downloading the PDFs and attaching to the eprint, setting language, format, conent, embargo and security, and making thumbnails on the fly</font><br>
<font size="2" face="sans-serif">- printing a report of the import (success and failures, detected duplicates)</font><br>
<br>
<br>
<font size="2" face="sans-serif">In the case of the e-theses:</font><br>
<font size="2" face="sans-serif">- getting a combined MARCXML/Adam XML file from the provider</font><br>
<font size="2" face="sans-serif">- inserting a separate XML element per MARC record into the file that groups a MARC record (M) and the associated ADAM records (A) - the file had the implicit assumption that ADAM records that immediately follow the MARC record belong to the preceding MARC record. However, this is not parsable (there is no schema). So I went from a structure like Root{M A A A M A M A A M A A A M A M A A A ...} &nbsp;to something like Root{Doc(M A A A) Doc(M A) Doc(M A A) Doc(M A A A) Doc(M A) Doc(M A A A) ...}</font><br>
<font size="2" face="sans-serif">- doing a tag analysis of both M and A using XSLT, then deciding on the mapping to EPrints fields.</font><br>
<font size="2" face="sans-serif">- doing a content analysis of each tag using XSLT by grouping and sorting the content alphabetically. This revealed the whole data nightmare: Inconsistent cataloging due to three different cataloging rulesets that were applied over time, escaped words because of old cataloging rules for indexing, missing data, typos, unusable additional phrases, inconsistent cataloging of author names in different fields (in 100_a: family, given, in 245_c: given family, the latter being impossible to parse correctly because of composed family names), and surprises such as that a thesis may be authored by several authors, but only the first author is recorded in 100_a)</font><br>
<font size="2" face="sans-serif">- 1 script, 1 import plug-in (AlephMarc), 1 config file for mapping MARC --&gt; eprint metadata</font><br>
<font size="2" face="sans-serif">- extracting the metadata and data massaging</font><br>
<font size="2" face="sans-serif">- downloading the PDF of the full-text Adam record and attaching to the eprint, setting language, format, content, embargo and security, and making thumbnails on the fly</font><br>
<font size="2" face="sans-serif">- downloading the PDF of the Adam record for the abstract, doing pdftotext conversion, extracting the abstract and removing title and author information from the abstract</font><br>
<font size="2" face="sans-serif">- doing pdftotext conversion of the full-text's cover page, trying to guess the faculty (which is often not available in the metadata) that is a required field in the UZH repo</font><br>
<font size="2" face="sans-serif">- marking problems in a special eprints field to the review team</font><br>
<font size="2" face="sans-serif">- printing a report of the import (success and failures, detected duplicates)</font><br>
<br>
<br>
<font size="2" face="sans-serif">Best regards,</font><br>
<br>
<font size="2" face="sans-serif">Martin</font><br>
<br>
<font size="2" face="sans-serif">--</font><br>
<font size="2" face="sans-serif">Dr. Martin Brändle</font><br>
<font size="2" face="sans-serif">Zentrale Informatik</font><br>
<font size="2" face="sans-serif">Universität Zürich</font><br>
<font size="2" face="sans-serif">Stampfenbachstr. 73</font><br>
<font size="2" face="sans-serif">CH-8006 Zürich</font><br>
<br>
<font size="2" face="sans-serif">mail: martin.braendle@id.uzh.ch</font><br>
<font size="2" face="sans-serif">phone: +41 44 63 56705</font><br>
<font size="2" face="sans-serif">fax: +41 44 63 54505</font><br>
<font size="2" face="sans-serif"><a href="https://emea01.safelinks.protection.outlook.com/?url=http%3A%2F%2Fwww.zi.uzh.ch&amp;data=01%7C01%7Ceprints-tech%40ecs.soton.ac.uk%7Cf742716f4c704bddbbc208d67c8468fe%7C4a5378f929f44d3ebe89669d03ada9d8%7C1&amp;sdata=lgsdN2wmaxk03LiWMCTkWb9H0FleYH4hVLik60Z0cd0%3D&amp;reserved=0" originalSrc="http://www.zi.uzh.ch" shash="D42ChwWZwRU73WKLcAw4Xur6GVd9tTGD5vlMgJ+i8/hqwJKOgNSt/kL/csTtkDUW1BAEhT2oUnc6gmAlT+DXhM3Sq+xUeNh0INv/xj9kIiZJOSV20w7VSTE1o2J/io995OoK3nDt4DJ0dNQBcFdKHBotv1s1W64xSEJWCWY78WU=">http://www.zi.uzh.ch</a></font><br>
<br>
<img width="16" height="16" src="cid:1__=4EBB0916DFD008CC8f9e8a93df9@lotus.uzh.ch" border="0" alt="Inactive hide details for &quot;James Kerwin via Eprints-tech&quot; ---17.01.2019 11:21:31---Hi All, The University I work at is currentl"><font size="2" color="#424282" face="sans-serif">&quot;James Kerwin via Eprints-tech&quot; ---17.01.2019 11:21:31---Hi All, The University I work at is currently exploring options for digitising our</font><br>
<br>
<font size="1" color="#5F5F5F" face="sans-serif">Von:        </font><font size="1" face="sans-serif">&quot;James Kerwin via Eprints-tech&quot; &lt;eprints-tech@ecs.soton.ac.uk&gt;</font><br>
<font size="1" color="#5F5F5F" face="sans-serif">An:        </font><font size="1" face="sans-serif">&lt;eprints-tech@ecs.soton.ac.uk&gt;</font><br>
<font size="1" color="#5F5F5F" face="sans-serif">Datum:        </font><font size="1" face="sans-serif">17.01.2019 11:21</font><br>
<font size="1" color="#5F5F5F" face="sans-serif">Betreff:        </font><font size="1" face="sans-serif">[EP-tech] Thesis Bulk Upload/Import</font><br>
<font size="1" color="#5F5F5F" face="sans-serif">Gesendet von:        </font><font size="1" face="sans-serif">eprints-tech-bounces@ecs.soton.ac.uk</font><br>
<hr width="100%" size="2" align="left" noshade style="color:#8091A5; "><br>
<br>
<br>
<font size="3" face="serif">Hi All,</font><br>
<br>
<font size="3" face="serif">The University I work at is currently exploring options for digitising our collection of theses, with an aim of them going into the institutional repository and I have some questions if anybody could lend me some of their experience and opinions.</font><br>
<br>
<font size="3" face="serif">1) I've noticed some organisations have a separate instance of EPrints for theses. We currently put each thesis into the institutional repository along with all other types of item. Is there a benefit to separating them out?</font><br>
<br>
<font size="3" face="serif">2) Does EPrints facilitate any sort of bulk upload of Documents and EPrint record creation? I've had a quick look around and found the following from Tomasz Neugebauer and Bin Han:</font><br>
<br>
<a href="https://emea01.safelinks.protection.outlook.com/?url=https%3A%2F%2Fwww.researchgate.net%2Fpublication%2F291251891_Batch_Ingesting_into_EPrints_Digital_Repository_Software&amp;data=01%7C01%7Ceprints-tech%40ecs.soton.ac.uk%7Cf742716f4c704bddbbc208d67c8468fe%7C4a5378f929f44d3ebe89669d03ada9d8%7C1&amp;sdata=m9Tqch2yiacJyFFdJDWzZx%2B9sL8QzsGzwG%2F%2F034iY9s%3D&amp;reserved=0" originalSrc="https://www.researchgate.net/publication/291251891_Batch_Ingesting_into_EPrints_Digital_Repository_Software" shash="qL/j29xlToj3BpwuTXAaifhQudEGcgAxVEupyfSD5OyncnGz2kwL1BYePt5Zbng3cJfPoV+QC/cSpcPG9IC9aPu3sUshO8+ic1j7pdGKZm0RvwR994/tK01fnXgb5sVtDPlVWCpu/iPf+pKPTAOsLthjS+pQ3y1ypyNjtklQofI="><font size="3" color="#0000FF" face="serif"><u>https://www.researchgate.net/publication/291251891_Batch_Ingesting_into_EPrints_Digital_Repository_Software</u></font></a><br>
<br>
<font size="3" face="serif">I'm curious to see if this is still relevant (it's very thorough) or if there are any other methods or potential pitfalls to avoid.</font><br>
<br>
<font size="3" face="serif">3) Following on from Q2, is there a preferred/ideal format of metadata? The article makes it clear that many different formats are supported, but again I'm wondering if there are any pros and cons to any particular format.</font><br>
<br>
<font size="3" face="serif">The digitising won't be complete for some time so I'm taking the opportunity to get ahead of it and be ready.</font><br>
<br>
<font size="3" face="serif">Thanks,</font><br>
<font size="3" face="serif">James</font><br>
<tt><font size="2">*** Options: </font></tt><tt><font size="2"><a href="http://mailman.ecs.soton.ac.uk/mailman/listinfo/eprints-tech">http://mailman.ecs.soton.ac.uk/mailman/listinfo/eprints-tech</a></font></tt><tt><font size="2"><br>
*** Archive: </font></tt><tt><font size="2"><a href="https://emea01.safelinks.protection.outlook.com/?url=http%3A%2F%2Fwww.eprints.org%2Ftech.php%2F&amp;data=01%7C01%7Ceprints-tech%40ecs.soton.ac.uk%7Cf742716f4c704bddbbc208d67c8468fe%7C4a5378f929f44d3ebe89669d03ada9d8%7C1&amp;sdata=smf76u1izShHUrjEbAS%2FGXSYQb4c4uLrPgBvKa8mFlg%3D&amp;reserved=0" originalSrc="http://www.eprints.org/tech.php/" shash="BAvMlwVMqqLhUuonzk0a0RumS5EsvyJuqQ2aVFGH6P2+iGwHLp6nrjk1cqN26yn+yhE9SMayBb+n9oj0tQC0S9brz/4R5dX9R/Ay15wMEptOmOivzMPsYbbXsBNCZDVPza5GWHIFMnFeILyf8e5OSuQ+a912JB3Vpcl/jf1N9hE=">http://www.eprints.org/tech.php/</a></font></tt><tt><font size="2"><br>
*** EPrints community wiki: </font></tt><tt><font size="2"><a href="https://emea01.safelinks.protection.outlook.com/?url=http%3A%2F%2Fwiki.eprints.org%2F&amp;data=01%7C01%7Ceprints-tech%40ecs.soton.ac.uk%7Cf742716f4c704bddbbc208d67c8468fe%7C4a5378f929f44d3ebe89669d03ada9d8%7C1&amp;sdata=aagIv%2Fu2g1ODqcKPDh3%2BSxKzllbMg%2FLTwXLbUGbWcFs%3D&amp;reserved=0" originalSrc="http://wiki.eprints.org/" shash="RvM/DznsxeAI2AIMxHmsQjiLrnYTindwUOSuBPMpgMRNYe28tRLqTdO5IfKBgoh7rtjM/ssQGKNNYczPtxAFomN5BztxhCCI317556amk75Rq5nB48gX7oPUQI0YctP8DlGDCYsYPGkd8jl2wHul7aqXyddHbRNbXJZ2VISFl3U=">http://wiki.eprints.org/</a></font></tt><tt><font size="2"><br>
*** EPrints developers Forum: </font></tt><tt><font size="2"><a href="https://emea01.safelinks.protection.outlook.com/?url=http%3A%2F%2Fforum.eprints.org%2F&amp;data=01%7C01%7Ceprints-tech%40ecs.soton.ac.uk%7Cf742716f4c704bddbbc208d67c8468fe%7C4a5378f929f44d3ebe89669d03ada9d8%7C1&amp;sdata=5FPLSdmwXGC9V2zQ6Zfsg3YLZTGcG76iBlP92EQA2qE%3D&amp;reserved=0" originalSrc="http://forum.eprints.org/" shash="jXh214K4XWnsdwDqJ0hBxz5THWM2t6Vkj6x68LewIrw0icZggRdy0gJpB3a0lU4+3VtBbRfT2DYnoGikGJzAPsYjC3rY256mOejmSF19m9tS46ZFcw/t9XBSfYwVTlFWmo6rQG1l+hQlrtg5f1ZM//3vpBf20fbTLauWFl9LPGk=">http://forum.eprints.org/</a></font></tt><tt><font size="2"><br>
</font></tt><br>
<br>
</body></html>