<div dir="ltr"><br><div class="gmail_extra"><br><div class="gmail_quote">On Sun, Oct 12, 2014 at 1:44 PM, Jan Velterop <span dir="ltr">&lt;<a href="mailto:velterop@gmail.com" target="_blank">velterop@gmail.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word"><br><div><span class=""><div>On 12 Oct 2014, at 12:51, Stevan Harnad &lt;<a href="mailto:harnad@ecs.soton.ac.uk" target="_blank">harnad@ecs.soton.ac.uk</a>&gt; wrote:</div><br><blockquote type="cite"><div style="word-wrap:break-word">Harvesting Gold OA journal articles is a piece of cake.</div></blockquote><div><br></div></span>Indeed. Not just for Paperity, but for anybody else. It&#39;s one of the attractions and benefits of open access via the &#39;gold&#39; route. </div></div></blockquote><div><br></div><div>Yes,<br><br></div><div>It&#39;s noteworthy that almost all modern text and data mining exercises are carried out on the Open Access subset of the literature. In some cases this is an attempt to get the whole Open literature - in others it&#39;s a subsubset such as EuropePubMedCentral. (The alternatives to this are (a) to ignore rights and mine anyway - something we are legally allowed to do in the UK but almost nowhere else or (b) do in in private hoping you won&#39;t be found and scared of publishing your sources as a good scholar should).<br><br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word"><div>Another is that most articles can be harvested in XML-format, which enables sophisticated and worthwhile services to be added to aggregations. </div></div></blockquote><div><br></div><div>This is true for born-Open publishers such as BioMedCentral, PLOS*, eLIfe, PeerJ, Ubiquity ... This is a straightforward sale - author payment =&gt; freedom for re-use. It works very well for text miners. (And please don&#39;t tell us that mining is a minority sport which has to tread water for another 5-10 years).<br><br></div><div>I have not systematically surveyed whether XML is offered in the &quot;Gold&quot; Open Access journals of other major publishers nor whether the licence is always permissive. Those people who argue that CC-NC-ND protects authors (it doesn&#39;t) should realise that it has a massive negative impact on useful re-use including mining.<br><br></div><div>Hybrid journals almost certainly do not offer XML. It&#39;s hard enough for them to offer CC-BY for &quot;Open Access&quot;. <br></div><div><br></div><div>It works less well for born-Closed publishers (such as Elsevier, NPG, ACS, etc.). Rather than having the simple <br><br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word"><div>And aggregations enable researchers to conveniently make large-scale pattern- and meta-analyses without first having to gather all the material from different and disparate sources. </div></div></blockquote><div><br></div><div>Yes - we have built the apparatus to do this in <a href="http://contentmine.org">contentmine.org</a><br> <br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word"><div>Few &#39;green&#39; repositories that I&#39;m aware of have XML-versions (correct me if I&#39;m wrong – and should I be wrong, is there a list of such repositories?). Aggregations, by the way, cannot be made without clarity about rights and licences, since they are a form of re-use. Those rights are clear, and properly included in metadata, for proper &#39;gold&#39;, but often not for &#39;green&#39; versions of paywalled articles in repositories.</div></div></blockquote><div><br></div><div>Exactly. Most &quot;Green&quot; repositories make it very hard to re-use material. This is primarily due to copyright - the default library approach is to say &quot;this may be copyright and you cannot use it unless you write to the author and get permission in writing with real ink&quot;. Then there is the technology. University repositories are constructed on the basis that each document is a priceless artefact that scholars will spend hours discovering and reading. The reality of science is that most of these documents will probably only be read by machines. Some counties (NL, FR for example) at least aggregate some documents - such as theses - and the UK has CORE to try to remedy the situation, but even so it&#39;s extremely difficult to index and search repositories.<br><br></div><div>I wrote to Bernard Rentier offering to index his repository for scientific terms but was told - sadly - that there was a new phase of investment required before this would be possible.<br><br></div><div>Another problem with most repositories is that they insist on transforming DOCX or LaTeX into PDF. Even for their own theses. This is an act of barbarism. PDF has no semantics and it destroys about 50-75% of the science in the document. <br></div><br></div><div class="gmail_quote">Anyway we expect to announce our own Open indexing of the literature RSN.<br></div><br clear="all"><br>-- <br>Peter Murray-Rust<br>Reader in Molecular Informatics<br>Unilever Centre, Dep. Of Chemistry<br>University of Cambridge<br>CB2 1EW, UK<br>+44-1223-763069
</div></div>