I hope I can give a factual analysis of your question.<br><br><div class="gmail_quote">On Mon, May 7, 2012 at 9:50 PM, Richard Poynder <span dir="ltr">&lt;<a href="mailto:ricky@richardpoynder.co.uk" target="_blank">ricky@richardpoynder.co.uk</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Is it not the case that there are two parts to the data issue, and these two<br>
parts are often conflated? There is data mining (mining the underlying data<br>
associated with scholarly papers), and there is text mining, pulling data<br>
out from the text of scholarly papers (i.e. treating papers as data). As I<br>
understand it, both these things present somewhat different problems, and so<br>
presumably require different solutions.<br></blockquote><div><br>The &quot;data&quot; spectrum is wider than that. &quot;data mining&quot; tends to be narrower than &quot;data analysis&quot; or data re-use. It implies that there are patterns in the data that can be best revealed (or only revealed) by machine methods. For example the analysis of genomic data could be regarded as data-mining.<br>
<br>In many cases single instances or data sets can be valuable and the term &quot;data-mining&quot; may not be appropriate. For example most single data sets submitted as &quot;supplemental information&quot; would probably not be large enough for data-mining but could be valuable for data analysis or re-use. However if a large number of datasets can be assembled from such supp-info then data mining might be appropriate.<br>
<br>Constraints on datamining include lack of clear metadata, and maybe lack of clear licences.<br></div><blockquote class="gmail_quote" style="margin:0pt 0pt 0pt 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">

<br>
For instance, I am told that researchers concerned about text mining argue<br>
that when their institution buys a subscription to an electronic journal<br>
they should be acquiring not only the right to read the papers in it, but<br>
the right to text mine them too. Publishers, however, do not see it that<br>
way. This is not the same problem as that described by Keith below I think.<br>
 <br></blockquote><div>There are many different approaches to data and it&#39;s probably difficult to generalize.<br> </div><blockquote class="gmail_quote" style="margin:0pt 0pt 0pt 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">

That said, not all OA publishers are text-mining friendly either.</blockquote><div><br>I think the term &quot;OA publisher&quot; is not precise. If the publications carry a CC-BY or equivalent licence, as they do from BMC or PLoS,  then the reader has the effective right to carry out textmining. However many publications (sic) are &quot;OA&quot; in the sense that they are visible somewhere, but do not carry a clear licence that permits textmining.<br>
 <br></div><blockquote class="gmail_quote" style="margin:0pt 0pt 0pt 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"> Nature<br>
reports that &quot;of the 2.4 million abstracts listed by PubMedCentral, only<br>
400,000 (17%) are licensed for text-mining.&quot;<br>
(<a href="http://www.nature.com/news/trouble-at-the-text-mine-1.10184" target="_blank">http://www.nature.com/news/trouble-at-the-text-mine-1.10184</a>).<br></blockquote><div><br>The licence rights on UK/PMC content is poorly defined and I don&#39;t think anyonw know what the numbers are. Without a machine readable-licence then the only way of knowing whether something is text-minable is whether it is ;published by BMC or PLoS. The figure that are known to be fully BOAI-compliant is less than 400,000.<br>
<br>Also it&#39;s important not to confuse abstracts with full papers. The full text of many papers is not visible on UK/PMC although the abstracts are. The rights on abstracts are usually unclear. I gather than abstracts have had to be removed from PMC at the behest of the publishers.<br>
</div><blockquote class="gmail_quote" style="margin:0pt 0pt 0pt 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
<br>
I hope the UK government is clear that these are different problems<br>
requiring different solutions.<br>
<div class="HOEnZb"><div class="h5"><br></div></div></blockquote><div>The first problem is lack of clarity and information.<br><br><br> </div><blockquote class="gmail_quote" style="margin:0pt 0pt 0pt 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
<div class="HOEnZb"><div class="h5">
&gt;&gt;<br>
<br>
4. DATA. What about authors who do not wish to make their research data<br>
freely accessible to all immediately, having gathered it for the purpose of<br>
analyzing and data-mining it themselves? Would it not be a better idea for<br>
the time being to merely recommend rather than require that data be made OA<br>
as soon as possible, rather than risk resistance from authors who are happy<br>
to give away their journal articles but not their data?<br>
<br>
[Keith Jeffery]<br>
[Keith Jeffery] you are right to raise this.  Different communities /<br>
domains of research have different practices with embargo periods on data to<br>
allow the project leader / team to have publication precedence.  So we have<br>
publishers wanting embargos for articles and communities wanting embargos<br>
for data (and probably also associated software which may raise issues<br>
concerning confidentiality / patenting).  The UK funding councils are<br>
pushing for the same conditions on data as on publications but the document<br>
is not yet finalised. One solution would be to make data available openly<br>
but to have agreements that any researcher working on the data other than<br>
the original project team should (a) notify of intent to publish (b) ideally<br>
co-publish with the original team  or (c) minimally cite the original team<br>
publication and dataset/software.  It is all a matter of research ethics.<br>
The present competitive research world does not encourage such ethics.<br>
Again the Finch committee output will be interesting.  The whole area of<br>
research data from publicly-funded research has been caught up with the open<br>
&#39;<a href="http://data.gov" target="_blank">data.gov</a>&#39; (public service information, semantic web, linked open data)<br>
agenda.  While  the two certainly are related, I am not convinced the<br>
semantic web / LOD browsing over data to find the nearest hospital or local<br>
government office - or crime statistics in your neighbourhood or league<br>
table ratings of local schools -  is the same as managing terabytes (or<br>
more) of research data with specialised and complex software.<br>
<br>
Best<br>
Keith<br>
<br>
<br>
</div></div><div class="HOEnZb"><div class="h5">_______________________________________________<br>
GOAL mailing list<br>
<a href="mailto:GOAL@eprints.org">GOAL@eprints.org</a><br>
<a href="http://mailman.ecs.soton.ac.uk/mailman/listinfo/goal" target="_blank">http://mailman.ecs.soton.ac.uk/mailman/listinfo/goal</a><br>
</div></div></blockquote></div><br><br clear="all"><br>-- <br>Peter Murray-Rust<br>Reader in Molecular Informatics<br>Unilever Centre, Dep. Of Chemistry<br>University of Cambridge<br>CB2 1EW, UK<br>+44-1223-763069<br>