<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=us-ascii">
</head>
<body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">
<div>Question and challenge</div>
<div><br>
</div>
<div>Question: Didn't the UK recently change its legislation explicitly to allow for data and text mining?</div>
<div><br>
</div>
<div>Challenge: My research blog and data verses are both fully open with no CC license at all. They are All Rights Reserved, and yet posted on the web, in the case of the dataverse deliberately so that people can go ahead and download and manipulate the data.
 &nbsp;I challenge anyone to go ahead and try some text and data mining. If you think there are legalities preventing you from doing this, please explain what they are.&nbsp;</div>
<div><br>
</div>
<div>Blog: &nbsp;<a href="http://sustainingknowledgecommons.org">sustainingknowledgecommons.org</a></div>
<div>OA APCs:&nbsp;<a href="http://dataverse.scholarsportal.info/dvn/dv/oaapc/">http://dataverse.scholarsportal.info/dvn/dv/oaapc/</a></div>
<div><br>
</div>
<div>There probably are some barriers to text and data mining, however these have nothing to do with legalities. For example, this morning I was looking for Walt Crawford's comment on one of my posts. This didn't come up, but that's likely just because Wordpress
 is not set up to search comments. &nbsp;</div>
<div><br>
</div>
<div>I think we need to understand what barriers exist to data and text mining and resolve them, rather than assuming that pushing everyone to make their work CC-BY is the answer. For example, if my blog were CC-BY licensed, this wouldn't help with Wordpress
 not being set up to search the comments. Another example: there is nothing to stop the Licensor (as opposed to the downstream user) to put TPMs in a CC-BY or CC-0 work that would effectively prevent people from data and text mining.&nbsp;</div>
<div><br>
</div>
<div>If one is legally prevented from data and text mining works that are in the open, no doubt as a law-abiding citizen you're not using any internet search engine.</div>
<div><br>
</div>
<div>In my field, metadata is far more critical than legalities. I am sure that this is the case for other researchers. If others are doing work on journals, please include the title and ISSN - especially the ISSN as the key piece of data to facilitate remix
 in this particular area. A dataset that is CC-BY or CC-0 without this information is of little to no use. This is the kind of discussion I think we need to have with respect to re-use.&nbsp;</div>
<div><br>
</div>
<div>best,</div>
<div><br>
</div>
<div>Heather&nbsp;</div>
<div><br>
</div>
<br>
<div>
<div>On 2015-06-01, at 10:59 AM, Peter Murray-Rust &lt;<a href="mailto:pm286@cam.ac.uk">pm286@cam.ac.uk</a>&gt;</div>
<div>&nbsp;wrote:</div>
<br class="Apple-interchange-newline">
<blockquote type="cite">
<div dir="ltr"><br>
<div class="gmail_extra">We are now at the point where anything less than full BOAI-compliance is seriously holding science and medicine back. We must have immediate<br>
<br>
&quot;free availability on the public internet, permitting any users to read, download, copy, distribute, print, search, or link to the full texts of these articles, crawl them for indexing, pass them as data to software,...&quot;<br>
<br>
</div>
<div class="gmail_extra">We've just run a workshop in Edinburgh in the Neuroscience group who are, inter alia, looking at Systematic review of animal experiments. One senior post doc has spent the last year reading 30,000 papers (sic) - that's one every 3 minutes
 - classifying them into properly reported and badly reported tests. Our (Open) <a href="http://contentmine.org/" target="_blank">
contentmine.org</a> Text and Data Mining software can do this in a few seconds per paper. But ONLY if we are legally allowed to do this; and the only licences that allow this explicitly are CC-BY or CC0. (I have spent a considerable time on the legal aspects).
<br>
</div>
<div class="gmail_extra"><br>
The main STM publishers are challenging the right to Mine Content and throwing money at lobbying MEPs and European Commission to have restrictive clauses added to potential leglislation. The primary defence against this in almost all countries is to have science
 and medicine published as BOAI-compliant CC-BY or CC0. Calling anything else &quot;Open Access&quot; is simply giving huge political support to the STM publishing industry and preventing scientists using modern tools.<br>
<br>
</div>
<div class="gmail_extra">P.<br>
<br>
</div>
<div class="gmail_extra"><br>
</div>
<div class="gmail_extra"><br clear="all">
<br>
-- <br>
<div>Peter Murray-Rust<br>
Reader in Molecular Informatics<br>
Unilever Centre, Dep. Of Chemistry<br>
University of Cambridge<br>
CB2 1EW, UK<br>
<a href="tel:%2B44-1223-763069" value="&#43;441223763069" target="_blank">&#43;44-1223-763069</a></div>
</div>
</div>
_______________________________________________<br>
GOAL mailing list<br>
<a href="mailto:GOAL@eprints.org">GOAL@eprints.org</a><br>
http://mailman.ecs.soton.ac.uk/mailman/listinfo/goal<br>
</blockquote>
</div>
<br>
</body>
</html>