<div dir="ltr"><br><div class="gmail_extra"><br><div class="gmail_quote">On Mon, Jun 1, 2015 at 6:47 PM, Heather Morrison <span dir="ltr">&lt;<a href="mailto:Heather.Morrison@uottawa.ca" target="_blank">Heather.Morrison@uottawa.ca</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">



<div style="word-wrap:break-word">
<div>Question and challenge</div>
<div><br>
</div>
<div>Question: Didn&#39;t the UK recently change its legislation explicitly to allow for data and text mining?</div></div></blockquote><div><br></div><div>Yes,<br><br></div><div>The Statutory Instrument  came into force in June2014 following recommendations In Prof Hargreaves&#39; report. They basically provide for &quot;private research for non-commercial puposes&quot;. They allow miners to override restrictive clauses inserted by publishers in contracts. However it is unclear what can be published as a result of mining and it is unclear how it interacts with the European sui generis directive on Database rights.<br><br></div><div>We are mining the literature under the new Instrument. However this has not been tested in court.<br><br></div><div>A full and authoritative account is given by Prof Charles Oppenheim who is an active adviser to TheContentMine<br><br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word">
<div><br>
</div>
<div>Challenge: My research blog and data verses are both fully open with no CC license at all. They are All Rights Reserved, and yet posted on the web, in the case of the dataverse deliberately so that people can go ahead and download and manipulate the data.
  I challenge anyone to go ahead and try some text and data mining. If you think there are legalities preventing you from doing this, please explain what they are. </div></div></blockquote><div><br></div><div>This language makes little sense. The material is not &quot;fully open&quot;. It is posted on your web site and could be withdrawn at any time. This is not Open - it is temporarily free-to-view. You posses the copyright. ContentMine inevitably requires copying from your site which is potentially an infringement of copyright and in most jurisdictions, including Canada, you would have the right to sue a ContentMiner. <br><br></div><div>Please accept that posting on the web, with whatever good intentions but without explicit licence, gives no rights to any potential user.<br><br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word">
<div><br>
</div>...</div></blockquote><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word"><div>I think we need to understand what barriers exist to data and text mining and resolve them, rather than assuming that pushing everyone to make their work CC-BY is the answer.</div></div></blockquote><div><br></div><div>We understand many of the barriers already and they prevent us mining the content without an agreement. Only with CC-BY or CC0 can we do this knowing that we can do it without the permission of the copyright owner. The UK legislation gives UK researchers an additional resource, which we are now using.<br></div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word"><div> For example, if my blog were CC-BY licensed, this wouldn&#39;t help with Wordpress
 not being set up to search the comments. Another example: there is nothing to stop the Licensor (as opposed to the downstream user) to put TPMs in a CC-BY or CC-0 work that would effectively prevent people from data and text mining. </div></div></blockquote><div><br></div><div>A CC BY document, with only one copy behind the LIcensor&#39;s firewall is not accessible and is therefore operationally closed. If one copy is published, then it can be copied and cannot be revoked by the licensor. <br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word">
<div><br>
</div>
<div>If one is legally prevented from data and text mining works that are in the open, no doubt as a law-abiding citizen you&#39;re not using any internet search engine.</div></div></blockquote><div><br></div><div>the legality of search engines is unclear in many cases.  Many have agreements with large content providers - most STM publishers allow Google to search and index their content. This does not mean that everyone can spider everything and if you try it you will get pushback.<br><br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word">
<div><br>
</div><br></div></blockquote></div><br clear="all"><br>-- <br><div class="gmail_signature">Peter Murray-Rust<br>Reader in Molecular Informatics<br>Unilever Centre, Dep. Of Chemistry<br>University of Cambridge<br>CB2 1EW, UK<br>+44-1223-763069</div>
</div></div>