Great points Dan, thank you<div><br></div><div>* some sort of licensing IS generally necessary for data and<br>text mining.</div><div><br></div><div>* The Open Database Licence also appears to assert &quot;that digital material</div>
<div class="im">must be made available in a readily machine-interpretable form&quot;</div><div class="im"><br></div><div class="im">Perhaps academic works and the Open Access movement might find such a clause desirable in preferred/recommended OA publishing licenses? I certainly think this would be useful - to prevent cynical publishers from providing only less useful &#39;obfuscated&#39; copies (i.e. all text provided as an image, NOT copy/pasteable) of works as &#39;open access&#39; (in name but not in spirit), made available to grudgingly satisfy funder requirements for OA. </div>
<div class="im"><br></div><div class="im">It&#39;s an unlikely scenario, and the publisher would face huge backlash if they did such a thing but if it&#39;s theoretically possible perhaps the scenario should be considered and legislated against...? Whether the appropriate mechanism for preventing this is licensing or some other instrument I don&#39;t know.</div>
<div class="im"><br></div><div class="im"><br></div><div class="im"><br></div><div class="im"><br></div><div class="im"><br></div><div class="im"><br></div><div><br><br><div class="gmail_quote">On 10 October 2012 09:14, Dan Stowell <span dir="ltr">&lt;<a href="mailto:dan.stowell@eecs.qmul.ac.uk" target="_blank">dan.stowell@eecs.qmul.ac.uk</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi all,<br>
<br>
Some points re this discussion:<br>
<div class="im"><br>
Helen wrote:<br>
&gt; 1.    CC-BY is not necessary for data and text-mining. Internet search engines such as google and social media companies do extensive data and text mining, and they do not limit themselves to CC-BY material. This is true even in the EU, so is not prevented by the EU&#39;s support for copyright of data. To illustrate: if data and text-mining is not permissible without CC-BY, then Google must shut down, immediately.<br>

<br>
</div>This point is a bit weird. Firstly, just because Google is doing<br>
something and getting away with it, doesn&#39;t mean a lone academic can be<br>
confident of doing something similar and getting away with it. I was<br>
always amazed by how brazenly Youtube set up its service *before* making<br>
agreements with the major media companies, when I would have assumed<br>
they would have been sued out of existence.<br>
<br>
Secondly, some sort of licensing IS generally necessary for data and<br>
text mining. Just because it&#39;s not CC doesn&#39;t mean it&#39;s not a licence.<br>
For example Google Books reuses content, on the basis of explicit<br>
agreements which were apparently made with deposit libraries and<br>
publishers (I don&#39;t know the detail of that one). Facebook uses explicit<br>
licensing that its users sign up to. Twitter does the same, and third<br>
parties who mine Twitter any more than a tiny amount have to agree to<br>
specific terms. Etc etc.<br>
<br>
Some sort of enabling licence is clearly necessary, and of course for<br>
data-mining we wish for a licence that &quot;pre-approves&quot; our actions so<br>
that we don&#39;t have to conduct a million negotiations before we analyse<br>
an aggregated dataset.<br>
<div class="im"><br>
<br>
Ross wrote:<br>
&gt; WRT to your point 2 &quot;CC-BY is not sufficient for data and text-mining&quot; (nor<br>
&gt; is *any* applicable licence AFAIK - I know of no licence that asserts that<br>
&gt; digital material must be made available in a readily machine-interpretable<br>
&gt; form in the licence)<br>
<br>
</div>Actually the GPL is a very good example. It is for software, and the GPL<br>
authors don&#39;t recommend it be used for texts, but it offers a<br>
delightfully clear requirement that &quot;the preferred form of the work for<br>
making modifications&quot; is made available. In the world of software, this<br>
is the source code, but if applied to data it&#39;s clear that it would<br>
militate against providing data tables as images.<br>
<br>
When I first heard of CC licenses I was surprised that they didn&#39;t use<br>
some form of words like this. It doesn&#39;t seem to &quot;care&quot; whether<br>
downstream users get the perfect original or a low-quality JPEG. Since<br>
then, I&#39;ve come to decide that this relatively slack aspect of CC<br>
licences was very good for cultural works and so forth.<br>
<br>
But for the purposes of academic data reuse, perhaps this is the more<br>
pertinent part of Helen&#39;s criticism.<br>
<br>
The Open Database Licence also appears to assert &quot;that digital material<br>
<div class="im">must be made available in a readily machine-interpretable form&quot;<br>
</div>&lt;<a href="http://opendatacommons.org/licenses/odbl/summary/" target="_blank">http://opendatacommons.org/licenses/odbl/summary/</a>&gt; though I&#39;m less<br>
familiar with that (see the &quot;Keep open&quot; part of the summary).<br>
<br>
Best<br>
Dan<br>
<div class="im"><br>
<br>
P.S. One very minor additional point - Ross wrote:<br>
&gt; practically the SA clause means that other content that doesn&#39;t<br>
&gt; have that *exact* licence  (CC-BY-NC-SA) cannot be remixed with content<br>
under this licence<br>
<br>
</div>Be careful: the way you phrased it is not quite true. You can combine<br>
CC-BY or CC-BY-NC content into a CC-BY-NC-SA work, for example. The<br>
resulting work must be CC-BY-NC-SA in that case.<br>
<span class="HOEnZb"><font color="#888888"><br>
<br>
--<br>
Dan Stowell<br>
Postdoctoral Research Assistant<br>
Centre for Digital Music<br>
Queen Mary, University of London<br>
Mile End Road, London E1 4NS<br>
<a href="http://www.elec.qmul.ac.uk/digitalmusic/people/dans.htm" target="_blank">http://www.elec.qmul.ac.uk/digitalmusic/people/dans.htm</a><br>
<a href="http://www.mcld.co.uk/" target="_blank">http://www.mcld.co.uk/</a><br>
</font></span><div class="HOEnZb"><div class="h5">_______________________________________________<br>
GOAL mailing list<br>
<a href="mailto:GOAL@eprints.org">GOAL@eprints.org</a><br>
<a href="http://mailman.ecs.soton.ac.uk/mailman/listinfo/goal" target="_blank">http://mailman.ecs.soton.ac.uk/mailman/listinfo/goal</a><br>
</div></div></blockquote></div><br><br clear="all"><div><br></div>-- <br>-- <br>-/-/-/-/-/-/-/-/-/-/-/-/-/-/-/-/-/-/-/-/-/-/-/-/-<br>Ross Mounce<br>PhD Student &amp; Open Knowledge Foundation Panton Fellow<br>Fossils, Phylogeny and Macroevolution Research Group<br>
University of Bath, 4 South Building, Lab 1.07<br><a href="http://about.me/rossmounce" target="_blank">http://about.me/rossmounce</a><br>-/-/-/-/-/-/-/-/-/-/-/-/-/-/-/-/-/-/-/-/-/-/-/-/-<br>
</div>