<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
</head>
<body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class="">
<div class="">Thanks, Charles.</div>
<div class=""><br class="">
</div>
A lot of scholarship is still available only through subscription or per-article toll access. I recall considerable discussion a few years ago (in a prior position focused on licensing electronic resources for many libraries) about publishers refusing to allow
 massive downloading that is needed for text mining, viewing this as a breach of the license and cutting off access for the library, or setting up DRM to prevent automatic downloading. Over the years libraries began to add text mining to model license agreements.
 &nbsp;Some publishers see this as a new use they have a right to charge more for, even publishers already making high profits. I think we can agree that this blocks progress in advancing our knowledge and this needs to change.<br class="">
<div>
<div class="">
<div class="">
<div dir="auto" class=""><br class="">
</div>
<div dir="auto" class="">To avoid blocking advances we need researchers to be able to make working copies (cached or permanently stored on their hard drives but not for redistribution) of the entire corpus of scholarly works going back to the beginning of scholarship.</div>
<div dir="auto" class=""><br class="">
</div>
<div dir="auto" class="">This requires changes in copyright law and publishing practice with respect to toll access works at the buying as well as selling end, in addition to dissemination of OA works in both repositories and publications that facilitate text
 mining.</div>
<div dir="auto" class=""><br class="">
</div>
<div dir="auto" class="">This principle is necessary beyond research using scholarly materials, for example research in the social sciences, humanities and arts needs to be able to do this with news sources, works of art and literature, social media and so
 forth.</div>
<div dir="auto" class=""><br class="">
</div>
<div dir="auto" class="">With respect to copyright, if publishers are seeking to expand their rights in the EU and may have legitimate reasons to protect their profits from other commercial entities (that is others who would take content and use it to sell
 advertising for a profit in competition with the original publisher etc, not researchers doing research in the context of a job), one option would be to push to carve out a broad-based exception for research. This would be beneficial for the EU where I understand
 fair dealing rights are not always in local copyright law and interpretations of user rights under Berne is conservative in some countries.&nbsp;</div>
<div dir="auto" class=""><br class="">
</div>
<div dir="auto" class="">The reason research rights needs to be broad-based in because others need these rights, too. Journalists do research; newspaper publishers who are pushing for an expansion of rights may understand the benefits of research exceptions
 that include them.</div>
<div dir="auto" class=""><br class="">
</div>
<div dir="auto" class="">For open access, permitting downloading, storage and manipulation of documents to facilitate creation of new knowledge is a basic that I would agree we should all be striving towards. This isn't just about text mining, individuals need
 to be able to add their own notes and comments to working copies, copy and paste text and easily maintain citation information to reorganize in preparation for writing, etc. Also ideally works should be in electronic forms that print disabled readers can easily
 convert to formats that work for them.</div>
<div dir="auto" class=""><br class="">
</div>
<div dir="auto" class="">Getting there requires:</div>
<div dir="auto" class=""><br class="">
</div>
<div dir="auto" class="">- &nbsp;work on publication formats as the current popular ones are not designed for this</div>
<div dir="auto" class=""><br class="">
</div>
<div dir="auto" class="">- user education about the potential starting at the reader end; it is easier to see why to allow this if you think about this as a reader</div>
<div dir="auto" class=""><br class="">
</div>
<div dir="auto" class="">- education including in the Libre access camp about the reading needs and challenging for people with disabilities, eg that our tendency to move towards more visual presentation of data increases the challenges for them&nbsp;</div>
<div dir="auto" class=""><br class="">
</div>
<div dir="auto" class="">- general education about plagiarism and legitimate copyright restrictions (copy and paste facilitates legitimate uses, but also plagiarism and violations of trademarks - logos are popular items for re-use, and other neighbouring rights)</div>
<div dir="auto" class=""><br class="">
</div>
<div dir="auto" class="">- abandoning conflating of this potential with CC licenses which tie arguments for OA for research with non-research downstream use that has negative implications that have nothing to do with advancing knowledge such as selling works
 or advertising for a profit</div>
<div dir="auto" class=""><br class="">
</div>
<div dir="auto" class="">- understanding that this will take time. People who completely agree with this are likely not at liberty to enforce every OA IR deposit to meet the licensing and formatting requirements for optimal downstream research use. PDF is a
 popular reading format. Libre OA for new and emerging research does not address back issues and the non-research works researchers use in conducting research.</div>
<div dir="auto" class=""><br class="">
</div>
<div dir="auto" class="">My two bits. It would be helpful to hear about others' experiences and the latest in text mining provisions in subscriptions licenses.</div>
<div dir="auto" class=""><br class="">
</div>
<div dir="auto" class="">Heather&nbsp;</div>
<div dir="auto" class=""><br class="">
<div class="">
<div dir="auto" class=""><br class="">
</div>
</div>
</div>
</div>
<div class=""><br class="">
</div>
<div class=""><br class="">
</div>
<div class="">-------- Original message --------</div>
<div class="">From: CHARLES OPPENHEIM &lt;<a href="mailto:c.oppenheim@btinternet.com" class="">c.oppenheim@btinternet.com</a>&gt;
</div>
<div class="">Date: 2017-01-26 4:39 AM (GMT-05:00) </div>
<div class="">To: <a href="mailto:pm286@cam.ac.uk" class="">pm286@cam.ac.uk</a>, Heather Morrison &lt;<a href="mailto:Heather.Morrison@uottawa.ca" class="">Heather.Morrison@uottawa.ca</a>&gt;,
<a href="mailto:goal@eprints.org" class="">goal@eprints.org</a> </div>
<div class="">Subject: Re: [GOAL] How much of the content in open repositories is able to meet the definition of open access?
</div>
<div class=""><br class="">
</div>
<div class="">To do automated TDM, one needs to copy the entire table, irrespective of which bits are subsequently analysed, and so there is a potential breach of ©. &nbsp;Whilst &nbsp;this MAY be acceptable under an exception to ©, such as fair dealing/fair use, that
 would only generally apply if it was for &quot;non-commercial&quot; research purposes, whatever that term might mean in different jurisdictions. So researchers (and their librarians) will be understandably cautious and risk-averse regarding TDM, and this, in turn, is
 currently inhibiting the use of TDM techniques.
<div class=""><br class="">
</div>
<div class="">Charles<br class="">
<div class=""><br class="">
</div>
<div class=""><br class="">
Professor Charles Oppenheim
<blockquote style="margin-right:0px; margin-left:15px" class="">----Original message----<br class="">
>From : <a href="mailto:pm286@cam.ac.uk" class="">pm286@cam.ac.uk</a><br class="">
Date : 24/01/2017 - 15:10 (GMT)<br class="">
To : <a href="mailto:goal@eprints.org" class="">goal@eprints.org</a><br class="">
Subject : Re: [GOAL] How much of the content in open repositories is able to meet the definition of open access?<br class="">
<br class="">
<div dir="ltr" class=""><br class="">
<div class="gmail_extra"><br class="">
<div class="gmail_quote">On Tue, Jan 24, 2017 at 2:10 PM, Heather Morrison <span dir="ltr" class="">
&lt;<a href="mailto:Heather.Morrison@uottawa.ca" target="_blank" class="">Heather.Morrison@uottawa.ca</a>&gt;</span> wrote:<br class="">
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex; border-left:1px #ccc solid; padding-left:1ex">
<div style="word-wrap:break-word" class="">
<div class="">Another critique that may be more relevant to this argument: I challenge PMR's contention that it is necessary to limit this kind of research to works that are licensed CC-BY. If you gather data from a great many different tables and analyze it,
 what you will be publishing is your own work.&nbsp;</div>
<div class=""><br class="">
</div>
<div class="">This is no different from doing a great deal of reading and thinking and writing a new work that draws on this knowledge, with appropriate citations to the works that you have read.</div>
<div class=""><br class="">
</div>
<div class="">Copyright is only invoked if you want to actually copy an original table for inclusion in a publication. If you are drawing on data from thousands of tables it is not clear how often this will happen. If what you want to copy is an insubstantial
 amount this would be covered under fair dealing. If the work is free-to-read, whether All Rights Reserved or under an open license, you can point readers to the original. At worst, this is a minor inconvenience.</div>
</div>
</blockquote>
<div class=""><br class="">
</div>
<div class="">This is completely wrong. The problem is that this is a legal issue and copyright law, by default, covers all aspects of copying. Copying material into a machine for the purpose of mining involves copyright. Whether it seems reasonable or fair
 is irrelevant. If you carry out mining then you should be prepared to answer in court.<br class="">
<br class="">
</div>
<div class="">The problem is compounded by:<br class="">
</div>
<div class="">* it is jurisdiction-dependent. Fair-use only exists in certain domains. It is not the same as fair dealing which is generally weaker. What is permissible in the US may not be in UK and vice versa.<br class="">
</div>
<div class="">* It is extremely complex. Guessing the law will not be useful.<br class="">
</div>
<div class="">* Much of the law has not been tested in court. &quot;Non-commercial&quot; is not what you or I would like it to mean. It is what a court finds when I or others are summoned before it.<br class="">
<br class="">
</div>
<div class="">I have been involved in this for over 4 years in the UK and in Europe (Parliament and Commission). There is no consensus on what should be allowed and what will ultimately be decided by the Commission and Member States. I have taken legal opinion
 on some of this and consulted with other experts and the answers are often unclear.<br class="">
</div>
<div class=""><br class="">
</div>
<div class="">The legality of Text and Data Mining is formally unrelated to whether the miner publishes the results or not.<br class="">
<br class="">
</div>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex; border-left:1px #ccc solid; padding-left:1ex">
<div style="word-wrap:break-word" class="">
<div class=""><br class="">
</div>
<div class="">If you prefer to limit your research to works that are CC-BY licensed, it is your right to make this choice. Many other researchers, myself included, work with a wide range of data and do not choose to limit what we gather to works that are licensed
 CC-BY. One example from my own research: if a publisher has a table listing APCs, I screen scrape the table, pop the data into a spreadsheet, and work with it.
</div>
</div>
</blockquote>
<div class=""><br class="">
</div>
<div class="">The primary issue for Text and data Mining is automated analysis of many tables. This is an inconsistency in the law that we are trying to get legislators to change.<br class="">
</div>
<div class="">&nbsp;</div>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex; border-left:1px #ccc solid; padding-left:1ex">
<div style="word-wrap:break-word" class="">
<div class="">Even publishers that use CC-BY for articles usually have All Rights Reserved for pages that contain this type of information.
</div>
</div>
</blockquote>
<div class=""><br class="">
</div>
<div class="">Do you have metrics for this. Because this is incompatible with the licence and should be challenged - as I frequently do.<br class="">
&nbsp;<br class="">
</div>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex; border-left:1px #ccc solid; padding-left:1ex">
<div style="word-wrap:break-word" class="">
<div class="">If I limited myself to data sources that are CC-BY I could not do this kind of research.</div>
</div>
</blockquote>
<div class=""><br class="">
</div>
<div class="">I agree that this is limiting and that is why it would be useful for scientific material to be licensed CC BY.
<br class="">
<br class="">
</div>
<div class="">In summary this is a complex legal question and the answers have to be based on law not guesswork.<br class="">
</div>
<div class="">&nbsp;<br class="">
</div>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex; border-left:1px #ccc solid; padding-left:1ex">
<div style="word-wrap:break-word" class="">
<div class=""><br class="">
</div>
<br clear="all" class="">
</div>
</blockquote>
</div>
<br class="">
-- <br class="">
<div class="gmail_signature">
<div dir="ltr" class="">
<div class="">Peter Murray-Rust<br class="">
Reader Emeritus in Molecular Informatics<br class="">
Unilever Centre, Dept. Of Chemistry<br class="">
University of Cambridge<br class="">
CB2 1EW, UK<br class="">
&#43;44-1223-763069</div>
</div>
</div>
</div>
</div>
<br class="">
</blockquote>
<br class="">
<div class=""><br class="webkit-block-placeholder">
</div>
</div>
</div>
</div>
</div>
</div>
<br class="">
<br class="">
</body>
</html>