<div dir="ltr"><div><div><div>I agree with what Bjoern and Mark have said. We have the imperative to develop a new set of tools and most is in place. <br><br></div>For my part I am launching &quot;the Content Mine&quot; over these current days. The goal is simple - to extract 100,000,000 million facts from the scholarly scientific literature. See<br>
<br><a href="https://vimeo.com/78353557">https://vimeo.com/78353557</a> (5 minutes video). <br><a href="http://www.slideshare.net/petermurrayrust/the-content-mine-presented-at-uksg">http://www.slideshare.net/petermurrayrust/the-content-mine-presented-at-uksg</a><br>
<br></div>and innumerable current blogs on <br><a href="http://blogs.ch.cam.ac.uk/pmr/">http://blogs.ch.cam.ac.uk/pmr/</a><br><br></div>I would very much welcome help. I have been offered some from outside academia - it would be nice to have some academics who also believed in liberation.<br>
<br><div><div>This is not vapourware. I demo&#39;ed this at OKFN/Open Science in Oxford last Wednesday. I am starting with &quot;Open Access&quot; papers, such as PLoSONE and when tested there will move to other outlets. These papers can be queried for a wide range of scientific facts such as species (where we start), chemicals, sequences, geolocations, identifiers, phylogenetic trees, etc.  We have means of publishing this and means of capturing it. Everything - code, protocols, extractions, stores, etc. are fully Open (OKD compliant).<br>
<br></div><div>This has the potential to act as a semantic current-awareness system and also as a scientific search engine. At present there is no Open search engine for science, except Wikipedia. As Bjoern and Mark have made clear we must create one - and rapidly. Else we shall remain completely reliant on the charity of mega-corporations - do we trust them?<br>
<br></div><div>I have applied for a personal grant to work on this. I will be delighted to work with any others outside or inside academia - all my software is Open for anyone to re-use without my permission. Only by making science immediately Open (OKD-compliant) at the time it is published do we have Open Access in the true (BOAI) sense of the word.<br>
<br><br></div><div><br><br></div><div><br><br></div></div></div><div class="gmail_extra"><br><br><div class="gmail_quote">On Sun, Dec 1, 2013 at 2:27 PM, Bjoern Brembs <span dir="ltr">&lt;<a href="mailto:b.brembs@gmail.com" target="_blank">b.brembs@gmail.com</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="im">On Saturday, November 30, 2013, 12:30:54 AM, you wrote:<br>
<br>
&gt; The technology to do all of this already exists. Most of<br>
&gt; the STEM metadata you describe is actually directly<br>
&gt; available in Medline, and the core parts can be used as<br>
&gt; per the open biblio principles. Crawling the websites is<br>
&gt; already possible using pubcrawler and other tools, and<br>
&gt; finding out what their stated licence status is can be<br>
&gt; done with howopenisit (although more often than not the<br>
&gt; answer is &quot;not properly defined&quot;).<br>
<br>
</div>Precisely!!<br>
<div class="im"><br>
&gt; However the hard part is not building or running these<br>
&gt; things or collecting all the data, but sustaining it in<br>
&gt; and imbuing it with credibility.<br>
<br>
</div>Totally agreed!<br>
<div class="im"><br>
&gt; For example I can run a server with all this on it at not<br>
&gt; too much personal expense, but who would treat it as a<br>
&gt; serious source? Scaling up to handle a large amount of<br>
&gt; users and providing a good service does cost money, which<br>
&gt; I (we) could probably find a way to fund - but even then,<br>
&gt; we still have to solve that credibility problem. It has to<br>
&gt; be known by those in or entering the field that &quot;this is<br>
&gt; where you go to find this stuff&quot; - as opposed to the<br>
&gt; current &quot;go to the library and follow all the rules&quot; approach.<br>
<br>
</div>What we should be able to do right now (and for some of that we&#39;re applying for grants as I type this), is to start building the infrastructure for software and data. This will provide the opportunity to develop standards for how to make the databases for text (repositories), data and software interoperable.<br>

<br>
Simultaneously, these standards need t be communicated and adopted by a critical mass of institutions.<br>
<br>
But perhaps most importantly, the institutions participating in crawling and harvesting all our literature need to develop a way of searching, filtering and sorting not only the existing literature, but especially the incoming, new literature in a way that is superior to what we have now. Given that there isn&#39;t really a single place where you can exhaustively search the literature, the first part should be easy (existing literature).<br>

<br>
For the second part, (incoming, newly published literature), we&#39;re currently in the process of developing an RSS reader which is tailor-made for scientists.<br>
<br>
Thus, if there is a superior way to handle the literature, that outcompetes everything we have right now (again, not too difficult), people will go there, simple because they save time and effort that way.<br>
<br>
The next step will be an authoring tool that allows collaborative writing with scientific referencing and peer-review. there are currently several initiatives developing that environment. Once this is running, submission will be as simple as hitting &#39;submit&#39;. Everybody who has ever submitted to a journal knows how people will flock to a service that allows submission with a single click.<br>

<br>
Thus, I agree, this will be the important part, but offering a superior way should do most of the work - just look at how quickly GScholar was accepted.<br>
<div class="HOEnZb"><div class="h5"><br>
Cheers,<br>
<br>
<br>
Bjoern<br>
<br>
<br>
<br>
<br>
<br>
--<br>
Björn Brembs<br>
---------------------------------------------<br>
<a href="http://brembs.net" target="_blank">http://brembs.net</a><br>
Neurogenetics<br>
Universität Regensburg<br>
Germany<br>
<br>
_______________________________________________<br>
open-access mailing list<br>
<a href="mailto:open-access@lists.okfn.org">open-access@lists.okfn.org</a><br>
<a href="http://lists.okfn.org/mailman/listinfo/open-access" target="_blank">http://lists.okfn.org/mailman/listinfo/open-access</a><br>
Unsubscribe: <a href="http://lists.okfn.org/mailman/options/open-access" target="_blank">http://lists.okfn.org/mailman/options/open-access</a><br>
</div></div></blockquote></div><br><br clear="all"><br>-- <br>Peter Murray-Rust<br>Reader in Molecular Informatics<br>Unilever Centre, Dep. Of Chemistry<br>University of Cambridge<br>CB2 1EW, UK<br>+44-1223-763069
</div>