Hi Luc,<BR>We have just&nbsp;released the provenance algebra work as a Microsoft&nbsp;technical report:<BR><A href="http://research.microsoft.com/research/pubs/view.aspx?type=Technical%20Report&amp;id=1587">http://research.microsoft.com/research/pubs/view.aspx?type=Technical%20Report&amp;id=1587</A><BR>&nbsp;<BR>The slides from Rogers presentation at the provenance in workflows workshop at Utah are available for download at: <A href="http://knoesis.wright.edu/library/presentations/BargaProvenanceWorkshop.pptx">http://knoesis.wright.edu/library/presentations/BargaProvenanceWorkshop.pptx</A><BR>&nbsp;<BR>Hope this helps.<BR>&nbsp;<BR>Best,<BR>Satya<BR><BR>----- Original Message -----<BR>From: Luc Moreau &lt;L.Moreau@ecs.soton.ac.uk&gt;<BR>Date: Wednesday, November 26, 2008 9:47 am<BR>Subject: Re: [provenance-challenge] Re: review of workflows for pc3<BR>To: "provenance-challenge@ipaw.info" &lt;provenance-challenge@ipaw.info&gt;<BR>Cc: Paul Groth &lt;pgroth@ISI.EDU&gt;, Satya Sahoo &lt;sahoo.2@wright.edu&gt;<BR><BR>&gt; Thanks Yogesh.&nbsp; Is there some slides or papers about <BR>&gt; Roger's work?<BR>&gt; <BR>&gt; &nbsp;From a challenge view point, it would be useful to <BR>&gt; characterise the <BR>&gt; type of provenance we would ideally like<BR>&gt; to capture within the database. It seems that a layered model is <BR>&gt; particularly appropriate here: the activity level<BR>&gt; description could constitute an OPM account, whereas a more fine-<BR>&gt; grained <BR>&gt; provenance (with the database sense) could<BR>&gt; form another account.<BR>&gt; <BR>&gt; Luc<BR>&gt; <BR>&gt; <BR>&gt; Yogesh Simmhan wrote:<BR>&gt; &gt; Hi Luc,<BR>&gt; &gt;<BR>&gt; &gt; In the current system, we work around having to instrument the <BR>&gt; DB by having individual SQL queries wrapped as C# activities. <BR>&gt; The activities pass through the input params to the <BR>&gt; parameterized SQL queries. Provenance is captured at the <BR>&gt; activity level. We also capture the actual queries and query <BR>&gt; plans from MSSQL server, but don't integrate it with the <BR>&gt; provenance yet.<BR>&gt; &gt;<BR>&gt; &gt; Roger B. is working on a design and prototype for a more DB <BR>&gt; centric and semantic approach using materialized views and first <BR>&gt; class provenance operators. His presentation at the recent <BR>&gt; provenance in workflows workshop at Utah talked about it <BR>&gt; (http://wiki.esi.ac.uk/ProvenanceInWorkflows).&gt;<BR>&gt; &gt; Best,<BR>&gt; &gt; --Yogesh<BR>&gt; &gt;<BR>&gt; &gt;<BR>&gt; &gt; | -----Original Message-----<BR>&gt; &gt; | From: provenance-challenge-ipaw-info-bounces@ipaw.info<BR>&gt; &gt; | [mailto:provenance-challenge-ipaw-info-bounces@ipaw.info] On <BR>&gt; Behalf Of<BR>&gt; &gt; | Luc Moreau<BR>&gt; &gt; | Sent: Wednesday, November 26, 2008 4:02 AM<BR>&gt; &gt; | To: provenance-challenge@ipaw.info; Paul Groth<BR>&gt; &gt; | Cc: Satya Sahoo<BR>&gt; &gt; | Subject: [provenance-challenge] Re: review of workflows for pc3<BR>&gt; &gt; |<BR>&gt; &gt; | Yogesh,<BR>&gt; &gt; |<BR>&gt; &gt; | There is however an interesting technical challenge (probably<BR>&gt; &gt; | appropriate for a provenance challenge!).<BR>&gt; &gt; | If we intend to export provenance information into the OPM <BR>&gt; format, we<BR>&gt; &gt; | probably need<BR>&gt; &gt; | to capture this information (in part) inside the database <BR>&gt; processing&gt; | SQL<BR>&gt; &gt; | queries.<BR>&gt; &gt; | Are you already doing this in your system?<BR>&gt; &gt; |<BR>&gt; &gt; | This presents us with an opportunity to have contributions <BR>&gt; from members<BR>&gt; &gt; | of the database community.<BR>&gt; &gt; | Who is on this list at this moment? (James? Peter? Val? <BR>&gt; Jan?&nbsp; Natalia?)<BR>&gt; &gt; |<BR>&gt; &gt; | This will require us to structure the workflow in different <BR>&gt; "stages"&gt; | where different technologies (including databases)<BR>&gt; &gt; | are involved.<BR>&gt; &gt; |<BR>&gt; &gt; | Can you comment on this?<BR>&gt; &gt; |<BR>&gt; &gt; | Cheers,<BR>&gt; &gt; | Luc<BR>&gt; &gt; |<BR>&gt; &gt; | Yogesh Simmhan wrote:<BR>&gt; &gt; | &gt; Hi Paul,<BR>&gt; &gt; | &gt;<BR>&gt; &gt; | &gt; Thanks for your comments. Regarding the ease of <BR>&gt; portability of the<BR>&gt; &gt; | Pan-STARRS Load/Merge workflow, all our activities are <BR>&gt; either SQL<BR>&gt; &gt; | queries and updates, or file system operations. While our current<BR>&gt; &gt; | executables are for MSSQL/C#, the SQL activities are simple <BR>&gt; enough to<BR>&gt; &gt; | port to any relational DBMS (MySQL, Apache Derby, ...) and <BR>&gt; programming&gt; | language. The main workflows operate on 3 <BR>&gt; relational tables with about<BR>&gt; &gt; | 50 columns.<BR>&gt; &gt; | &gt;<BR>&gt; &gt; | &gt; If selected, we can provide Java source code using Derby, <BR>&gt; in addition<BR>&gt; &gt; | to the C# version using MSSQL. We'll also provide textual <BR>&gt; descriptions&gt; | of the activities to enable them to be ported to <BR>&gt; other DB/languages.<BR>&gt; &gt; | &gt;<BR>&gt; &gt; | &gt; While the typical Pan-STARRS workflows operate on large <BR>&gt; datasets,&gt; | there is nothing that prevents the challenge <BR>&gt; workflows from operating<BR>&gt; &gt; | on a subset of those. Indeed, we use small CSV files and databases<BR>&gt; &gt; | (&lt;1MB) for our own testing that we can provide for the <BR>&gt; challenge.&gt; | &gt;<BR>&gt; &gt; | &gt; Metadata about the telescope is not part of the normal workflow<BR>&gt; &gt; | pipeline, but we can consider incorporating supplementary <BR>&gt; annotations&gt; | about the telescope outside the scope of the <BR>&gt; workflow to see how the<BR>&gt; &gt; | provenance systems embed annotations in OPM and handle annotation<BR>&gt; &gt; | queries.<BR>&gt; &gt; | &gt;<BR>&gt; &gt; | &gt; Best,<BR>&gt; &gt; | &gt; --Yogesh<BR>&gt; &gt; | &gt;<BR>&gt; &gt; | &gt;<BR>&gt; &gt; | &gt; |<BR>&gt; &gt; | &gt; | pgroth@ISI.EDU wrote:<BR>&gt; &gt; | &gt; | &gt; Hi,<BR>&gt; &gt; | &gt; | &gt;<BR>&gt; &gt; | &gt; | &gt; To kick start our discussion about what workflows <BR>&gt; should be used<BR>&gt; &gt; | for<BR>&gt; &gt; | &gt; | the third<BR>&gt; &gt; | &gt; | &gt; provenance challenge, below are my thoughts on which <BR>&gt; would be<BR>&gt; &gt; | most<BR>&gt; &gt; | &gt; | appropriate<BR>&gt; &gt; | &gt; | &gt; and some questions to the authors. First, let me say <BR>&gt; that I<BR>&gt; &gt; | thought<BR>&gt; &gt; | &gt; | all the<BR>&gt; &gt; | &gt; | &gt; workflows would provide a good basis for an <BR>&gt; interesting challenge<BR>&gt; &gt; | but<BR>&gt; &gt; | &gt; | to be<BR>&gt; &gt; | &gt; | &gt; decisive I'm selected two.<BR>&gt; &gt; | &gt; | &gt;<BR>&gt; &gt; | &gt; | &gt; The two selection criteria I used were the complexity <BR>&gt; of the<BR>&gt; &gt; | &gt; | structures within<BR>&gt; &gt; | &gt; | &gt; the workflows (i.e. did it have loops, hierarchies, <BR>&gt; collections,&gt; | etc.)<BR>&gt; &gt; | &gt; | and how<BR>&gt; &gt; | &gt; | &gt; easy it would be for other teams to get the workflows <BR>&gt; up and<BR>&gt; &gt; | running.<BR>&gt; &gt; | &gt; | I believe<BR>&gt; &gt; | &gt; | &gt; given the complex control structures in some of these <BR>&gt; workflows&gt; | that<BR>&gt; &gt; | &gt; | it would<BR>&gt; &gt; | &gt; | &gt; be difficult to provide intermediary data sets and <BR>&gt; thus teams<BR>&gt; &gt; | would<BR>&gt; &gt; | &gt; | need to<BR>&gt; &gt; | &gt; | &gt; execute the workflows themselves unlike previous <BR>&gt; challenges where<BR>&gt; &gt; | &gt; | dummy<BR>&gt; &gt; | &gt; | &gt; components could be used.<BR>&gt; &gt; | &gt; | &gt;<BR>&gt; &gt; | &gt; | &gt; 1. Build and test workflow<BR>&gt; &gt; | &gt; | &gt; In terms of being able to execute the workflows, the <BR>&gt; Software&gt; | build<BR>&gt; &gt; | &gt; | and testing<BR>&gt; &gt; | &gt; | &gt; workflow seems by far the easiest to get up and <BR>&gt; running. Most<BR>&gt; &gt; | systems<BR>&gt; &gt; | &gt; | have ant<BR>&gt; &gt; | &gt; | &gt; and java and the build file can be easily adapted to use<BR>&gt; &gt; | Makefiles.<BR>&gt; &gt; | &gt; | Likewise,<BR>&gt; &gt; | &gt; | &gt; the ant file has a multi-level hierarchy, which is an <BR>&gt; interesting&gt; | &gt; | structure.<BR>&gt; &gt; | &gt; | &gt; The downside to the workflow is it's lack of <BR>&gt; complexity, it does<BR>&gt; &gt; | not<BR>&gt; &gt; | &gt; | have<BR>&gt; &gt; | &gt; | &gt; collections or nested data sets. However, I think the <BR>&gt; workflow&gt; | would<BR>&gt; &gt; | &gt; | make for a<BR>&gt; &gt; | &gt; | &gt; simple starting point for testing interoperability <BR>&gt; before moving<BR>&gt; &gt; | on<BR>&gt; &gt; | &gt; | to the more<BR>&gt; &gt; | &gt; | &gt; complex second workflow. Furthermore, by using an ant <BR>&gt; file the<BR>&gt; &gt; | &gt; | challenge does<BR>&gt; &gt; | &gt; | &gt; not become too workflow specific.<BR>&gt; &gt; | &gt; | &gt;<BR>&gt; &gt; | &gt; | &gt; 2. MSR-WSU Pan-Starrs workflow<BR>&gt; &gt; | &gt; | &gt; My first choice for second workflow is the MSR-WSU, <BR>&gt; Panstarrs&gt; | &gt; | workflow. It has a<BR>&gt; &gt; | &gt; | &gt; number of interesting workflow structures such as <BR>&gt; if/else as well<BR>&gt; &gt; | as<BR>&gt; &gt; | &gt; | loops over<BR>&gt; &gt; | &gt; | &gt; collections. I also like the the idea of having <BR>&gt; multiple levels<BR>&gt; &gt; | of<BR>&gt; &gt; | &gt; | abstraction<BR>&gt; &gt; | &gt; | &gt; around database tables. It would be interesting to ask <BR>&gt; for the<BR>&gt; &gt; | &gt; | provenance of an<BR>&gt; &gt; | &gt; | &gt; individual items in a table and retrieve all the <BR>&gt; modifications on<BR>&gt; &gt; | &gt; | each table<BR>&gt; &gt; | &gt; | &gt; including modifications to individual items. The <BR>&gt; explicit use of<BR>&gt; &gt; | &gt; | database<BR>&gt; &gt; | &gt; | &gt; tables might also encourage the database community to get<BR>&gt; &gt; | involved<BR>&gt; &gt; | &gt; | with the<BR>&gt; &gt; | &gt; | &gt; challenge. What do others think on this issue?<BR>&gt; &gt; | &gt; | &gt;<BR>&gt; &gt; | &gt; | &gt; I'm wondering if the questions about external details <BR>&gt; from the<BR>&gt; &gt; | &gt; | Neptune workflow<BR>&gt; &gt; | &gt; | &gt; (e.g. the types of sensor detail) could be <BR>&gt; incorporated in the<BR>&gt; &gt; | &gt; | Panstars<BR>&gt; &gt; | &gt; | &gt; workflow? For example, the telescope which the data <BR>&gt; was collected<BR>&gt; &gt; | &gt; | from?<BR>&gt; &gt; | &gt; | &gt;<BR>&gt; &gt; | &gt; | &gt; The major reservation I have with this workflow is how <BR>&gt; easy it<BR>&gt; &gt; | would<BR>&gt; &gt; | &gt; | be for<BR>&gt; &gt; | &gt; | &gt; others to execute. Given the Pan-STARRS workflow is <BR>&gt; designed to<BR>&gt; &gt; | work<BR>&gt; &gt; | &gt; | with large<BR>&gt; &gt; | &gt; | &gt; data, can the MSR team comment on whether small data <BR>&gt; sets are<BR>&gt; &gt; | &gt; | available? Also,<BR>&gt; &gt; | &gt; | &gt; given that the implementation requires .Net, how easy <BR>&gt; could this<BR>&gt; &gt; | be<BR>&gt; &gt; | &gt; | run on<BR>&gt; &gt; | &gt; | &gt; non-windows machines? Are there non-windows <BR>&gt; executables available?<BR>&gt; &gt; | &gt; | &gt;<BR>&gt; &gt; | &gt; | &gt; * myExperiment &amp; Brain Imaging Workflows<BR>&gt; &gt; | &gt; | &gt; If the Panstarrs workflow can not be executed by <BR>&gt; different teams<BR>&gt; &gt; | &gt; | easily, I think<BR>&gt; &gt; | &gt; | &gt; we should look at selecting one of these options. Can <BR>&gt; these two<BR>&gt; &gt; | teams<BR>&gt; &gt; | &gt; | comment<BR>&gt; &gt; | &gt; | &gt; on how easy it would be for others to use the <BR>&gt; components within<BR>&gt; &gt; | their<BR>&gt; &gt; | &gt; | workflows<BR>&gt; &gt; | &gt; | &gt; without invoking their particular workflow enactment <BR>&gt; engines?&gt; | &gt; | &gt;<BR>&gt; &gt; | &gt; | &gt; I did like the dynamic nature of the Taverna workflow <BR>&gt; as it makes<BR>&gt; &gt; | for<BR>&gt; &gt; | &gt; | a good<BR>&gt; &gt; | &gt; | &gt; case for provenance (e.g. the abstracts returned from <BR>&gt; PubMed will<BR>&gt; &gt; | &gt; | vary over<BR>&gt; &gt; | &gt; | &gt; time) Could we incorporate this into our selections?<BR>&gt; &gt; | &gt; | &gt;<BR>&gt; &gt; | &gt; | &gt; With that, what do you think?<BR>&gt; &gt; | &gt; | &gt;<BR>&gt; &gt; | &gt; | &gt; Thanks,<BR>&gt; &gt; | &gt; | &gt; Paul<BR>&gt; &gt; | &gt; | &gt;<BR>&gt; &gt; | &gt; | &gt; -------------------------------------------------------<BR>&gt; -------<BR>&gt; &gt; | &gt; | &gt; Paul Groth, Ph.D.<BR>&gt; &gt; | &gt; | &gt; Postdoctoral Research Associate<BR>&gt; &gt; | &gt; | &gt; Information Sciences Institute<BR>&gt; &gt; | &gt; | &gt; University of Southern California<BR>&gt; &gt; | &gt; | &gt; pgroth@isi.edu<BR>&gt; &gt; | &gt; | &gt; Tel:&nbsp; 310 448 8482&nbsp; Fax: 310 822 0751<BR>&gt; &gt; | &gt; | &gt; http://www.isi.edu/~pgroth/<BR>&gt; &gt; | &gt; | &gt; http://thinklinks.wordpress.org<BR>&gt; &gt; | &gt; | &gt;<BR>&gt; &gt; | &gt; | &gt;<BR>&gt; &gt; | &gt; | &gt;<BR>&gt; &gt; | &gt; | &gt;<BR>&gt; &gt; | &gt; | &gt;<BR>&gt; &gt; | &gt; |<BR>&gt; &gt; | &gt; |<BR>&gt; &gt; | &gt; | --<BR>&gt; &gt; | &gt; | Professor Luc <BR>&gt; Moreau&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; tel:&nbsp;&nbsp; +44 23 8059 4487<BR>&gt; &gt; | &gt; | Electronics and Computer Science&nbsp;&nbsp; email: <BR>&gt; l.moreau@ecs.soton.ac.uk&gt; | &gt; | University of <BR>&gt; Southampton&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; www:&nbsp;&nbsp; www.ecs.soton.ac.uk/~lavm<BR>&gt; &gt; | &gt; | Southampton SO17 <BR>&gt; 1BJ&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; skype: prof.luc.moreau<BR>&gt; &gt; | &gt; | United <BR>&gt; Kingdom&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; fring: Luc<BR>&gt; &gt; | &gt; |<BR>&gt; &gt; | &gt; |<BR>&gt; &gt; | &gt; |<BR>&gt; &gt; | &gt;<BR>&gt; &gt; | &gt;<BR>&gt; &gt; | &gt;<BR>&gt; &gt; |<BR>&gt; &gt; |<BR>&gt; &gt; | --<BR>&gt; &gt; | Professor Luc <BR>&gt; Moreau&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; tel:&nbsp;&nbsp; +44 23 8059 4487<BR>&gt; &gt; | Electronics and Computer Science&nbsp;&nbsp; email: <BR>&gt; l.moreau@ecs.soton.ac.uk&gt; | University of <BR>&gt; Southampton&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; www:&nbsp;&nbsp; www.ecs.soton.ac.uk/~lavm<BR>&gt; &gt; | Southampton SO17 <BR>&gt; 1BJ&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; skype: prof.luc.moreau<BR>&gt; &gt; | United <BR>&gt; Kingdom&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; fring: Luc<BR>&gt; &gt; |<BR>&gt; &gt; |<BR>&gt; &gt; |<BR>&gt; &gt;<BR>&gt; &gt;<BR>&gt; &gt;&nbsp;&nbsp; <BR>&gt; <BR>&gt; <BR>&gt; -- <BR>&gt; Professor Luc <BR>&gt; Moreau&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; tel:&nbsp;&nbsp; +44 23 8059 4487&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <BR>&gt; Electronics and Computer Science&nbsp;&nbsp; email: <BR>&gt; l.moreau@ecs.soton.ac.ukUniversity of <BR>&gt; Southampton&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; www:&nbsp;&nbsp; www.ecs.soton.ac.uk/~lavm<BR>&gt; Southampton SO17 <BR>&gt; 1BJ&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; skype: prof.luc.moreau<BR>&gt; United <BR>&gt; Kingdom&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; fring: Luc<BR>&gt; &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <BR>&gt; &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <BR>&gt; <BR>