<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<meta name="Generator" content="Microsoft Word 15 (filtered medium)">
<style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0cm;
        margin-bottom:.0001pt;
        font-size:12.0pt;
        font-family:"Calibri",sans-serif;
        mso-fareast-language:EN-US;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:#0563C1;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:#954F72;
        text-decoration:underline;}
p.msonormal0, li.msonormal0, div.msonormal0
        {mso-style-name:msonormal;
        mso-margin-top-alt:auto;
        margin-right:0cm;
        mso-margin-bottom-alt:auto;
        margin-left:0cm;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;}
p.xmsonormal, li.xmsonormal, div.xmsonormal
        {mso-style-name:x_msonormal;
        mso-margin-top-alt:auto;
        margin-right:0cm;
        mso-margin-bottom-alt:auto;
        margin-left:0cm;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;}
span.EmailStyle19
        {mso-style-type:personal;
        font-family:"Calibri",sans-serif;
        color:windowtext;}
span.EmailStyle20
        {mso-style-type:personal-reply;
        font-family:"Calibri",sans-serif;
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-size:10.0pt;}
@page WordSection1
        {size:612.0pt 792.0pt;
        margin:72.0pt 72.0pt 72.0pt 72.0pt;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]-->
</head>
<body lang="EN-GB" link="#0563C1" vlink="#954F72">
<div class="WordSection1">
<p class="MsoNormal"><span style="font-size:11.0pt">***apologies if you receive this more than once***<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt"><o:p>&nbsp;</o:p></span></p>
<p class="xmsonormal" style="margin:0cm;margin-bottom:.0001pt;background:white"><span style="color:#201F1E">The Turing’s Defence &amp; Security programme would like to request expressions of interest for a 3-6 month project on Cross-Lingual Information Retrieval,
 with a budget of £50-60k. Initially </span>they are<span style="color:#201F1E"> looking for names of interested individuals, and a short profile on their suitability for the project.<o:p></o:p></span></p>
<p class="xmsonormal" style="margin:0cm;margin-bottom:.0001pt;background:white"><span style="color:#201F1E"><o:p>&nbsp;</o:p></span></p>
<p class="xmsonormal" style="margin:0cm;margin-bottom:.0001pt;background:white"><span style="color:#201F1E">Please see the statement of requirement below:<o:p></o:p></span></p>
<p class="xmsonormal" style="background:white"><span style="color:#201F1E">========<o:p></o:p></span></p>
<p class="xmsonormal" style="background:white"><span style="color:#201F1E">There is a strong requirement within defence and national security to triage large volumes of documents or other textual content in a range of languages. Typical techniques include either
 human-dependent approaches such as foreign language analysts (FLAs), or technology approaches such as bulk machine translation and key word searching (such as CLASE, developed by the MIT Lincoln Laboratory's Human Language Technology Group for the FBI). However,
 both of these methods have setbacks:<o:p></o:p></span></p>
<p class="xmsonormal" style="background:white"><span style="color:#201F1E">1. FLAs are rare and spread thinly, especially those with expertise in either low-resource or high-demand languages.<o:p></o:p></span></p>
<p class="xmsonormal" style="background:white"><span style="color:#201F1E">2. Despite large amounts of research, machine translation is still far from perfect, and if a single important word is mistranslated, this will not be found using keyword searching.<o:p></o:p></span></p>
<p class="xmsonormal" style="background:white"><span style="color:#201F1E">An alternate approach to this problem is to view the task as 'Cross Language Information Retrieval' (CLIR) rather than 'machine translation'. In this way, performance can be more usefully
 measured in terms of retrieval of documents of interest, rather than harder to quantify BLEU scores. A fairly novel approach to CLIR is to learn a multilingual embedding space into which documents can be projected, and carry out tasks such as classification,
 named entity recognition (NER), and sentiment analysis. All of these tasks help towards retrieving documents of interest in multiple languages.<o:p></o:p></span></p>
<p class="xmsonormal" style="background:white"><span style="color:#201F1E">One such approach, Multilingual BERT, has shown strong results for machine translation tasks, but its performance on CLIR hasn't been assessed in detail. It is proposed that a piece
 of work is undertaken with the following broad research aims:<o:p></o:p></span></p>
<p class="xmsonormal" style="background:white"><span style="color:#201F1E">1. Devise a suitable metric for determining the performance of a CLIR system<o:p></o:p></span></p>
<p class="xmsonormal" style="background:white"><span style="color:#201F1E">2. Create or source a representative corpus of multilingual test data<o:p></o:p></span></p>
<p class="xmsonormal" style="background:white"><span style="color:#201F1E">3. Explore techniques for finding documents of interest in foreign language corpora, such as multilingual document classification, topic detection, NER, and emotion detection<o:p></o:p></span></p>
<p class="xmsonormal" style="background:white"><span style="color:#201F1E">4. Create a performant CLIR system able to take English language queries as input, and find documents of interest in many languages, to include, but not limited to, Arabic, Mandarin,
 Russian, and Farsi.<o:p></o:p></span></p>
<p class="xmsonormal" style="background:white"><span style="color:#201F1E">The impact of such a system would be as follows:<o:p></o:p></span></p>
<p class="xmsonormal" style="background:white"><span style="color:#201F1E">1. English language analysts can begin to triage large foreign language corpora, increasing the volume of data that can be analysed<o:p></o:p></span></p>
<p class="xmsonormal" style="background:white"><span style="color:#201F1E">2. Scarce FLA resource can be better prioritised towards documents which are more likely to contain information of interest.<o:p></o:p></span></p>
<p class="xmsonormal" style="margin:0cm;margin-bottom:.0001pt;background:white"><span style="color:#201F1E">=======</span><o:p></o:p></p>
<div>
<p class="MsoNormal"><span style="font-size:11.0pt;mso-fareast-language:EN-GB">_____________________________________________<o:p></o:p></span></p>
<p class="MsoNormal"><b><span style="font-size:11.0pt;mso-fareast-language:EN-GB">Susan Davies<o:p></o:p></span></b></p>
<p class="MsoNormal"><span style="font-size:11.0pt;mso-fareast-language:EN-GB">Coordination Manager,
<a href="https://www.southampton.ac.uk/wsi/index.page?"><span style="color:#0563C1">Web Science Institute</span></a><o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;mso-fareast-language:EN-GB">University Liaison Manager,
<a href="https://www.southampton.ac.uk/wsi/alan-turing-institute/alan-turing-institute.page">
<span style="color:#0563C1">The Alan Turing Institute</span></a><o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;mso-fareast-language:EN-GB">Room 3041, Building 32<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;mso-fareast-language:EN-GB">Web Science Institute<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;mso-fareast-language:EN-GB">University of Southampton<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;mso-fareast-language:EN-GB">Southampton SO17 1BJ<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;mso-fareast-language:EN-GB"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;mso-fareast-language:EN-GB">023 8059 3523 | 07768 266464<o:p></o:p></span></p>
</div>
<p class="MsoNormal"><span style="font-size:11.0pt"><o:p>&nbsp;</o:p></span></p>
<p class="xmsonormal" style="margin:0cm;margin-bottom:.0001pt;background:white"><span style="color:#201F1E"><o:p>&nbsp;</o:p></span></p>
</div>
</body>
</html>