/modules/icm-iis-ingest-pmc/trunk/src/main/java/eu/dnetlib/iis/ingest/pmc/citations/CitationExtractorFunction.java - Diff - D-Net - D-Net project tracking tool

« Previous | Next »

Revision 30986

Added by Marek Horst over 9 years ago

#757 fixing pmid and doi matching, fixing sourceDocumentId and destinationDocumentId generation

     package eu.dnetlib.iis.ingest.pmc.citations;
     import static eu.dnetlib.iis.ingest.pmc.citations.Constants.DST_FIELD;
     import static eu.dnetlib.iis.ingest.pmc.citations.Constants.DST_IDS_FIELD;
     import static eu.dnetlib.iis.ingest.pmc.citations.Constants.DST_PMID_FIELD;
     import static eu.dnetlib.iis.ingest.pmc.citations.Constants.DST_DOI_FIELD;
     import static eu.dnetlib.iis.ingest.pmc.citations.Constants.POSITION_FIELD;
     import static eu.dnetlib.iis.ingest.pmc.citations.Constants.RAW_TEXT_FIELD;
     import static eu.dnetlib.iis.ingest.pmc.citations.Constants.SRC_FIELD;
     import cascading.flow.FlowProcess;
     import cascading.operation.BaseOperation;
     import cascading.operation.Function;
-...
     import cascading.tuple.Fields;
     import cascading.tuple.Tuple;
     import static eu.dnetlib.iis.ingest.pmc.citations.Constants.*;
     /**
      * Extracts Resolved citations from an NLM file. Input pipe should contain a field named TEXT_FIELD. Result stream will
      * contain fields SRC_FIELD, POSITION_FIELD, DST_FIELD and DST_IDS_FIELD
      * Extracts Resolved citations from an NLM file.
      * Input pipe should contain a field named TEXT_FIELD and ID_FIELD.
+     *
      * @author Mateusz Fedoryszak (m.fedoryszak@icm.edu.pl)
      */
     public class CitationExtractorFunction extends BaseOperation implements Function {
         private final static Fields fields =
                 new Fields(SRC_FIELD, POSITION_FIELD, RAW_TEXT_FIELD, DST_FIELD, DST_IDS_FIELD);
         //private final Logger logger = Logger.getLogger(CitationExtractorFunction.class);
                 new Fields(SRC_FIELD, POSITION_FIELD, RAW_TEXT_FIELD,
                 		DST_FIELD, DST_IDS_FIELD, DST_DOI_FIELD, DST_PMID_FIELD);
         public  CitationExtractorFunction() {
             super(2, fields);
-...
         @Override
         public void operate(FlowProcess flowProcess, FunctionCall functionCall) {
             String text = functionCall.getArguments().getString(Constants.TEXT_FIELD);
             String oaId = functionCall.getArguments().getString(Constants.ID_FIELD);
             try {
                 for (ResolvedCitation cit : ResolvedCitation.extractFromNlm(text)) {
                 for (ResolvedCitation cit : ResolvedCitation.extractFromNlm(oaId, text)) {
                     Tuple result = new Tuple();
                     result.addString(cit.getSourceOaid());
                     result.addInteger(cit.getPosition());
                     result.addString(cit.getRawText());
                     result.addString(cit.getTargetOaid());
                     result.addString(null);
                     result.addString(cit.getTargetIdsJson());
                     result.addString(cit.getTargetDoi());
                     result.addString(cit.getTargetPmid());
                     functionCall.getOutputCollector().add(result);
+                }
             } catch (Exception e) {
                 //in case of parse exception
                 //logger.error("Error while parsing NLM\n"+text, e);
             	throw new RuntimeException(e);
+            }
+        }
+    }

Also available in: Unified diff

Project

General

Profile

D-Net

Revision 30986

Added by Marek Horst over 9 years ago