/modules/dnet-openaire-lodexport-wf/src/main/resources/eu/dnetlib/iis/core/javamapreduce/lodexport/oozie_app/workflow.xml - D-Net - D-Net project tracking tool

dnet40/modules/dnet-openaire-lodexport-wf/src/main/resources/eu/dnetlib/iis/core/javamapreduce/lodexport/oozie_app/workflow.xml @ 40734

       <workflow-app name="lod_csv_export" xmlns="uri:oozie:workflow:0.4">
           <!-- map reduce job that exports hbase data and prepares them for import to the lod_generation -->
           <global>
               <job-tracker>${jobTracker}</job-tracker>
               <name-node>${nameNode}</name-node>
               <configuration>
                   <property>
                       <name>mapred.job.queue.name</name>
                       <value>${queueName}</value>
                   </property>
                   <property>
                       <name>oozie.sqoop.log.level</name>
                       <value>DEBUG</value>
                   </property>
               </configuration>
           </global>
           <start to='rdf_import'/>
           <action name="csv_export">
               <map-reduce>
                   <prepare>
                       <delete path="${nameNode}${lod_output}"/>
                   </prepare>
                   <configuration>
                       <property>
                           <name>hbase.mapreduce.scan</name>
                           <value>${wf:actionData('get-scanner')['scan']}</value>
                       </property>
                       <property>
                           <name>hbase.rootdir</name>
                           <value>$nameNode/hbase</value>
                       </property>
                       <property>
                           <name>hbase.security.authentication</name>
                           <value>simple</value>
                       </property>
                       <!-- ZOOKEEPER -->
                       <property>
                           <name>hbase.zookeeper.quorum</name>
                           <value>
                               namenode1.hadoop.dm.openaire.eu,namenode2.hadoop.dm.openaire.eu,jobtracker1.hadoop.dm.openaire.eu,jobtracker2.hadoop.dm.openaire.eu,hbase-master1.hadoop.dm.openaire.eu
                           </value>
                           <!-- <value>quorum1.t.hadoop.research-infrastructures.eu,quorum2.t.hadoop.research-infrastructures.eu,quorum3.t.hadoop.research-infrastructures.eu,quorum4.t.hadoop.research-infrastructures.eu,jobtracker.t.hadoop.research-infrastructures.eu
                            </value>-->
                       </property>
                       <property>
                           <name>zookeeper.znode.rootserver</name>
                           <value>root-region-server</value>
                       </property>
                       <property>
                           <name>hbase.zookeeper.property.clientPort</name>
                           <value>2181</value>
                           <!--<value>2182</value> -->
                       </property>
                       <!-- MR IO -->
                       <property>
                           <name>mapreduce.inputformat.class</name>
                           <value>org.apache.hadoop.hbase.mapreduce.TableInputFormat</value>
                       </property>
                       <property>
                           <name>mapred.mapoutput.key.class</name>
                           <value>org.apache.hadoop.io.Text</value>
                       </property>
                       <property>
                           <name>mapred.mapoutput.value.class</name>
                           <value>org.apache.hadoop.hbase.io.ImmutableBytesWritable</value>
                       </property>
                       <property>
                           <name>mapred.output.key.class</name>
                           <value>org.apache.hadoop.io.Text</value>
                       </property>
                       <property>
                           <name>mapred.output.value.class</name>
                           <value>org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat</value>
                       </property>
                       <!-- ## This is required for new MapReduce API usage -->
                       <property>
                           <name>mapred.mapper.new-api</name>
                           <value>true</value>
                       </property>
                       <property>
                           <name>mapred.reducer.new-api</name>
                           <value>true</value>
                       </property>
                       <!-- # Job-specific options -->
                       <property>
                           <name>dfs.blocksize</name>
                           <value>32M</value>
                       </property>
                       <property>
                           <name>mapred.output.compress</name>
                           <value>false</value>
                       </property>
                       <property>
                           <name>mapred.reduce.tasks.speculative.execution</name>
                           <value>false</value>
                       </property>
                       <property>
                           <name>mapred.reduce.tasks.speculative.execution</name>
                           <value>false</value>
                       </property>
                       <property>
                           <name>mapreduce.map.speculative</name>
                           <value>false</value>
                       </property>
                       <!-- I/O FORMAT -->
                       <!-- IMPORTANT: sets default delimeter used by text output writer. Required to fix
                           issue with traling tab added between id and value in multiple outputs -->
                       <property>
                           <name>mapred.textoutputformat.separator</name>
                           <value>${lod_delim}</value>
                       </property>
                       <!-- ## Names of all output ports -->
                       <property>
                           <name>mapreduce.multipleoutputs</name>
                           <value>
                               ${out1} ${out2}
                           </value>
                       </property>
                       <property>
                           <name>mapreduce.multipleoutputs.namedOutput.${out1}.key</name>
                           <value>org.apache.hadoop.io.Text</value>
                       </property>
                       <property>
                           <name>mapreduce.multipleoutputs.namedOutput.${out1}.value</name>
                           <value>org.apache.hadoop.io.Text</value>
                       </property>
                       <property>
                           <name>mapreduce.multipleoutputs.namedOutput.${out1}.format</name>
                           <value>org.apache.hadoop.mapreduce.lib.output.TextOutputFormat</value>
                       </property>
                       <!-- datasourceLanguage -->
                       <property>
                           <name>mapreduce.multipleoutputs.namedOutput.${out2}.key</name>
                           <value>org.apache.hadoop.io.Text</value>
                       </property>
                       <property>
                           <name>mapreduce.multipleoutputs.namedOutput.${out2}.value</name>
                           <value>org.apache.hadoop.io.Text</value>
                       </property>
                       <property>
                           <name>mapreduce.multipleoutputs.namedOutput.${out2}.format</name>
                           <value>org.apache.hadoop.mapreduce.lib.output.TextOutputFormat</value>
                       </property>
                       <!-- ## Classes of mapper and reducer -->
                       <property>
                           <name>mapreduce.map.class</name>
                           <value>eu.dnetlib.data.mapreduce.hbase.lodExport.LodMapper</value>
                       </property>
                       <property>
                           <name>mapreduce.reduce.class</name>
                           <value>eu.dnetlib.data.mapreduce.hbase.lodExport.LodReducer</value>
                       </property>
                       <property>
                           <name>io.serializations</name>
                           <value>org.apache.hadoop.io.serializer.WritableSerialization</value>
                       </property>
                       <!-- ## Custom config -->
                       <!--delim character used to seperate fields in hdfs dump files <property> -->
                       <property>
                           <name>lod.delim</name>
                           <value>${lod_delim}</value>
                       </property>
                       <property>
                           <name>lod.enclosing</name>
                           <value>${lod_enclosing}</value>
                       </property>
                       <!--source hbase table -->
                       <property>
                           <name>hbase.mapreduce.inputtable</name>
                           <value>${lod_hbase_table}</value>
                       </property>
                       <property>
                           <name>hbase.mapred.inputtable</name>
                           <value>${lod_hbase_table}</value>
                       </property>
                       <!-- This directory does not correspond to a data store. In fact, this directory only
                           contains multiple data stores. It has to be set to the name of the workflow node.
                           -->
                       <property>
                           <name>mapred.output.dir</name>
                           <value>${lod_output}</value>
                       </property>
                       <property>
                           <name>index.conf</name>
                           <value>${lod_indexConf}</value>
                       </property>
                       <!-- ## Workflow node parameters -->
                       <property>
                           <name>mapred.reduce.tasks</name>
                           <value>${numReducers}</value>
                       </property>
                   </configuration>
               </map-reduce>
               <ok to="end"/>
               <error to="fail"/>
           </action>
           <action name="rdf_import">
               <map-reduce>
                   <prepare>
                   </prepare>
                   <configuration>
                       <property>
                           <name>hbase.security.authentication</name>
                           <value>simple</value>
                       </property>
                       <!-- ZOOKEEPER -->
                       <property>
                           <name>hbase.zookeeper.quorum</name>
                           <!--<value>
                               namenode1.hadoop.dm.openaire.eu,namenode2.hadoop.dm.openaire.eu,jobtracker1.hadoop.dm.openaire.eu,jobtracker2.hadoop.dm.openaire.eu,hbase-master1.hadoop.dm.openaire.eu
                           </value>-->
                           <value>
                               quorum1.t.hadoop.research-infrastructures.eu,quorum2.t.hadoop.research-infrastructures.eu,quorum3.t.hadoop.research-infrastructures.eu,quorum4.t.hadoop.research-infrastructures.eu,jobtracker.t.hadoop.research-infrastructures.eu
                           </value>
                       </property>
                       <property>
                           <name>zookeeper.znode.rootserver</name>
                           <value>root-region-server</value>
                       </property>
                       <!-- CSV PROPS GO HERE -->
                       <property>
                           <name>hbase.zookeeper.property.clientPort</name>
                           <value>2181</value>
                           <!--<value>2182</value> -->
                       </property>
                       <property>
                           <name>CSVLineRecordReader.FORMAT_DELIMITER</name>
                           <value>"</value>
                       </property>
                       <property>
                           <name>CSVLineRecordReader.FORMAT_SEPARATOR</name>
                           <value>,</value>
                       </property>
                       <property>
                           <name>CSVNLineInputFormat.LINES_PER_MAP</name>
                           <value>40000</value>
                       </property>
                       <property>
                           <name>CSVLineRecordReader.IS_ZIPFILE</name>
                           <value>false</value>
                       </property>
                       <!-- MR IO -->
                       <!-- TODO here: add csv input format to mapper
                       -->
                       <property>
                           <name>mapred.input.dir</name>
                           <value>${lod_EntitiesInputFile}</value>
                       </property>
                       <property>
                           <name>mapreduce.inputformat.class</name>
                           <value>org.apache.hadoop.mapreduce.lib.input.TextInputFormat</value>
                       </property>
                       <property>
                           <name>mapred.mapoutput.key.class</name>
                           <value>org.apache.hadoop.io.Text</value>
                       </property>
                       <property>
                           <name>mapred.mapoutput.value.class</name>
                           <value>java.util.List</value>
                       </property>
                       <!-- <property>
                            <name>mapred.output.key.class</name>
                            <value>org.apache.hadoop.io.Text</value>
                        </property>-->
                       <property>
                           <name>mapred.output.value.class</name>
                           <value>org.apache.hadoop.mapreduce.lib.output.NullOutputFormat</value>
                       </property>
                       <!-- ## This is required for new MapReduce API usage -->
                       <property>
                           <name>mapred.mapper.new-api</name>
                           <value>true</value>
                       </property>
                       <property>
                           <name>mapred.reducer.new-api</name>
                           <value>true</value>
                       </property>
                       <!-- # Job-specific options -->
                       <property>
                           <name>dfs.blocksize</name>
                           <value>32M</value>
                       </property>
                       <property>
                           <name>mapred.output.compress</name>
                           <value>false</value>
                       </property>
                       <property>
                           <name>mapred.reduce.tasks.speculative.execution</name>
                           <value>false</value>
                       </property>
                       <property>
                           <name>mapred.reduce.tasks.speculative.execution</name>
                           <value>false</value>
                       </property>
                       <property>
                           <name>mapreduce.map.speculative</name>
                           <value>false</value>
                       </property>
                       <property>
                           <name>map.output.key.field.separator</name>
                           <value>${lod_delim}</value>
                       </property>
                       <!-- ## Classes of mapper and reducer -->
                       <property>
                           <name>mapreduce.map.class</name>
                           <value>eu.dnetlib.data.mapreduce.hbase.lodImport.LodImportMapper</value>
                       </property>
                       <property>
                           <name>mapreduce.reduce.class</name>
                           <value>eu.dnetlib.data.mapreduce.hbase.lodImport.LodImportReducer</value>
                       </property>
                       <property>
                           <name>io.serializations</name>
                           <value>org.apache.hadoop.io.serializer.WritableSerialization</value>
                       </property>
                       <!-- ## Custom config -->
                       <!--delim character used to seperate fields in hdfs dump files <property> -->
                       <property>
                           <name>lod.delim</name>
                           <value>${lod_delim}</value>
                       </property>
                       <property>
                           <name>lod.enclosing</name>
                           <value>${lod_enclosing}</value>
                       </property>
                       <property>
                           <name>lod.lastExecutionDate</name>
                           <value>${lod_lastExecutionDate}</value>
                       </property>
                       <property>
                           <name>lod.conLine</name>
                           <value>${lod_conLine}</value>
                       </property>
                       <property>
                           <name>lod.username</name>
                           <value>${lod_username}</value>
                       </property>
                       <property>
                           <name>lod.password</name>
                           <value>${lod_password}</value>
                       </property>
                       <property>
                           <name>lod_minCpart</name>
                           <value>${lod_minCpart}</value>
                       </property>
                       <property>
                           <name>lod_maxCpart</name>
                           <value>${lod_maxCpart}</value>
                       </property>
                       <property>
                           <name>lod.part</name>
                           <value>${lod_part}</value>
                       </property>
                       <property>
                           <name>lod.jsonRels</name>
                           <value>${lod_jsonRels}</value>
                       </property>
                       <property>
                           <name>lod.jsonEntities</name>
                           <value>${lod_jsonEntities}</value>
                       </property>
                       <property>
                           <name>lod.defaultGraph</name>
                           <value>${lod_defaultGraph}</value>
                       </property>
                      <property>
                           <name>mapred.reduce.tasks</name>
                           <value>${numReducers}</value>
                       </property>
                       <property>
                           <name>index.conf</name>
                           <value>${lod_indexConf}</value>
                       </property>
                       <property>
                           <name>mapred.output.dir</name>
                           <value>${lod_output}test</value>
                       </property>
                   </configuration>
               </map-reduce>
               <ok to="end"/>
               <error to="fail"/>
           </action>
        <action name="cleanUpHDFS">
               <fs>
                   <delete path=">${lod_output}test" />
               </fs>
               <ok to="end" />
               <error to="fail" />
           </action>
           <kill name="fail">
               <message>
                   Unfortunately, the process failed -- error message: [${wf:errorMessage(wf:lastErrorNode())}]
               </message>
           </kill>
           <end name="end"/>
       </workflow-app>

(1-1/1)

Project

General

Profile

D-Net