/ - Diff - D-Net - D-Net project tracking tool

     		outKey = new Text();
     		ibw = new ImmutableBytesWritable();
     		log.info("pace conf");
     		log.info("entity type: " + dedupConf.getWf().getEntityType());
     		log.info("clustering: " + dedupConf.getPace().getClustering());
     		log.info("conditions: " + dedupConf.getPace().getConditions());
     		log.info("fields: " + dedupConf.getPace().getModel());
     		log.info("blacklists: " + blackListMap);
     		//log.info("pace conf");
     		//log.info("entity type: " + dedupConf.getWf().getEntityType());
     		//log.info("clustering: " + dedupConf.getPace().getClustering());
     		//log.info("conditions: " + dedupConf.getPace().getConditions());
     		//log.info("fields: " + dedupConf.getPace().getModel());
     		//log.info("blacklists: " + blackListMap);
     		log.info("wf conf: " + dedupConf.toString());
+    	}
-...
     				// TODO: remove this hack - here because we want to dedup only publications and organizazions
     				if (shouldDedup(entity)) {
     					final MapDocument doc = ProtoDocumentBuilder.newInstance(Bytes.toString(keyIn.copyBytes()), entity, dedupConf.getPace().getModel());
     					context.getCounter(entity.getType().toString(), "converted as MapDocument").increment(1);
     					emitNGrams(context, doc, BlacklistAwareClusteringCombiner.filterAndCombine(doc, dedupConf, blackListMap));
+    				}
+    			}

     import org.apache.hadoop.io.Text;
     import org.apache.hadoop.mapreduce.Mapper;
     import org.apache.solr.client.solrj.SolrServerException;
     import org.apache.solr.client.solrj.impl.CloudSolrServer;
     import org.apache.solr.client.solrj.impl.CloudSolrClient;
     import org.apache.solr.client.solrj.response.SolrPingResponse;
     import org.apache.solr.client.solrj.response.UpdateResponse;
     import org.apache.solr.common.SolrInputDocument;
-...
     	private InputDocumentFactory documentFactory;
     	private CloudSolrServer solrServer;
     	private CloudSolrClient solrClient;
     	private String version;
-...
     			try {
     				count++;
     				log.info("initializing solr server...");
     				solrServer = new CloudSolrServer(baseURL);
     				solrServer.connect();
     				solrClient = new CloudSolrClient.Builder().withZkHost(baseURL).build();
     				solrClient.connect();
     				solrServer.setParallelUpdates(true);
     				solrServer.setDefaultCollection(collection);
     				solrClient.setParallelUpdates(true);
     				solrClient.setDefaultCollection(collection);
     				final SolrPingResponse rsp = solrServer.ping();
     				final SolrPingResponse rsp = solrClient.ping();
     				if (rsp.getStatus() != 0) throw new SolrServerException("bad init status: " + rsp.getStatus());
     				else {
-...
+    				}
     			} catch (final Throwable e) {
     				if (solrServer != null) {
     					solrServer.shutdown();
     				if (solrClient != null) {
     					solrClient.close();
+    				}
     				context.getCounter("index init", e.getMessage()).increment(1);
     				log.error(String.format("failed to init solr client wait %dms, error:\n%s", backoffTimeMs, ExceptionUtils.getStackTrace(e)));
-...
     	private void doAdd(final List<SolrInputDocument> buffer, final Context context) throws SolrServerException, IOException {
     		if (!simulation) {
     			final long start = System.currentTimeMillis();
     			final UpdateResponse rsp = solrServer.add(buffer);
     			final UpdateResponse rsp = solrClient.add(buffer);
     			final long stop = System.currentTimeMillis() - start;
     			log.info("feed time for " + buffer.size() + " records : " + HumanTime.exactly(stop) + "\n");
-...
+    			}
     			log.info("\nwaiting " + shutdownWaitTime + "ms before shutdown");
     			Thread.sleep(shutdownWaitTime);
     			solrServer.shutdown();
     			solrClient.close();
     		} catch (final SolrServerException e) {
     			log.error("couldn't shutdown server " + e.getMessage());
+    		}
-...
     	private void handleError(final Text key, final Text value, final Context context, final String indexRecord, final SolrInputDocument doc, final Throwable e)
     			throws IOException, InterruptedException {
     		context.getCounter("index feed", e.getClass().getName()).increment(1);
     		context.write(key, printRottenRecord(context.getTaskAttemptID().toString(), value, indexRecord, doc));
     		// e.printStackTrace(System.err);
     		context.write(key, printRottenRecord(context.getTaskAttemptID().toString(), value, indexRecord, doc, e));
+    	}
     	private Text printRottenRecord(final String taskid, final Text value, final String indexRecord, final SolrInputDocument doc) {
     		return new Text("\n**********************************\n" + "task: " + taskid + "\n"
     				+ check("original", value.toString() + check("indexRecord", indexRecord) + check("solrDoc", doc)));
     	private Text printRottenRecord(final String taskid, final Text value, final String indexRecord, final SolrInputDocument doc, final Throwable e) {
     		return new Text("\n**********************************\n" + "task: " + taskid + "\n" +
     				check("original", value.toString() +
     				check("indexRecord", indexRecord) +
     				check("solrDoc", doc)) +
     				check("error", e));
+    	}
     	private String check(final String label, final Object value) {
     		if ((value != null) && !value.toString().isEmpty()) return "\n " + label + ":\n" + value + "\n";
     		if ((value != null) && !value.toString().isEmpty()) {
     			return "\n " + label + ":\n" + value + "\n";
+    		}
     		return "\n";
+    	}

     import org.apache.hadoop.hbase.util.Bytes;
     import org.apache.hadoop.io.Text;
     import org.apache.solr.client.solrj.SolrServerException;
     import org.apache.solr.client.solrj.impl.CloudSolrServer;
     import org.apache.solr.client.solrj.impl.CloudSolrClient;
     import org.apache.solr.client.solrj.response.SolrPingResponse;
     import org.apache.solr.client.solrj.response.UpdateResponse;
     import org.apache.solr.common.SolrInputDocument;
-...
     	private static final Log log = LogFactory.getLog(DedupIndexFeedMapper.class); // NOPMD by marko on 11/24/08 5:02 PM
     	private CloudSolrServer solrServer;
     	private CloudSolrClient solrClient;
     	private String dsId;
-...
     		while (true) {
     			try {
     				log.info("initializing solr server...");
     				solrServer = new CloudSolrServer(baseURL);
     				solrClient = new CloudSolrClient.Builder().withZkHost(baseURL).build();
     				solrServer.connect();
     				solrClient.connect();
     				solrServer.setParallelUpdates(true);
     				solrServer.setDefaultCollection(collection);
     				solrClient.setParallelUpdates(true);
     				solrClient.setDefaultCollection(collection);
     				final SolrPingResponse rsp = solrServer.ping();
     				final SolrPingResponse rsp = solrClient.ping();
     				if (rsp.getStatus() != 0) throw new SolrServerException("bad init status: " + rsp.getStatus());
     				else {
-...
+    				}
     			} catch (final Throwable e) {
     				if (solrServer != null) {
     					solrServer.shutdown();
     				if (solrClient != null) {
     					solrClient.close();
+    				}
     				context.getCounter("index init", e.getMessage()).increment(1);
     				log.info(String.format("failed to init solr client wait %dms", backoffTimeMs));
-...
+    		}
     		final Oaf oaf = Oaf.parseFrom(bMap.get(DedupUtils.BODY_B));
     		if (oaf.getDataInfo().getInvisible()) {
     			context.getCounter(entityType, "invisible");
     			return;
+    		}
     		try {
     			doc = getDocument(oaf);
-...
     	private void doAdd(final List<SolrInputDocument> buffer, final Context context) throws SolrServerException, IOException {
     		if (!simulation) {
     			final long start = System.currentTimeMillis();
     			final UpdateResponse rsp = solrServer.add(buffer);
     			final UpdateResponse rsp = solrClient.add(buffer);
     			final long stop = System.currentTimeMillis() - start;
     			log.info("feed time for " + buffer.size() + " records : " + HumanTime.exactly(stop) + "\n");
-...
+    			}
     			log.info("\nwaiting " + shutdownWaitTime + "ms before shutdown");
     			Thread.sleep(shutdownWaitTime);
     			solrServer.shutdown();
     			solrClient.close();
     		} catch (final SolrServerException e) {
     			System.err.println("couldn't shutdown server " + e.getMessage());
+    		}

     package eu.dnetlib.data.mapreduce.hbase.dataexport;
     import java.io.IOException;
     import org.apache.hadoop.io.Text;
     import org.apache.hadoop.mapreduce.Reducer;
     public class ExportSimplifiedRecordsReducer extends Reducer<Text, Text, Text, Text> {
     	private Text keyOut;
     	@Override
     	protected void setup(final Context context) throws IOException, InterruptedException {
     		keyOut = new Text("");
+    	}
     	@Override
     	protected void reduce(final Text key, final Iterable<Text> values, final Context context) throws IOException, InterruptedException {
     		for(final Text v : values) {
     			//keyOut.set(key.toString() + "@@@");
     			context.write(keyOut, v);
+    		}
+    	}
+    }

modules/dnet-mapreduce-jobs/trunk/src/main/java/eu/dnetlib/data/mapreduce/hbase/dataexport/ExportSimplifiedRecordsMapper.java
37	37
38	38	final String summary = recordSummarizer.evaluate(value.toString());
39	39	if (StringUtils.isNotBlank(summary)) {
	40	keyOut.set(StringUtils.substringAfter(key.toString(), "::"));
40	41	valueOut.set(summary.replaceAll("\n","").replaceAll("\t",""));
41	42	context.write(keyOut, valueOut);
42	43	}

Project

General

Profile

D-Net

Revision 51005

Added by Claudio Atzori over 6 years ago