/modules/dnet-openaire-lodinterlinking/branches/cacheOptimized/src/main/java/eu/dnetlib/data/mapreduce/hbase/lodExport/utils/blocking/Blocking.java - D-Net - D-Net project tracking tool

dnet40/modules/dnet-openaire-lodinterlinking/branches/cacheOptimized/src/main/java/eu/dnetlib/data/mapreduce/hbase/lodExport/utils/blocking/Blocking.java @ 48805

       package eu.dnetlib.data.mapreduce.hbase.lodExport.utils.blocking;
       import java.util.*;
       public class Blocking {
           private static final String LINE_DELIM = "\t.\t";
           private static final String FIELD_DELIM = "\t";
           public static String tokenBlocking(String field, HashSet<String> stopwordsMap) {
               String[] tokens = field.toLowerCase().replace("\"", "").split("[\\W_]");
               Map<String, Integer> blockingKeysMap = new TreeMap<>();
               StringBuilder token = new StringBuilder();
               for (String currentToken : tokens) {
                   if (currentToken.length() > 1 && !stopwordsMap.contains(currentToken)) {
                       if (blockingKeysMap.containsKey(currentToken)) {
                           blockingKeysMap.put(currentToken, blockingKeysMap.get(currentToken) + 1);
                       } else {
                           blockingKeysMap.put(currentToken, 1);
+                      }
+                  }
+              }
               //throw away frequent words - tokens that occur more than once within a record field
               for (Map.Entry<String, Integer> entry : blockingKeysMap.entrySet()) {
                   if (entry.getValue() == 1) {
                       token.append(entry.getKey()).append(" ");
+                  }
+              }
               return token.toString();
+          }
           public static Set<String> multipleTokenBlocking(String result, HashSet<String> stopwordsMap, Set<String> usedProperties) {
               String[] triples = result.split(LINE_DELIM);
               Set<String> tokenList = new TreeSet<>();
               for (String triple : triples) {
                   String[] fields = triple.split(FIELD_DELIM);
                   if (fields.length == 3) {
                       String property = fields[1];
                       String value = fields[2];
                       tokenList.add(createToken(stopwordsMap, usedProperties, property, value));
+                  }
+              }
               return tokenList;
+          }
           private static String createToken(HashSet<String> stopwordsMap, Set<String> usedProperties, String property, String value) {
               Map<String, Integer> blockingKeysMap = new TreeMap<>();
               if (usedProperties.contains(property)) {
                   String[] tokens = value.toLowerCase().replace("\"", "").split("[\\W_]");
                   for (String currentToken : tokens) {
                       if (!currentToken.isEmpty() && currentToken.length() > 1 && !stopwordsMap.contains(currentToken)) {
                           if (blockingKeysMap.containsKey(currentToken)) {
                               blockingKeysMap.put(currentToken, blockingKeysMap.get(currentToken) + 1);
                           } else {
                               blockingKeysMap.put(currentToken, 1);
+                          }
+                      }
+                  }
+              }
               StringBuilder tokens = new StringBuilder();
               for (Map.Entry<String, Integer> entry : blockingKeysMap.entrySet()) {
                   if (entry.getValue() == 1) {
                       tokens.append(entry.getKey()).append(" ");
+                  }
+              }
               return tokens.toString();
+          }
           public static void main(String[] args) {
               List<String> tokenList = new ArrayList<>();
               HashSet<String> stopwordsMap = new HashSet<>();
               stopwordsMap.add("and");
               String field = "A test string";
               String tokens = tokenBlocking(field, stopwordsMap);
               System.out.println(tokens);
               tokenList.add(tokens);
               field = "1990";
               tokens = tokenBlocking(field, stopwordsMap);
               System.out.println(tokens);
               tokenList.add(tokens);
               Collections.sort(tokenList);
               StringBuilder tokenString = new StringBuilder();
               for (String  t : tokenList) {
                   tokenString.append(t).append(" ");
+              }
               System.out.println(tokenString.toString());
+          }
+      }

« Previous
1
2
Next »

(1-1/2)

Project

General

Profile

D-Net