/modules/dataciteExporter/eu/dnetlib/exporter/dataciteExporter.py - D-Net - D-Net project tracking tool

dnet45/modules/dataciteExporter/eu/dnetlib/exporter/dataciteExporter.py @ 58430

       from elasticsearch import Elasticsearch
       from elasticsearch_dsl import *
       from jinja2 import Template
       import json
       import hashlib
       import time
       from lxml import etree
       import zlib, base64
       def md5sum(str_input):
           m = hashlib.md5()
           m.update(str_input.encode('utf-8'))
           return m.hexdigest()
       def create_creator(item):
           creator = dict(name=item.get('name',''), identifier = None, affiliation= item.get('affiliation',''))
           for i in item.get('nameIdentifiers',[]):
               creator['identifier']= dict(schemename=i.get('nameIdentifierScheme',''), value=i.get('nameIdentifier',''))
           return creator
       def create_record(x, t, matches):
           record = x.attributes.__dict__['_d_']
           dataset =dict(id= x.id, publisher = record.get('publisher'),publicationYear = record.get('publicationYear'), subjects=record.get('subjects',[]),
                         contributors= record.get('contributors',[]), dates = record.get('dates',[]), language= record.get('language'),
                         types = record.get('types'), identifiers = record.get('identifiers',[]), relatedIdentifiers= record.get('relatedIdentifiers',[]),
                         formats = record.get('formats',[]), version= record.get('version',''), sizes = record.get('sizes',[]),
                         rightsList = record.get('rightsList',[]), descriptions= record.get('descriptions', []),
                         geoLocations = record.get('geoLocations',[]), titles =[], creators=[])
           if record.get('titles'):
               dataset['titles'] = [dict(title=title['title'], lang=title.get('lang',None)) for title in record.get('titles',[]) if 'title' in title]
           if record.get('creators'):
               dataset['creators']= [create_creator(item) for item in record.get('creators',[])]
           provider = x.relationships.client.data.id.upper()
           hosted = matches.get(provider, dict(openaire_id="openaire____::1256f046-bf1f-4afc-8b47-d0b147148b18", official_name="Unknown Repository"))
           return t.render(dataset=dataset, provider=provider, id= x.id, hosted=hosted, objIdentifier= md5sum(x.id))
       def scan_index(timestamp=None, active=True, scroll_id=None, page_size= None):
           if not page_size:
               page_size = 1000
           es = Elasticsearch(hosts=['192.168.100.70','192.168.100.71','192.168.100.72', '192.168.100.73'], timeout=1000)
           s = Search(using=es, index='datacite').query(Q('match', attributes__isActive=True))
           if timestamp:
               print ("APPLICO FILTRO ", timestamp)
               s= s.filter('range',timestamp={'gte': timestamp})
           t = Template(open('res/template.jinja').read())
           matches = json.loads(open('res/matches.json').read())
           total = s.execute().hits.total
           result = dict(total=total, counter = 0, result=[], scroll_id = scroll_id)
           i = 0
           for item in s.params(size=1000).scan():
               record = dict(originalId = item.id, timestamp = item.timestamp)
               record['body'] = base64.b64encode(zlib.compress(create_record(item, t, matches).encode('utf-8'))).decode('ascii')
               record['id']= "datacite____::"+md5sum(item.id)
               result['result'].append(record)
               result['counter'] +=1
               if len(result['result']) == page_size:
                   yield result
                   del (result['result'])
                   result['result'] = []
           yield result
       def is_available():
           es = Elasticsearch(hosts=['192.168.100.70','192.168.100.71','192.168.100.72', '192.168.100.73'], timeout=1000)
           s = Search(using=es, index='datacite').query(Q('match', attributes__isActive=True))
           return s.count() >0

« Previous
1
2
3
Next »

(3-3/3)

Project

General

Profile

D-Net