bioinformatist · March 29, 2019 02:17
diff --git a/getLatestCompleteIMG.py b/getLatestCompleteIMG.py
 #!/usr/bin/env python

 from datetime import datetime
 import argparse
 import xml.etree.ElementTree as ET

 parser = argparse.ArgumentParser('Get latest complete genome URLs from IMG XML file')
 parser.add_argument("file", help = 'A XML file downloaded from IMG')
 args = parser.parse_args()

 name_time_url = {}

 def latest_complete(file):
    tree = ET.parse(file)
    root = tree.getroot()
    for child in root.iter('file'):
        filename = child.get('filename')
        if 'assembly.fasta' in filename or 'assembled.fna' in filename:
            label = child.get('label')
            timestamp = child.get('timestamp').replace('PDT ', "").replace('PST', '')
            dt = datetime.strptime(timestamp, "%c")
            name_time_url.setdefault(label, {})
            name_time_url[label][dt] = child.get('url')
    for name in name_time_url:
        latest = max(name_time_url[name].keys())
        print("https://genome.jgi.doe.gov{}".format(name_time_url[name][latest]))
        

 if __name__ == "__main__":
    latest_complete(args.file)
	#!/usr/bin/env python

	from datetime import datetime
	import argparse
	import xml.etree.ElementTree as ET

	parser = argparse.ArgumentParser('Get latest complete genome URLs from IMG XML file')
	parser.add_argument("file", help = 'A XML file downloaded from IMG')
	args = parser.parse_args()

	name_time_url = {}

	def latest_complete(file):
	tree = ET.parse(file)
	root = tree.getroot()
	for child in root.iter('file'):
	filename = child.get('filename')
	if 'assembly.fasta' in filename or 'assembled.fna' in filename:
	label = child.get('label')
	timestamp = child.get('timestamp').replace('PDT ', "").replace('PST', '')
	dt = datetime.strptime(timestamp, "%c")
	name_time_url.setdefault(label, {})
	name_time_url[label][dt] = child.get('url')
	for name in name_time_url:
	latest = max(name_time_url[name].keys())
	print("https://genome.jgi.doe.gov{}".format(name_time_url[name][latest]))


	if __name__ == "__main__":
	latest_complete(args.file)