Twisted/Python处理lin的大文件行

import argparse from tqdm import tqdm from sys import argv from pprint import pformat from twisted.internet.task import react from twisted.web.client import Agent, readBody from twisted.web.http_headers import Headers import lxml.html from geoip import geolite2 import pycountry from tld import get_tld import json import socket poweredby = "" server = "" ip = "" def cbRequest(response, url): global poweredby, server, ip # print 'Response version:', response.version # print 'Response code:', response.code # print 'Response phrase:', response.phrase # print 'Response headers:' # print pformat(list(response.headers.getAllRawHeaders())) poweredby = response.headers.getRawHeaders("X-Powered-By")[0] server = response.headers.getRawHeaders("Server")[0] #print poweredby #print server d = readBody(response) d.addCallback(cbBody, url) return d def cbBody(body, ourl): global poweredby, server,ip #print body html_element = lxml.html.fromstring(body) generator = html_element.xpath("//meta[@name='generator']/@content") ip = socket.gethostbyname(ourl) try: match = geolite2.lookup(ip) if match is not None: country = match.country try: c = pycountry.countries.lookup(country) country = c.name except: country = "" except: country = "" try: res = get_tld("http://www" + ourl, as_object=True) tld = res.suffix except: tld = "" try: match = re.search(r'[\w\.-]+@[\w\.-]+', body) email = match.group(0) except: email = "" permalink=ourl.rstrip().replace(".","-") try: item = generator[0] val = "{ \"Domain\":" + json.dumps( "http://" + ourl.rstrip()) + ",\"IP\":\"" + ip + "\",\"Server\":" + json.dumps( str(server)) + ",\"PoweredBy\":" + json.dumps( str(poweredby)) + ",\"MetaGenerator\":" + json.dumps(item) + ",\"Email\":" + json.dumps( email) + ",\"Suffix\":\"" + tld + "\",\"CountryHosted\":\"" + country+"\",\"permalink\":\""+permalink+"\" }" except: val = "{ \"Domain\":" + json.dumps( "http://" + ourl.rstrip()) + ",\"IP\":\"" + ip + "\"," + "\"Server\":" + json.dumps( str(server)) + ",\"PoweredBy\":" + json.dumps( str(poweredby)) + ",\"MetaGenerator\":\"\",\"Email\":" + json.dumps( email) + ",\"Suffix\":\"" + tld + "\",\"CountryHosted\":\"" + country+"\",\"permalink\":\""+permalink+"\" }" print val if __name__ == '__main__': parser = argparse.ArgumentParser(description='Scanner v0.99') parser.add_argument( '-i', '--input', help='Input list of domains', required=True) args = parser.parse_args() input = args.input with open(input) as f: urls = f.read().splitlines() def mainjob(reactor, urls=urls): for url in tqdm(urls): agent = Agent(reactor) d = agent.request( 'GET', "http://" + url, Headers({'User-Agent': ['bot']}), None) d.addCallback(cbRequest, url) d.addErrback(lambda x: None) # ignore errors return d react(mainjob, argv[3:])

import argparse from tqdm import tqdm from sys import argv from pprint import pformat from twisted.internet.task import react from twisted.web.client import Agent, readBody from twisted.web.http_headers import Headers from twisted.internet.task import cooperate from twisted.internet.defer import gatherResults import lxml.html from geoip import geolite2 import pycountry from tld import get_tld import json import socket poweredby = "" server = "" ip = "" def cbRequest(response, url): global poweredby, server, ip # print 'Response version:', response.version # print 'Response code:', response.code # print 'Response phrase:', response.phrase # print 'Response headers:' # print pformat(list(response.headers.getAllRawHeaders())) poweredby = response.headers.getRawHeaders("X-Powered-By")[0] server = response.headers.getRawHeaders("Server")[0] #print poweredby #print server d = readBody(response) d.addCallback(cbBody, url) return d def cbBody(body, ourl): global poweredby, server,ip #print body html_element = lxml.html.fromstring(body) generator = html_element.xpath("//meta[@name='generator']/@content") ip = socket.gethostbyname(ourl) try: match = geolite2.lookup(ip) if match is not None: country = match.country try: c = pycountry.countries.lookup(country) country = c.name except: country = "" except: country = "" try: res = get_tld("http://www" + ourl, as_object=True) tld = res.suffix except: tld = "" try: match = re.search(r'[\w\.-]+@[\w\.-]+', body) email = match.group(0) except: email = "" permalink=ourl.rstrip().replace(".","-") try: item = generator[0] val = "{ \"Domain\":" + json.dumps( "http://" + ourl.rstrip()) + ",\"IP\":\"" + ip + "\",\"Server\":" + json.dumps( str(server)) + ",\"PoweredBy\":" + json.dumps( str(poweredby)) + ",\"MetaGenerator\":" + json.dumps(item) + ",\"Email\":" + json.dumps( email) + ",\"Suffix\":\"" + tld + "\",\"CountryHosted\":\"" + country+"\",\"permalink\":\""+permalink+"\" }" except: val = "{ \"Domain\":" + json.dumps( "http://" + ourl.rstrip()) + ",\"IP\":\"" + ip + "\"," + "\"Server\":" + json.dumps( str(server)) + ",\"PoweredBy\":" + json.dumps( str(poweredby)) + ",\"MetaGenerator\":\"\",\"Email\":" + json.dumps( email) + ",\"Suffix\":\"" + tld + "\",\"CountryHosted\":\"" + country+"\",\"permalink\":\""+permalink+"\" }" print val def main(reactor, url_path): urls = open(url_path) return mainjob(reactor, (url.strip() for url in urls)) def mainjob(reactor, urls=argv[2:]): #for url in urls: # print url agent = Agent(reactor) work = (process(agent, url) for url in tqdm(urls)) tasks = list(cooperate(work) for i in range(100)) return gatherResults(list(task.whenDone() for task in tasks)) def process(agent, url): d = agent.request( 'GET', "http://" + url, Headers({'User-Agent': ['bot']}), None) d.addCallback(cbRequest, url) d.addErrback(lambda x: None) # ignore errors return d react(main, ["./domains.txt"])

import argparse from tqdm import tqdm from sys import argv from pprint import pformat from twisted.internet.task import react from twisted.web.client import Agent, readBody from twisted.web.http_headers import Headers from twisted.internet.task import cooperate from twisted.internet.defer import gatherResults import lxml.html from geoip import geolite2 import pycountry from tld import get_tld import json import socket poweredby = "" server = "" ip = "" f = open("errors.txt", "w") def error(response, url): f.write("Error: "+url+"\n") def cbRequest(response, url): global poweredby, server, ip # print 'Response version:', response.version # print 'Response code:', response.code # print 'Response phrase:', response.phrase # print 'Response headers:' # print pformat(list(response.headers.getAllRawHeaders())) poweredby = response.headers.getRawHeaders("X-Powered-By")[0] server = response.headers.getRawHeaders("Server")[0] #print poweredby #print server d = readBody(response) d.addCallback(cbBody, url) return d def cbBody(body, ourl): global poweredby, server,ip #print body html_element = lxml.html.fromstring(body) generator = html_element.xpath("//meta[@name='generator']/@content") ip = socket.gethostbyname(ourl) try: match = geolite2.lookup(ip) if match is not None: country = match.country try: c = pycountry.countries.lookup(country) country = c.name except: country = "" except: country = "" try: res = get_tld("http://www" + ourl, as_object=True) tld = res.suffix except: tld = "" try: match = re.search(r'[\w\.-]+@[\w\.-]+', body) email = match.group(0) except: email = "" permalink=ourl.rstrip().replace(".","-") try: item = generator[0] val = "{ \"Domain\":" + json.dumps( "http://" + ourl.rstrip()) + ",\"IP\":\"" + ip + "\",\"Server\":" + json.dumps( str(server)) + ",\"PoweredBy\":" + json.dumps( str(poweredby)) + ",\"MetaGenerator\":" + json.dumps(item) + ",\"Email\":" + json.dumps( email) + ",\"Suffix\":\"" + tld + "\",\"CountryHosted\":\"" + country+"\",\"permalink\":\""+permalink+"\" }" except: val = "{ \"Domain\":" + json.dumps( "http://" + ourl.rstrip()) + ",\"IP\":\"" + ip + "\"," + "\"Server\":" + json.dumps( str(server)) + ",\"PoweredBy\":" + json.dumps( str(poweredby)) + ",\"MetaGenerator\":\"\",\"Email\":" + json.dumps( email) + ",\"Suffix\":\"" + tld + "\",\"CountryHosted\":\"" + country+"\",\"permalink\":\""+permalink+"\" }" print val def main(reactor, url_path): urls = open(url_path) return mainjob(reactor, (url.strip() for url in urls)) def mainjob(reactor, urls=argv[2:]): #for url in urls: # print url agent = Agent(reactor) work = (process(agent, url) for url in tqdm(urls)) tasks = list(cooperate(work) for i in range(100)) return gatherResults(list(task.whenDone() for task in tasks)) def process(agent, url): d = agent.request( 'GET', "http://" + url, Headers({'User-Agent': ['crawler']}), None) d.addCallback(cbRequest, url) d.addErrback(error, url) return d react(main, ["./domains.txt"]) f.close()

1条回答

网友

1楼 · 发布于 2024-05-07 16:31:07

您需要为程序创建的并发量添加一个限制。目前，您同时处理所有给定的URL，或者至少尝试：

def mainjob(reactor, urls=urls):
    for url in tqdm(urls):
        agent = Agent(reactor)
        d = agent.request(
            'GET', "http://" + url,
            Headers({'User-Agent': ['bot']}),
            None)
        d.addCallback(cbRequest, url)
        d.addErrback(lambda x: None)  # ignore errors
    return d

这将为每个URL发出一个请求，而不等待任何一个URL完成。相反，使用twisted.internet.task.cooperate一次运行一个有限的数字。一次运行一个请求：

^{pr2}$

你可能想要的不止这些。所以，再调用cooperative（）几次：

def mainjob(reactor, urls=urls):
    agent = Agent(reactor)
    work = (process(agent, url) for url in tqdm(urls))
    tasks = list(cooperate(work) for i in range(100))
    return gatherResults(list(task.whenDone() for task in tasks))

一次最多可以有100个请求。每个任务从work提取下一个元素并等待它。gatherResults等待所有100个任务完成。在

现在只需避免一次将完整的输入加载到内存中：

def main(reactor, url_path):
    urls = open(url_path)
    return mainjob(reactor, (url.strip() for url in urls))

react(main, ["path-to-urls.txt"])

这将打开url文件，但只在需要时读取其中的行。在

相关问题更多 >

编程相关推荐

热门问题

热门文章