当前位置:作文大全 > 个人陈述(面试 留学申请) 公司经历:留学个人陈述

个人陈述(面试 留学申请) 公司经历:留学个人陈述

时间:2021-10-31 14:19:13 浏览次数:

  基于urlib2及HYPERLINK"/leaderway/article/detailsscrapy爬取网站并存入数据库,实现的爬虫系统。总的来说,数据库采用mysql,原始关系以txt文件存储,原始内容以csv形式存储,后期直接插入mysql数据库。例如在爬取网站列表信息的过程中,从一个网站的列表页抓取文章列表,然后用xpath存入mysql中,数据库包括文章标题、链接、时间,在开始的时候,要首先生成一个项目:scrapy startproject fjsen,先定义下items,打开items.py。一开始对一个网站进行爬取时,先简单地进行试验的爬取,设定开始爬取的项目,想抓取的标题,地址和时间等,初步设定为三个到四个之内的属性。其实用python爬取网页也很简单,在python中Unicode是一类对象,表现为以u打头的,比如u'中文',而string又是一类对象,是在具体编码方式下的实际存在计算机上的字符串。比如utf-8编码下的'中文'和gbk编码下的'中文',并不相同。这是一个代码的示例,import urllib2、page=urllib2.urlopen('url').read(),这样就获得到页面的内容,接下来再用正则匹配去匹配所需要的内容即可。如果在爬取时,网站是需要登录认证的网站,只要导入cookielib和urllib库就可以实现了。