个人陈述（面试留学申请）公司经历:留学个人陈述

时间：2021-10-31 14:19:13 浏览次数：

　基于urlib2及HYPERLINK"/leaderway/article/detailsscrapy爬取网站并存入数据库，实现的爬虫系统。总的来说，数据库采用mysql，原始关系以txt文件存储，原始内容以csv形式存储，后期直接插入mysql数据库。例如在爬取网站列表信息的过程中，从一个网站的列表页抓取文章列表，然后用xpath存入mysql中，数据库包括文章标题、链接、时间，在开始的时候，要首先生成一个项目:scrapy startproject fjsen，先定义下items,打开items.py。一开始对一个网站进行爬取时，先简单地进行试验的爬取，设定开始爬取的项目，想抓取的标题，地址和时间等，初步设定为三个到四个之内的属性。其实用python爬取网页也很简单，在python中Unicode是一类对象，表现为以u打头的，比如u'中文'，而string又是一类对象，是在具体编码方式下的实际存在计算机上的字符串。比如utf-8编码下的'中文'和gbk编码下的'中文'，并不相同。这是一个代码的示例，import urllib2、page=urllib2.urlopen('url').read()，这样就获得到页面的内容，接下来再用正则匹配去匹配所需要的内容即可。如果在爬取时，网站是需要登录认证的网站，只要导入cookielib和urllib库就可以实现了。

个人陈述（面试 留学申请） 公司经历:留学个人陈述

个人陈述（面试留学申请）公司经历:留学个人陈述