下載吧 - 綠色安全的游戲和軟件下載中心

          軟件下載吧

          當前位置:軟件下載吧 > 數據庫 > DB2 > python實現爬蟲數據存到 MongoDB

          python實現爬蟲數據存到 MongoDB

          時間:2024-03-09 11:51作者:下載吧人氣:39

          在以上兩篇文章中已經介紹到了 Python 爬蟲和 MongoDB , 那么下面我就將爬蟲爬下來的數據存到 MongoDB 中去,首先來介紹一下我們將要爬取的網站, readfree 網站,這個網站非常的好,我們只需要每天簽到就可以免費下載三本書,良心網站,下面我就將該網站上的每日推薦書籍爬下來。

          python實現爬蟲數據存到 MongoDB

          利用上面幾篇文章介紹的方法,我們很容易的就可以在網頁的源代碼中尋找到書籍的姓名和書籍作者的信息。

          找到之后我們復制 XPath ,然后進行提取即可。源代碼如下所示

          # coding=utf-8
          
          import re
          import requests
          from lxml import etree
          import pymongo
          import sys
          
          reload(sys)
          sys.setdefaultencoding('utf-8')
          
          def getpages(url, total):
            nowpage = int(re.search('(d+)', url, re.S).group(1))
            urls = []
          
            for i in range(nowpage, total + 1):
              link = re.sub('(d+)', '%s' % i, url, re.S)
              urls.append(link)
          
            return urls
          
          def spider(url):
            html = requests.get(url)
          
            selector = etree.HTML(html.text)
          
            book_name = selector.xpath('//*[@id="container"]/ul/li//div/div[2]/a/text()')
            book_author = selector.xpath('//*[@id="container"]/ul/li//div/div[2]/div/a/text()')
          
            saveinfo(book_name, book_author)
          
          def saveinfo(book_name, book_author):
            connection = pymongo.MongoClient()
            BookDB = connection.BookDB
            BookTable = BookDB.books
          
            length = len(book_name)
          
            for i in range(0, length):
              books = {}
              books['name'] = str(book_name[i]).replace('n','')
              books['author'] = str(book_author[i]).replace('n','')
              BookTable.insert_one(books)
          
          if __name__ == '__main__':
            url = 'http://readfree.me/shuffle/?page=1'
            urls = getpages(url,3)
          
            for each in urls:
              spider(each)
          
          
          標簽python,實現,爬蟲,數據,MongoDB

          相關下載

          查看所有評論+

          網友評論

          網友
          您的評論需要經過審核才能顯示

          熱門閱覽

          最新排行

          公眾號

          主站蜘蛛池模板: 国产一区二区三区在线观看免费 | 国产免费无码一区二区| 国产精品一区三区| 成人免费视频一区| 亚洲一区二区在线免费观看| 亚洲午夜日韩高清一区| 国产精品一区二区AV麻豆| 国产福利91精品一区二区| 国产一区二区三区在线2021 | 亚洲AV成人精品日韩一区| 国产激情无码一区二区| 一区二区在线视频免费观看| 亚洲日韩国产欧美一区二区三区 | 亚洲日本一区二区三区| 91福利视频一区| 无码精品人妻一区二区三区影院 | 国产美女视频一区| 日韩爆乳一区二区无码| 国产成人AV区一区二区三| 一区二区免费电影| 一区二区三区精品| 日韩免费一区二区三区| 国产精华液一区二区区别大吗| 国产一区二区免费| 国产高清精品一区| 精品人妻一区二区三区四区在线 | 一区二区视频传媒有限公司| 国产SUV精品一区二区88L| 欧美成人aaa片一区国产精品| 亚洲日本久久一区二区va| 一区二区精品在线| 无码日韩人妻av一区免费| 丰满爆乳无码一区二区三区| 日韩精品一区二区三区中文版 | 亚洲无线码一区二区三区| 91精品一区二区三区久久久久| 一区二区三区91| 亚洲AV无码一区二区三区性色 | 老湿机一区午夜精品免费福利| 老熟女高潮一区二区三区| 国产一区玩具在线观看|