Python技术栈

 找回密码
 立即注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 8502|回复: 100

[爬取案例] 爬取新浪新闻

  [复制链接]

10

主题

20

帖子

161

积分

超级版主

Rank: 8Rank: 8

积分
161
发表于 2018-12-17 10:51:33 | 显示全部楼层 |阅读模式
[Python] 纯文本查看 复制代码
import requests
import os
from bs4 import BeautifulSoup
import re

# 爬取具体每个新闻内容
def getNews(url,title):
    response = requests.get(url)
    response.encoding = 'utf-8'
    soup = BeautifulSoup(response.text,'lxml')
    news_Date = soup.find('div',class_='date-source').span.string
    news_Source = soup.find('div',class_='date-source').a.string
    news_Content = soup.find('div',id='article').get_text()
    rep = re.compile("[\s+\.\!\/_,$%^*(+\"\']+|[+<>?、~*()]+")
    title = rep.sub('', title)
    title = title.replace(':', ':')

    folder = os.path.join(os.getcwd(),'news\\') # 这里有个坑:python中字符串的最后一个字符是斜杠会导致出错。
    if not os.path.exists(folder):
        os.mkdir(folder)
    file_name = folder + title + '.txt'
    #print(file_name)
    with open(file_name,'w',encoding="utf-8") as file:
        file.write(news_Date)
        file.write(news_Source)
        file.write(title)
        file.write(news_Content)

# 获取各个新闻标题和链接
def getNews_title(url):
    response = requests.get(url)
    response.encoding = 'utf-8'
    soup = BeautifulSoup(response.text,'lxml')
    tag = soup.find('div',class_='ct_t_01')
    for tag in tag.find_all('a',attrs={"target":"_blank"}):
        news_site = tag.get('href')
        news_title = tag.get_text()
        getNews(news_site,news_title)

#运行程序
url = "https://news.sina.com.cn/"
getNews_title(url)


Python 总 群
回复

使用道具 举报

2

主题

7

帖子

18

积分

新手上路

Rank: 1

积分
18
发表于 2018-12-17 10:51:33 | 显示全部楼层
传说中的沙发???哇卡卡
Python 总 群
回复

使用道具 举报

0

主题

6

帖子

22

积分

新手上路

Rank: 1

积分
22
发表于 2018-12-17 11:25:17 | 显示全部楼层
确实不错,顶先
Python 总 群
回复

使用道具 举报

0

主题

5

帖子

20

积分

新手上路

Rank: 1

积分
20
发表于 2018-12-17 12:55:13 | 显示全部楼层
传说中的沙发???哇卡卡
Python 总 群
回复

使用道具 举报

0

主题

5

帖子

20

积分

新手上路

Rank: 1

积分
20
发表于 2018-12-17 13:36:53 | 显示全部楼层
支持楼主,用户楼主,楼主英明呀!!!
Python 总 群
回复

使用道具 举报

0

主题

7

帖子

24

积分

新手上路

Rank: 1

积分
24
发表于 2018-12-17 16:04:47 | 显示全部楼层
边撸边过
Python 总 群
回复

使用道具 举报

0

主题

8

帖子

26

积分

新手上路

Rank: 1

积分
26
发表于 2018-12-17 16:25:53 | 显示全部楼层
大人,此事必有蹊跷!
Python 总 群
回复

使用道具 举报

0

主题

3

帖子

16

积分

新手上路

Rank: 1

积分
16
发表于 2018-12-17 17:17:21 | 显示全部楼层
我也来顶一下..
Python 总 群
回复

使用道具 举报

0

主题

4

帖子

18

积分

新手上路

Rank: 1

积分
18
发表于 2018-12-17 17:21:53 | 显示全部楼层
佩服佩服!
Python 总 群
回复

使用道具 举报

0

主题

2

帖子

14

积分

新手上路

Rank: 1

积分
14
发表于 2018-12-17 18:13:59 | 显示全部楼层
路过的帮顶
Python 总 群
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


QQ|Archiver|手机版|小黑屋|Python.BBS ( 鲁ICP备18046958号 )

GMT+8, 2020-1-25 23:39 , Processed in 0.224652 second(s), 32 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表