97超碰碰碰_91热播_91国产免费视频_91视频合集_国产精品白丝jk白祙_国产精品久免费的黄网站

您現在所在的位置:首頁 >關于奇酷 > 行業動態 > 實戰丨你永遠不知道多少人在嗶哩嗶哩彈幕,但Python知道!

實戰丨你永遠不知道多少人在嗶哩嗶哩彈幕,但Python知道!

來源:奇酷教育 發表于:

Python爬蟲爬取Bilibili彈幕實戰。

  聚合了海量先鋒年輕人的B站,月均活躍用戶達到1.1億。
 
  提到B站,你會想到什么?
 
  二次元?鬼畜?看番?diss?還是——彈幕?
 
  曾經錯位時空不同的人,在同一個視頻下用彈幕進行了交流。
 
  而發這條彈幕的人,可能甚至是五六年前發的。
 
  你永遠不知道年輕人有多少梗,不知道有多少人在彈幕,但是——
 
  Python知道。
 
  Python爬蟲爬取Bilibili彈幕
 
  這是Python爬蟲爬取Bilibili彈幕實戰。
 
  有人說,B站因彈幕的體驗感而一騎絕塵。
 
  飛逝的彈幕仿佛能溝通一切。
 
  那么,B站上一個視頻的彈幕最多會有多少?
 
  2000條?還是更多?
 
  這么多數據,B站肯定是不會直接把彈幕和這個視頻綁在一起的。
 
  也就是說,有一個視頻地址為https://www.bilibili.com/video/av67946325,你如果直接去requests.get這個地址,里面是不會有彈幕的,因為B站的彈幕是先加載當前視頻的界面,然后再異步填充彈幕的。
 
  接下來我們可以打開火狐瀏覽器(平常可以火狐谷歌控制臺都使用,因為谷歌里面因為插件被攔截下來的包在火狐可以抓到,同理谷歌也是)的控制臺來觀察網絡請求了。
 
  經過仔細排查之后,找到了一個請求xml的,它后面跟了一個oid,查看它的響應內容之后可以發現它就是彈幕文件。
  它的響應時間98毫秒,遠超其它幾個響應,所以說如果把彈幕直接放在視頻頁面,用戶體驗一定會很差。
  找到彈幕了,爬取它很容易,但是我們想要是爬取固定av號視頻的彈幕,而不是說隨意去找一個oid來爬取彈幕,這樣我們都不知道爬下來的彈幕是哪個視頻的。
 
  接下來我們就可以復制oid的117784982值,去視頻頁面搜索看看了,通過視頻來獲得它的oid再來爬xml彈幕就很方便了。
 
  這次用了谷歌瀏覽器,在里面通過搜索oid果然搜索到相關的數據了。
  其中cid是彈幕對應的id,aid對應視頻av號。
 
  先把這個頁面爬取下來。
 
 
  正則表達式最簡單的使用方式其實就是直接match。拿到了內容我們就要從中解析彈幕id了,對于這種規則紊亂的網頁,我們就不能用上一篇中Bs4解析了,而是使用正則表達式。
 
 
  觀察這里的內容,我們大致的匹配規則就有了。
 
  cid={目標}&aid=av號
 
  117784982就是我們的目標。
 
  先根據av號拿到視頻頁面,然后解析視頻頁面拿到oid,最后用oid去請求xml彈幕文件。
 
  這樣我們就完成B站彈幕爬蟲了。
 
  Python,好絕一鬼才!
主站蜘蛛池模板: 久久爱影视i | 国产婷婷高清在线观看免费 | 99久久精品免费观看国产 | 色婷婷激婷婷深爱五月 | 成在线人永久免费视频播放 | 在线精品国产今日亚洲 | 日本超黄视频 | 亚洲国产综合精品 | 精品无码黑人又粗又大又长 | 亚洲成年人免费网站 | 自拍亚洲国产 | 5151四虎永久在线精品免费 | 天天干天天色综合 | 91在线精品免费观看 | 黄色免费视频在线观看 | 久久久久成人精品免费播放动漫 | 国产午夜精品一区二区三区四区 | 四虎永久免费884hutv | 午夜dj高清免费观看视频 | 草草浮力地址线路①屁屁影院 | a级片在线播放 | 亚洲va久久久噜噜噜久久天堂 | 国产成人+亚洲欧洲+综合 | 少妇人妻诗雨系列无删减 | 欧洲美女网站 | 日本少妇高潮喷水xxxxxxx | 黄色成人小视频 | 国产精品高清全国免费观看 | 午夜在线观看免费观看大全 | 国产精品一区二区av | 国产精品99久久精品爆乳 | 无码少妇一区二区性色av | 国产精品扒开腿做爽爽爽视频 | 国产乱码精品一品二品 | 欧美亚洲国产精品久久蜜芽 | 香蕉午夜福利院 | 国精产品一区一区三区mba下载 | 亚洲 欧美 国产 日韩 精品 | 无码人妻丰满熟妇啪啪网站 | 亚洲av无码一区二区三区四区 | 四虎影视大全免费入口 |