파이선 셀레니움 유튜브 댓글 수집

더시민 2 2007 0 2022.02.01 20:16

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time
import csv
import pandas as pd

driver = webdriver.Chrome('C:/Users/@@@/AppData/Local/Programs/Python/Python39/chromedriver.exe')
driver.get('https://youtu.be/@@@@@@@@')
time.sleep(3)

# 셀레니움 옵션 설정
# options = webdriver.ChromeOptions()
# options.add_argument('headless') # 크롬 띄우는 창 없애기
# options.add_argument('window-size=1920x1080') # 크롬드라이버 창크기
# options.add_argument("disable-gpu") #그래픽 성능 낮춰서 크롤링 성능 쪼금 높이기
# options.add_argument("user-agent=Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36") # 네트워크 설정
# options.add_argument("lang=ko_KR") # 사이트 주언어
# driver = webdriver.Chrome(ChromeDriverManager().install(), chrome_options=options)
# 크롤링 목표 : 해당 영상에 대한 댓글 id, 댓글 내용, 댓글의 좋아요 개수, 날짜 추출
data_list = []
# 스크롤 내리기
body = driver.find_element_by_tag_name('body')
last_page_height = driver.execute_script("return document.documentElement.scrollHeight")
while True:
driver.execute_script("window.scrollTo(0, document.documentElement.scrollHeight);")
time.sleep(3)
new_page_height = driver.execute_script("return document.documentElement.scrollHeight")
if new_page_height == last_page_height:
break

try:
driver.find_element_by_css_selector("#dismiss-button > a").click()
except:
pass
buttons = driver.find_elements_by_css_selector("#more-replies > a")

time.sleep(1.5)

for button in buttons:
driver.execute_script("arguments[0].click()", button)
#button.send_keys(Keys.ENTER)
time.sleep(2)
#button.click()

# bs4 html 파싱
html_source = driver.page_source
soup = BeautifulSoup(html_source, 'html.parser')

id_list = soup.select("div#header-author > h3 > #author-text > span")
comment_list = soup.select("yt-formatted-string#content-text")

id_final = []
comment_final = []

for i in range(len(comment_list)):
temp_id = id_list[i].text
temp_id = temp_id.replace('\n', '')
temp_id = temp_id.replace('\t', '')
temp_id = temp_id.replace(' ', '')
id_final.append(temp_id)

temp_comment = comment_list[i].text
temp_comment = temp_comment.replace('\n', '')
temp_comment = temp_comment.replace('\t', '')
temp_comment = temp_comment.replace(' ', '')
comment_final.append(temp_comment)

pd_data = {"아이디" : id_final , "댓글 내용" : comment_final}
youtube_pd = pd.DataFrame(pd_data)

youtube_pd.to_excel('youtube.xlsx')

driver.close()

2 Comments

더시민 2022.02.03 17:53

def clean_text(inputString):
text_sub = re.sub('[-=+,#/\?:^.@*\"※~ㆍ!』‘|\(\)\[\]`'…》\”\“\’·]', ' ', inputString)
return text_sub

input = '개구리 어쩌구 - "엉덩이 흔들들 " [2020]'
string = clean_text(input)
print(string)

더시민 2022.02.03 16:37

버튼 클릭은
buttons = driver.find_elements_by_css_selector("#more-replies > a")
이거보다는
buttons = driver.find_elements_by_css_selector("#more-replies")
로 해서
time.sleep(1.5)

for button in buttons:
driver.execute_script("arguments[0].click()", button)
#button.send_keys(Keys.ENTER)
time.sleep(2)
#button.click()
js실행으로 하는게 더 나은듯.

로그인한 회원만 댓글 등록이 가능합니다.

번호 제목 이름 날짜 조회

245

1 금일 마케팅 뉴스 1
더시민 171 01.12

더시민

01.12

171
244

1 금일 마케팅 뉴스 1
더시민 207 2023.12.26

더시민

2023.12.26

207
243

2 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 2
강만정 199 2023.12.24

강만정

2023.12.24

199
242

1 우울할때 기분전환하는 좋은 방법 1
onecitizen 395 2023.12.14

onecitizen

2023.12.14

395
241

1 추천 ai 1
더시민 190 2023.12.09

더시민

2023.12.09

190
240

1 네이버, 생성형 AI 검색 '큐' 통합검색에 적용 1
더시민 328 2023.12.05

더시민

2023.12.05

328
239

안녕하세요. 네이버 쇼핑입니다.
더시민 249 2023.12.05

더시민

2023.12.05

249
238

1 네이버 쇼핑 공지 2023 11 25 안녕하세요, 네이버 쇼핑 입니다. 1
더시민 481 2023.11.25

더시민

2023.11.25

481
237

1 ‘최강욱 논란’ 민주당, 한밤중 채팅방 설전 | 김진의 돌직구쇼 1
더시민 397 2023.11.23

더시민

2023.11.23

397
236

1 구글, 2024년 3분기부터 크롬 타사 쿠키 차단 예정 1
더시민 742 2023.11.22

더시민

2023.11.22

742
235

1 2. 네이버, 쇼핑 트래픽 어뷰징 시 광고 제재 1
더시민 331 2023.11.21

더시민

2023.11.21

331
234

알콜중독자와 같이 사는 삶
더시민 270 2023.11.18

더시민

2023.11.18

270
233

1 광고 점령한 '애니메이션 캐릭터' 유튜브, '광고차단' 전쟁의 부작용 1
더시민 368 2023.11.18

더시민

2023.11.18

368
232

1 이효리, 탁재훈 기강 잡으러 온 진짜 쎈 누나ㅣ노빠꾸탁재훈 시즌2 EP.77 1
onecitizen 185 2023.11.11

onecitizen

2023.11.11

185
231

생성형 AI 구글링 한국어로 한다
더시민 162 2023.11.10

더시민

2023.11.10

162
230

1 1. 네이버, 3분기 매출·영업익 역대 최대 I am 특가예요… 전청조 밈 활용 마케팅 논란 1
더시민 262 2023.11.06

더시민

2023.11.06

262
229

1 1. 유튜브, 광고 차단 프로그램 막았다 3. 네이버지도, 리뷰 조작 마케팅 범람 7. 글로벌 보폭 넓히는 … 1
더시민 255 2023.11.02

더시민

2023.11.02

255
228

1 10월25일 수요일 매일의 명상 단합(Unity)이 없다면… 1
더시민 171 2023.10.25

더시민

2023.10.25

171
227

1 [NNP 뉴스] 2023년 10월 19일(목) 1
더시민 226 2023.10.21

더시민

2023.10.21

226
226

1 마케팅 뉴스~ 1
더시민 193 2023.10.18

더시민

2023.10.18

193

정렬

검색

파이선 셀레니움 유튜브 댓글 수집

파이선 셀레니움 유튜브 댓글 수집

소셜계정으로 로그인