와 진짜 내가 컴맹은 컴맹인가보다 Python에서 그냥 import redis 하고 쓰면 그냥 써지는건줄 알았다. 근데 아니었다. redis server를 설치해야했다 ㅡㅡ 일단 삽질기를 기록해보겠다. 일단 기본적인 튜토리얼은 아래 사이트를 참고했다. http://www.bogotobogo.com/python/python_redis_with_python.php 열라 간단하다. pip install redis prompt에서 위 명령어로 일단 redis를 설치해주자. 그리고 코드는 아래와 같이 간단히 써보았다. import redis r = redis.Redis(host='localhost', port=6379, db=0) #인자는 생략해도 됨 r.set('foo','bar') r.get('foo') 오메..
beautiful soup 등으로 한글 url에 접근하려고 하면 접근이 안된다. 한번 변환을 해줘야 한다 흔히 봤을 것이다. 예를 들어 http://www.instagram.com/explore/tags/존맛탱 의 경우는 http://www.instagram.com/explore/tags/%EC%A1%B4%EB%A7%9B%ED%83%B1 이런식으로 이상한 괴기스러운 문자로 변환된다. 이를 이용하면 된다. urllib의 parse method를 이용해서 아래와 같이 작성해준다. from urllib import parse url_tmp = "www.instagram.com/explore/tags/" + word url = "http://" + parse.quote(url_tmp) 그러면 'word'에 한글..
selenium을 통해서 self.browser.get(url) 하고서 self.browser.page_source 를 해줬는데.. 원하는 페이지의 내용이 아니다..? 왜그런 것일까 나는 막연히 get(url) 메소드가 블락킹 메소드겠거니.. 했다. 근데 생각해보니 ajax로 로딩되는 놈은 page가 loaded 된 이후에도 계속해서 동적으로 로딩 된다는 사실.. 즉 블락킹 메소드고 뭐고를 떠나서 아직 동적으로 그려지지 않았을 수 도 있다! 그럼 어떻게 해야하는가? selenium wait으로 검색하면 몇가지 방법이 나온다. http://selenium-python.readthedocs.io/waits.html 를 참고하면 좋다. 크롤링을 원하는 태그가 나올때까지 wait 하는 기능이다. 유후 오늘 열라..
이번에는 간단한 restful server를 만들어서, 입력된 tag의 갯수를 화면에 표시해주는 프로그램을 짜보자 일단 flask를 설치하고 (pip install flask) 기본 경로 옆에 templates라는 폴더를 만들고 그 안에 hello.html 을 만들어서 아래와 같은 내용으로 채운다 {{count}} 위의 {{count}} 부분에 tag 갯수를 표시해 줄 것이다. 이제 이전편에 짠 파서를 이용해서 아래와 같은 코드를 작성하자 from flask import Flask, render_template, request from bs4 import BeautifulSoup import selenium.webdriver as webdriver app = Flask(__name__) @app.rout..
Python의 Django를 이용해서 간단한 웹서버를 만들어보자 0. 장고 설치 pip install django 1. 프로젝트 폴더 생성 django-admin startproject get_tag_count 우선 프로젝트를 시작할 폴더로 이동한 다음 위처럼 입력해서 get_tag_count 라는 프로젝트를 생성하자. 2. 브라우저 접속 테스트 생성된 프로젝트 폴더 안으로 들어가서 아래와 같이 입력해보자 python manage.py runserver 그러면 서버가 실행된다. 이제 인터넷 브라우저를 이용해서 http://127.0.0.1:8000 으로 들어가보자 위 페이지가 떴으면 성공한것임. 이제부터 하나하나 수정해가면 나만의 멋진 웹서버를 개발 할 수 있다.
저번편에 이어서 Instagram 크롤링을 계속 해보자 먼저 할 일은 chrome process를 hidden으로 실행하는 것. 이것에 대한 정보는 거진 https://beomi.github.io/2017/01/20/HowToMakeWebCrawler/ 에서 다 얻어왔다. 아주 단순하다. chromedriver의 attribute에 headless를 추가하면 끝. 거기다가 span 태그를 통해 읽어온 '태그 갯수'에서 text만 추출하는 코드를 추가했다. from bs4 import BeautifulSoup import selenium.webdriver as webdriver url = "https://www.instagram.com/explore/tags/jmt/" options = webdriver...
파이썬을 이용해서 Instagram의 해쉬태그 갯수를 읽어와보자. 글은 의식의 흐름에따라 작성한다. 일단 기본적으로 사용할 놈들 1. requests 2. beautiful soup4 따라서 이놈들의 설치를 위해 pip install beautifulsoup4 pip install requests 를 하자 그리고 가장 기본적으로 웹페이지의 태그를 긁어와보자! import requests from bs4 import BeautifulSoup def get_html(url): _html = "" resp = requests.get(url) if resp.status_code == 200: _html = resp.text return _html url = "https://www.instagram.com/exp..
- Total
- Today
- Yesterday
- jni강좌
- NDK
- C++
- AWS
- algorithm
- database
- it
- winapi
- source
- Troubleshooting
- java
- Cloud
- 안드로이드
- Python
- Quiz
- android
- C
- gcc
- Visual C++
- jni
- 드라이버
- 음악
- 프로그래밍
- db
- MFC
- API
- 리눅스
- kering
- linux
- driver
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |