随着人工智能和深度学习的风暴来临,越来越火爆,笔者也准备从头学习这些知识,写相关文章。本文是笔者学习部署阿里云服务器环境,然后完成第一个爬虫,是一篇很基础的入门文章,后续会再深入学习在服务器上托管定时爬虫,爬取到的数据存入数据库,以及分析爬虫数据等内容,都是很基础的文章,希望这一系列的文章对大家有所帮助,如有错误或不足,还请大家见谅。
1.阿里云服务器设置
阿里云的云系统是基于yum安装镜像的集成环境,包括Nginx、MySQL、Pyenv等。
(,中文意思为:社区企业操作系统)是Linux发行版之一,由Red Hat Linux按照开源条例发布的源代码编译而成。由于来自同一个源代码,一些对稳定性要求较高的服务器会使用它来代替Red Hat Linux的商业版本。两者的区别在于它不包含闭源软件。
阿里云提供了很多产品供大家购买和使用,非常方便。这里笔者随便买了一个,可能不适用。我也是摸着石头过河,一步步去尝试。学习起来其实还是很值得的。
1. 购买系统
阿里云提供的环境地址:运行环境(.8 64位)
产品描述如下:
2.点击购买,进入配置选择页面进行购买
3.购买成功后生成以下订单页面
这里笔者选择了云服务器ECS,镜像.8,支持的操作环境.1、.1、.7。
4、点击菜单页的Set ,需要设置登录名root和登录密码。
5. 点击“前往订单”按钮并付款
6.进入阿里云控制台,点击ECS
然后点击左边栏的“云服务器ECS”图标,生成如下图所示的界面,在这里可以看到我们的服务器已经在运行了。
7.在控制台实现远程登录云服务器
点击“远程登录”后,弹出的界面会提示远程连接密码,请记住这个密码,以后远程登录服务器时都会用到这个密码。
接下来就是输入远程连接密码进行登录。
8.在弹出的黑框中输入登录名root,密码为第4步设置的自定义密码
注:简单的阿里云服务器已经搭建完毕,其他云服务器配置方法类似,比较简单,这里笔者采用的是系统自带的,接下来我会带领大家体验一下Linux基本命令,并编写第一段代码。
2. 基本命令和入门
笔者先给出Linux系统下的常用命令,参见:Putty基础教程(一)入门命令学习与编写HTML
cd 文件夹名:查看路径
dir:查看当前路径下的所有文件
ls:列出当前文件夹下所有内容
pwd:显示当前路径
clear: 清空终端屏幕命令,Ctrl+L清除屏幕
mkdir [dir]: 新建文件夹
mv *** ****:移动或者重命名
rm *** ***:删除一次可以删除多个
cp:拷贝
touch 文件名: 新建文件
vi 文件名: 编辑文件命令
cat 文件名: 查看文件内容
wget (路径):下载
unzip ***.zip:压缩文件到当前目录
ls -ltr | cat -vte: 显示文件夹下所有内容详细信息
1.清屏命令:clear
2.查看文件内容
$ls 列出当前文件夹下所有内容
$ls -o 列出当前文件夹中所有内容,含详细信息,但不列出group
$ls -l 同上,含group信息
$ls -a 列出当前文件夹中所有内容,包含以”.”开头的文件
$ls -t 按更改时间排序
$ls -v 按版本先后排序
如下图可以看到我建立的三个文件,“ls -o”显示详细信息。
3. 创建新文件夹
4.检查路径
5. 创建文件
6.检查版本
7. 编辑程序
注意:
(1)输入“vi first.py”后,用 vi 打开文件,就进入了“命令行模式”,需要切换到“插入模式”才能输入文本。切换方法:在“命令行模式”下按字母“i”,进入“插入模式”,此时就可以开始输入文本了。
(2)编辑完成后,需要从插入模式切换到命令行模式来保存文件。切换方式是按“ESC”键。
(3)保存并退出文件:在命令模式下输入:wq!(不要忘记wq前面的:)
执行步骤:
输出指令:vi first.py
点击键盘:i键 - 编辑代码(Insert)
输出代码:
#!/usr/bin/python
print("this is my first python code.")
print("hello,Eastmount!!!")
print("Bye, Nana.")
点击键盘:Esc键
输出命令::wq
注意,我们还可以使用“vim first.py”来编辑代码,并且以彩色显示,如下所示:
8.运行程序
输出如下:
this is my first python code.
Hello, Eastmount!!!
Bye, Nana.
注意:在使用Linux系统时,如果一屏显示不完内容,想要切换到上一页或者下一页,可以使用“Shift+”快捷键查看上一页内容,“Shift+”查看下一页内容。
3.实现爬虫代码
可以调用pip工具来安装扩展包,这是一个很方便的手段,这里我们通过这个扩展包来安装爬虫扩展包。
安装扩展包
安装扩展包
查看已安装的扩展包
创建第一个爬虫code.py
编辑代码
输入代码
#!/usr/bin/python
import sys
import urllib
import urllib.request
from bs4 import BeautifulSoup
print(sys.getdefaultencoding())
url = "http://www.baidu.com"
print(url)
content = urllib.request.urlopen(url).read()
#print(content)
soup = BeautifulSoup(content,"html.parser")
print(soup.title)
print(soup.title.get_text())
输出
注意,输出的中文是乱码,下篇文章会讲解如何解决这个问题。
4.Putty基本使用
PuTTY 是一款用于连接 SSH、普通 TCP 和串行接口的软件。PuTTY 是一款开源软件,主要由 Simon 维护,使用 MIT 许可证。
随着Linux在服务器端应用的普及,Linux系统管理越来越依赖远程访问,在各类远程登录工具中,Putty是其中的佼佼者,免费、x86平台、SSH和客户端,但功能却丝毫不逊于商业工具。
连接到远程服务器
操作界面如下:
登录阿里云服务器
在Host Name中输入公网IP地址,例如39.xx.xx.166,点击“Open”按钮,如下图。
登录后的界面如下图所示,填写登录名“root”以及对应的登录密码。
然后就可以操作远程服务器了,比如运行我们的.py爬虫代码。
可以看到,百度搜索官网的标题《百度一下,你就会知道》被抓取了。下面推荐更多知识,这里就不赘述了。通过Putty,我们可以更好的管理远程服务器,上传文件到服务器。总之,希望这篇基础文章对大家有所帮助,特别是对刚接触云服务器的新手。如果你是高手,还请大家多提建议,共同提高。
很高兴回到阿里云,很高兴在这里和大家见面。希望分享更高质量的文章,帮助到大家。珍惜每一刻。
扫一扫在手机端查看
我们凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求,请立即点击咨询我们或拨打咨询热线: 13761152229,我们会详细为你一一解答你心中的疑难。