python-python程序-泓源视野

python

首页 - 文章 - python74

分类

  • linux的pip3 install之后出现not foud command解决PATH

    linux的pip3 install之后出现not foud command解决PATH

    linux python
    Installing collected packages: numpy WARNING: The scripts f2py, f2py3 and f2py3.8 are installed in '/root/.local/bin' which is not on PATH. Consider adding this directory to PATH or, if you prefer to suppress this warning, use --no-warn-script-location. 解决方法很简单 首先echo $PATH 然后添加软件安装的PATH路径 export PATH=/usr/local/bin 或 export PATH=/usr/local/bin:$PATH
  • python实例爬取网站所有url链接

    python实例爬取网站所有url链接

    python
    import re import requests # 获取并检验要爬取的网站 def url_get(): url=input("please input the url:") try: kv={'user_agent':'Mozilla/5.0'} requests.get(url,headers=kv) return url except: print("your url is incorrect!!") return url_get() ''' 找出url中的域名 比如从https://www.xiaogeng.top/article/page/id=3筛选出www.xiaogeng.top ''' def url_same(url): #判断输入的网站使用的是https还是http urlprotocol=re.findall(r'.*(?=://)',url)[0] print('该站使用的协议是:' + urlprotocol) if len(re.findall(r'/',url)) >2: if urlprotocol=='https': sameurl = re.findall(r'(?<=https://).*?(?=/)', url)[0] else: sameurl = re.findall(r'(?<=http://).*?(?=/)', url)[0] else: url = url + '/' if urlprotocol=='https': sameurl = re.findall(r'(?<=https://).*?(?=/)',url)[0] else: sameurl = re.findall(r'(?<=http://).*?(?=/)',url)[0] print('域名地址:' + sameurl) return sameurl # 爬取url页面中的所有链接 def spiderpage(url): kv={'user_agent':'Mozilla/5.0'} r=requests.get(url,headers=kv) r.encoding=r.apparent_encoding…
  • Product Analysis using Web Scraping Technique in Python open code

    Product Analysis using Web Scraping Technique in Python open code

    python
    Web Scraping is one of the Data Scraping technique in which data is extracted from the websites for analysis.In this project we will learn the how to analyze the product in an online shop like flipkart, for example we will analyze various brands of Mobile Tablets sold in the flipkart web site and suggest the medium range product in price range. Using the web scraping techniques we will be able to get the details prices,specifications, reviews,highlights…
  • 傻瓜式文章爬虫-newspaper库简介

    傻瓜式文章爬虫-newspaper库简介

    python
    今天比较闲,我就浏览了会github上有关python爬虫的项目。看到一个newspaper库,关注数挺高的。作者受lxml的强大和requests的简洁,开发了newspaper库。 requests库的作者都盛赞newspaper库的牛B。 "Newspaper is an amazing python library for extracting & curating articles." -- tweeted by Kenneth Reitz, Author of requests 一、newspaper特性 多进程文章下载框架 新闻链接识别 可从html文件中提取文本、图片 可文章关键词提取 可生成文章概要 提取文章作者名 谷歌趋势词提取 支持十数种语言(含中文) 其实之前我写过一个类似的库的介绍-goose(仅支持python2),跟newspaper有类似功能。 文章名《不会写爬虫的快来goose一下》 二、安装 pip3 install newspaper3k 注意:在python3中安装,必须是newspaper3k。 newspaper是python2上的库。 三、开始代码 3.1newspaper支持的语言 import newspaper print(newspaper.languages()) Your available languages are: input code full name ar Arabic da Danish de German el Greek en English es Spanish fi Finnish fr French he Hebrew hu Hungarian id Indonesian it Italian ko…
  • python3使用newspaper库提取新闻内容(readability,jparser)

    python3使用newspaper库提取新闻内容(readability,jparser)

    python wordpress
    之前使用其他方法,诸如xpath,css,正则表达式,beautifulsoup来解析新闻页面的时候,总是会遇到这样那样各种奇奇怪怪的问题,让人很头疼。 最近学到一个新的包newspaper,用来抓取新闻正文,真的很好用呢。 这个包是需要自己重新安装的,我使用的是pycharm。 在settings配置环境,添加包newspaper的时候总是添加不进去。那就pip吧! 于是打开命令行窗口,输入pip3 install --ignore-installed --upgrade newspaper3k,等待一会就安装好了。 如果文章没有指明使用的什么语言的时候,Newspaper会尝试自动识别。 from newspaper import Article url = '你想要爬取的网站url' news = Article(url, language='zh') news .download() news .parse() print(news.text) print(news.title) print(news.html) print(news.authors) print(news.top_image) print(news.movies) print(news.keywords) print(news.summary) 也可以直接导入包,如果语言是一致的,也可以直接声明 import newspaper news = newspaper.build(url, language='zh') article = news.articles[0] article.download() article.parse() print(article.text) GitHub:https://github.com/codelucas/newspaper Newspaper文档说明:https://newspaper.readthedocs.io/en/latest/ Newspaper快速入门:https://newspaper.readthedocs.io/en/latest/user_guide/quickstart.html Newspaper是一个python3库。 注:Newspaper框架并不适用于实际工程类新闻信息爬取工作,框架不稳定,爬取过程中会有各种bug,例如获取不到url、新闻信息等,但对于想获取一些新闻语料的朋友不妨一试,简单方便易上手,且不需要掌握太多关于爬虫方面的专业知识。 安装 pip3 install newspaper3k or pip3 install --ignore-installed --upgrade newspaper3k 如果文章没有指明使用的什么语言的时候,Newspaper会尝试自动识别。支持10多种语言并且所有的都是unicode编码。 import time from newspaper import Article url = 'https://www.chinaventure.com.cn/news/78-20190819-347269.html' url='https://36kr.com/p/5237348' # 创建文章对象 news =…
  • Scrape Multiple Pages of a Website Using a Python Web Scraper IMDb’s Top

    Scrape Multiple Pages of a Website Using a Python Web Scraper IMDb’s Top

    python
    This is the second article of my web scraping guide. In the first article, I showed you how you can find, extract, and clean the data from one single web page on IMDb. In this article, you’ll learn how to scrape multiple web pages — a list that’s 20 pages and 1,000 movies total — with a Python web scraper. Where We Left Off In the previous article, we scraped and cleaned the data of the title, year of release, imdb_ratings, metascore, length of movie,…
  • 适用于python初学者的Numpy手册

    适用于python初学者的Numpy手册

    python
    在此博客中,我们将讨论python中的Numpy库,稍后我们还将准备一个笔记本,以后我们可以将其用作手册。 什么是Numpy? Numpy代表“数值Python”,它是用于各种科学计算的python库。它由许多多维数组和一组处理它们的例程组成。通过添加大量高级数学函数,它增加了对矩阵和大型多维数组的额外支持。它由Travis Oliphant于2005年创建。这是一个开源项目,您可以在代码中自由使用它。 在python中,我们有可以满足数组目的的列表,但是列表的问题是它们处理缓慢。另一方面,NumPy数组比List更具优势。它们比列表快得多,因为它们存储在内存中的一个连续位置中。而且,NumPy阵列经过优化可在CPU内核上工作。 您可以在此处找到初学者的熊猫手册。 博客中涵盖的概念 安装和环境设置 创建数组 基本功能 数据类型和转换 初始化不同类型的数组 运作方式 访问和更改特定元素,行,列 三角函数 统计 重塑 安装和环境设置 我们可以简单地使用Pip安装NumPy。只需打开您的CMD或终端并输入 点安装numpy 现在测试安装是否成功,只需键入python,然后import numpy一切正常,就不会看到任何错误。 在此博客中,我们的主要重点是为我们创建一本手册。我们将使用google colab,以便即使通过移动设备也可以轻松访问我们的手册。只需访问Google Colabotary并为您创建一个帐户即可。然后创建一个新的笔记本,并将其命名为Numpy Handbook或您喜欢的其他名称。现在您已经完成所有设置,关注博客,并开始编写代码。 我们首先导入Numpy 将numpy导入为np 创建数组 使用Numpy,我们可以创建一维和多维数组。 -:一维数组:- arr = np.array([1,2,3,4,5]) ######## OUTPUT ########## array ([1,2,3,4,5 ]) -:多维数组:- ### 2d 数组= np.array([[1,2,3,4,5], [6,7,8,9,10]]) ### 3d lst1 = [1,2,3,4 ,5] lst2 = [6,7,8,9,10] lst3 = [11,12,13,14,15] array = np.array([[lst1],[lst2],[lst3]])4d,5d,---创建数组,我们只需要以列表的形式添加这些多维。 基本功能 Numpy中有许多基本功能,但是在本博客中,我们将重点介绍用于识别数组的最具体功能。 ndim 返回数组维数 shape 返回数组的当前形状。 dtype 返回数组的类型 itemssize 返回数组的大小 nbytes 返回存储在内存中的总大小 arange 返回一个具有均匀空格数字 np.arange(20)的数组:-返回一个具有0到19个数字的数组。…
  • 2021年最流行的python程序你都知道哪几个?

    2021年最流行的python程序你都知道哪几个?

    python
    我们正处于2021年。这一年充满了灾难和惊喜,您无法否认。每天您起床后,就会知道世界上某个地方发生了某些事情。无论是澳大利亚的丛林大火还是亚洲的蝗虫大灾,今年都有很多事情发生。由于这些巨大的灾难,我们所有人都失去了一些宝贵的生命。无论您丢了工作还是丢了人,每个人都丢了东西。每个人都失去的是时间,没有什么比时间宝贵。在这个博客中,我提出了21个想法,使用我最好的朋友(也许是您在博客Python之后的朋友)来实现2021年的自动化。 您可以随时查看我的上一篇文章,获得20个Python软件包,以获得更多的想法和认识。 1.您搜寻Google的方式 在大多数情况下,我们搜索google来找到我们所查询的答案,而google是如此聪明,以至于80%的时间它都会在结果中显示结果,并通过链接生成甜美的摘要。使用python创建一个简单的GUI并编写脚本以从Google主页中抓取数据。将脚本连接到GUI并展示结果。您甚至可以通过添加NLP来更进一步,以强制生成其余20%结果的摘要。您可以在这里了解一下。 2.电子邮件自动化 您还在为每个客户编写电子邮件吗,您可以使用python自动处理电子邮件。创建一个CSV文件并存储您要发送的所有电子邮件和信息,然后使用电子邮件包发送电子邮件。您可以查看本文以了解情况。只需使用Loop遍历CSV的每一行,即可自动处理包含自定义消息的数千封电子邮件。 3.自动化网站的登录过程 我们每天都有一些社交网站,例如Facebook,Twitter,Instagram等。每次登录时,都需要输入登录ID和密码,这是一个非常无聊的过程。使用python和selenium,您可以自动执行登录过程。编写脚本并传递用户标识和密码。该脚本将自动登录到您的帐户。您可以查看这篇文章,了解有关过程的想法。 4.自动化博客营销 您是否撰写博客,但如果您是一名程序员,那么无论您是博客还是您自己,始终都需要进行营销。python可以通过自动化营销流程来帮助您完成繁重的工作。免费营销的最大平台之一是Facebook和Quora。您可以通过将帖子添加到两个组中的大组来营销数据。然后,该组的成员单击您提供的链接,这将为您带来巨大的流量。此过程中存在一个问题,这是一个非常漫长而无聊的过程,但是使用硒可以使该过程自动化。查看这篇文章,以获取想法。 5.自动化点赞(Instagram对特定人点赞) 这是我最喜欢的自动化。您可以使用Selenium Automate在某人的所有帖子中点赞。这是一个非常简单的过程。创建一个使用selenium登录到您的帐户的脚本。然后跟踪搜索栏,然后输入该特殊ID的名称,并使用click事件打开其ID。接下来,找到posts类,然后简单地使用click,click,back。 6.音乐自动化 没错,我在工作时总是听音乐,这也是事实,我一直都被卡在最难选择的一首歌。如果您还觉得自己与单词联系在一起,那么ospython中的模块是您的朋友。它可以用于自动播放歌曲。编写一个Python脚本来播放给定路径中的歌曲。您可以借助os.startfile和random模块来随机选择歌曲。 7. SMS自动化 您是否厌倦了通过手机编写短信。只需使用python和免费的SMS服务(fast2sms)从您的桌面发送SMS。您甚至可以编写一个bat脚本,使它更进一步,只需单击一下即可运行Python脚本。如果您是一个疯狂的人,则可以编写一个键盘记录器来进一步了解它,它会读取您的键并在键的完美组合下启动应用程序。 8.编写博客自动化 您可以使用python中的语音识别库为您创建一个打字机助手,以听取您的内容并撰写博客。 9.有声读物 Kindle是有声读物的最大卖家,他们每月以9.99美元的价格出售有声读物。它不是很多,但是仍然,您必须支付一些钱,但是使用python您不必只花几行代码就支付一分钱,您的Audiobook也就准备好了。Pyttsx3是python中的python库,可用于将文本转换为音频。您甚至可以根据需要更改声音,音调和速率。 10.批量文件重命名自动化 使用pythonos模块也可以很方便地进行工作。实现起来非常简单。首先,您需要定位还原所有文件的文件夹,然后使用循环,rename()您可以轻松地做到这一点。 11.使用硒自动化订单 我经常购物,大多数时候我要购买的商品都缺货。因此,我决定找到解决方案。我们可以使用selenium来自动购买商品,如果有库存,我们可以每分钟安排和发送请求,每当有库存商品时,selenium脚本就会自动为您购买商品。 12.从PC删除无用和重复的文件 它是您可以节省的最佳时间自动化方法之一。如果您曾经创建过一个网站,则知道我们会尝试使用多种图像来为背景选择一个完美的图像。我通常会下载10–20张图像,然后选择一张。因此,我们的下载文件夹变得混乱,手动删除这些文件是一项艰巨的任务。您可以通过编写脚本来自动执行此过程,该脚本读取文件并检查上次使用时间或下载日期。如果下载日期过旧,则会自动将其删除。同样,如果有相同的文件,那么它也会将其删除。 13.励志名言,以提高生产力 出色的自动化功能可以帮助您将生产率提高多达10倍。使用API​​或Web Scraping从网站获取报价。然后使用Toastnotifierpython计划包每10分钟或半小时报价一次,这样,每当您遇到错误时,都会有人激励您。 14.交易机器人 自动交易机器人是算法交易的子集,它使用计算机程序创建买卖订单,并自动将订单提交给市场中心或交易所。您可以为自己创建一个交易机器人,YouTube上有很多教程。简单来说,编写一个python脚本来跟踪股票的收盘价,以及当价格下跌或使用硒增加或出售或购买股票时。 15.价格追踪器 价格跟踪器可以帮助您跟踪所有喜欢的产品的价格,只要价格下降,它就会自动向您发送一封包含该产品链接的电子邮件。您可以使用网络抓取功能在python中构建价格跟踪器。您可以从这里对此有所了解。 16.游戏比分自动化 我真的很喜欢看板球和足球,但是只要有我最喜欢的球队的比赛,我总是会做很多重要的事情而错过比赛。我编写了一个脚本,可以帮助我每10分钟从比赛中获得一个得分,作为桌面通知。这很简单。只需从网站上抓取分数toastnotifier()并将其作为通知发送即可。 17.新闻自动化 每个人都喜欢听流行新闻,但没人喜欢去这些网站听。好吧,如果您也一样,则可以使用newsapi并获取您所在国家和城市的最新趋势新闻。接下来,使用pyttsx3,可以使计算机为您讲话。 18.天气自动化 这种自动化可以帮助您在出现异常情况时获取天气信息。您可以使用网络抓取从Google抓取天气信息,然后简单地应用一些条件并据此获得通知。 19.每日Web自动化 每天开始工作时,我通常都会打开一些常见的网站,例如StackOverflow,图书馆文档,Spotify和youtube。您的可能会有所不同。您可以使用Web浏览器模块和bash脚本来自动化Web。恰到好处的简单脚本可以一次打开多个网站。接下来,单击bash和VBS脚本即可在没有控制台的情况下运行该脚本。 20.游戏自动化 您可以使用python和selenium自动化许多游戏。其中之一,我最喜欢的是2048游戏自动化。该游戏的自动化非常简单。您只需要传递一组密钥即可使其工作。 21.桌面自动化 这种自动化需要大量的工作和奉献精神,没有止境。您可以使用python及其不同的库为您创建一个桌面助手,该助手可以完成您在PC上执行的几乎所有任务。要了解这一点,请查看本文。
  • anacoda下使用shell终端命令行和jupyter notebook中anacoda安装git

    anacoda下使用shell终端命令行和jupyter notebook中anacoda安装git

    python
    在anacoda下使用!作为启动linux命令 如:  !python -V 查询python版本 使用命令 conda install git 安装git jupyter 中使用git 本子太重不想来回带着跑,所以想在实验室电脑上把代码同步到git,之前一直用linux,没在windows上用过,记个笔记。 首先用conda安装个git conda install git 之后一路“y”就好 jupyter 添加git项目 在想要的路径下克隆项目 首先在自己的git上复制URL jupyter新建一个terminal 在终端输入命令行,克隆git项目 输入后按提示输入帐户名密码即可。 之后终端对应路径下输入jupyter notebook,即可在jupyter中打开。 后续push 也和常规git操作一样
  • solved python version problem with no module mysql and mysql.connector

    solved python version problem with no module mysql and mysql.connector

    python
    105 I was facing the similar issue. My env details - Python 2.7.11 pip 9.0.1 CentOS release 5.11 (Final) Error on python interpreter - >>> import mysql.connector Traceback (most recent call last): File "<stdin>", line 1, in <module> ImportError: No module named mysql.connector >>> Use pip to search the available module - $ pip search mysql-connector | grep --color mysql-connector-python mysql-connector-python-rf (2.2.2) - MySQL driver written in Python mysql-connector-python (2.0.4) - MySQL driver written in Python…
您是第8233100 位访客, 您的IP是:[172.69.62.13]