Linux C++ 简单爬虫

 

转载:http://blog.csdn.net/orthocenterchocolate/article/details/38665937

方便易用,传入URL,返回对应页面的内容

[cpp] view plain copy
  1. #include <iostream>  
  2. #include <string>  
  3. #include <netdb.h>  
  4. #include <string.h>  
  5. #include <stdlib.h>  
  6. using namespace std;  
  7.   
  8. void parseHostAndPagePath(const string url, string &hostUrl, string &pagePath){  
  9.     hostUrl=url;  
  10.     pagePath="/";  
  11.     int pos=hostUrl.find("http://");  
  12.     if(-1!=pos)  
  13.         hostUrl=hostUrl.replace(pos,7,"");  
  14.     pos=hostUrl.find("https://");  
  15.     if(-1!=pos)  
  16.         hostUrl=hostUrl.replace(pos,8,"");  
  17.     pos=hostUrl.find("/");  
  18.     if(-1!=pos){  
  19.         pagePath=hostUrl.substr(pos);  
  20.         hostUrl=hostUrl.substr(0,pos);  
  21.     }  
  22. }  
  23.   
  24. string getPageContent(const string url){  
  25.     struct hostent *host;  
  26.     string hostUrl, pagePath;  
  27.     parseHostAndPagePath(url, hostUrl, pagePath);  
  28.     if(0==(host=gethostbyname(hostUrl.c_str()))){  
  29.         cout<<"gethostbyname error\n"<<endl;  
  30.         exit(1);  
  31.     }  
  32.   
  33.     struct sockaddr_in pin;  
  34.     int port=80;  
  35.     bzero(&pin,sizeof(pin));  
  36.     pin.sin_family=AF_INET;  
  37.     pin.sin_port=htons(port);  
  38.     pin.sin_addr.s_addr=((struct in_addr*)(host->h_addr))->s_addr;  
  39.     int isock;  
  40.     if((isock = socket(AF_INET, SOCK_STREAM, 0))==-1){  
  41.         cout<<"open socket error\n"<<endl;  
  42.         exit(1);  
  43.     }  
  44.   
  45.     string requestHeader;  
  46.     requestHeader="GET "+pagePath+" HTTP/1.1\r\n";  
  47.     requestHeader+="Host: "+hostUrl+"\r\n";  
  48.     requestHeader+="Accept: */*\r\n";  
  49.     requestHeader+="User-Agent: Mozilla/4.0(compatible)\r\n";  
  50.     requestHeader+="connection:Keep-Alive\r\n";  
  51.     requestHeader+="\r\n";  
  52.   
  53.     if(connect(isock, (const sockaddr*)&pin, sizeof(pin))==-1){  
  54.         cout<<"connect error\n"<<endl;  
  55.         exit(1);  
  56.     }  
  57.     if(send(isock, requestHeader.c_str(), requestHeader.size(), 0)==-1){  
  58.         cout<<"send error\n"<<endl;  
  59.         exit(1);  
  60.     }  
  61.   
  62.     struct timeval timeout={1,0};  
  63.     setsockopt(isock, SOL_SOCKET, SO_RCVTIMEO, (char *)&timeout, sizeof(struct timeval));  
  64.     char c;  
  65.     bool flag=true;  
  66.     while(recv(isock, &c, 1, 0)>0){  
  67.         if('\r'==c){  
  68.             continue;  
  69.         }else if('\n'==c){  
  70.             if(false==flag)  
  71.                 break;  
  72.             flag=false;  
  73.         }else{  
  74.             flag=true;  
  75.         }  
  76.     }  
  77.   
  78.     int len, BUFFER_SIZE=512;  
  79.     char buffer[BUFFER_SIZE];  
  80.     string pageContent="";  
  81.     while((len = recv(isock, buffer, BUFFER_SIZE-1, 0))>0){  
  82.         buffer[len]='\0';  
  83.         pageContent+=buffer;  
  84.     }  
  85.   
  86.     return pageContent;  
  87. }  
  88.   
  89. int main()  
  90. {  
  91.     cout<<getPageContent("http://www.hao123.com")<<endl;  
  92.     return 0;  
  93. }  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/384407.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux系统编程(七)消息队列

Linux系统编程&#xff08;七&#xff09;消息队列一、什么是消息队列二、消息队列内部原理三、实现消息队列的收发1.发送消息队列2.接收消息队列四、消息队列与命名管道的比较一、什么是消息队列 消息队列提供了一种从一个进程向另一个进程发送一个数据块的方法。每个数据块都…

基于Linux的SOCKET编程之TCP半双工Client-Server聊天程序

转自&#xff1a;http://blog.csdn.net/apollon_krj/article/details/53398448#0-tsina-1-64987-397232819ff9a47a7b7e80a40613cfe1 所谓半双工通信&#xff0c;即通信双方都可以实现接发数据&#xff0c;但是有一个限制&#xff1a;只能一方发一方收&#xff0c;之后交换收发对…

智能算法(GA、DBO等)求解阻塞流水车间调度问题(BFSP)

先做一个声明&#xff1a;文章是由我的个人公众号中的推送直接复制粘贴而来&#xff0c;因此对智能优化算法感兴趣的朋友&#xff0c;可关注我的个人公众号&#xff1a;启发式算法讨论。我会不定期在公众号里分享不同的智能优化算法&#xff0c;经典的&#xff0c;或者是近几年…

Linux socket编程,对套接字进行封装

转自&#xff1a;http://www.cnblogs.com/-Lei/archive/2012/09/04/2670942.html 下面是对socket操作的封装&#xff0c;因为在Linux下写中文到了windows里面会乱码&#xff0c;所以注释用英文来写&#xff0c;有空再查下解决方法吧 socket.h #ifndef SOCKET_H #define SOCKET_…

Linux系统编程(九)线程同步

Linux系统编程&#xff08;九&#xff09;线程同步一、什么是线程同步&#xff1f;二、互斥量三、条件变量pthread_cond_wait函数pthread_cond_signal函数生产者和消费者模型一、什么是线程同步&#xff1f; 线程同步&#xff0c;指一个线程发出某一功能调用时&#xff0c;在没…

linux网络编程(一)网络基础传输知识

linux网络编程&#xff08;一&#xff09;网络传输基础知识一、什么是协议&#xff1f;二、使用步骤典型协议2.网络应用程序设计模式C/S模式B/S模式优缺点3.分层模型4.TCP/IP四层模型通信过程5.协议格式数据包封装以太网帧格式ARP数据报格式IP段格式UDP数据报格式TCP数据报格式…

Linux 进程学习(四)------ sigaction 函数

转自&#xff1a;http://www.cnblogs.com/wblyuyang/archive/2012/11/13/2768923.html 使用 sigaction 函数&#xff1a; signal 函数的使用方法简单&#xff0c;但并不属于 POSIX 标准&#xff0c;在各类 UNIX 平台上的实现不尽相同&#xff0c;因此其用途受 到了一定的限制…

linux网络编程(二)高并发服务器

linux网络编程&#xff08;二&#xff09;高并发服务器错误处理高并发服务器多进程并发服务器客户端错误处理 #include "wrap.h"int Bind(int fd, const struct sockaddr* sa, socklen_t salen) {int ret;if ((ret bind(fd, sa, salen)) < 0){perror("bind…

linux知识(一) 程序、进程与线程

linux知识&#xff08;一&#xff09; 程序、进程与线程程序进程程序如何变成进程&#xff1f;线程线程与进程fork和创建新线程的区别优点程序 程序&#xff1a;程序是已编译好的二进制文件&#xff0c;存储在磁盘中&#xff0c;不占用系统资源 程序包括&#xff1a; RO段&am…

linux知识(二)互斥量、信号量和生产者消费者模型

linux知识&#xff08;二&#xff09;互斥量、信号量和生产者消费者模型一、互斥量产生原因二、信号量生产者消费者模型一、互斥量 产生原因 使用多线程常常会碰到数据混乱的问题&#xff0c;那么使用互斥量&#xff0c;相当于“加锁”的操作&#xff0c;将有助于解决数据混乱…

基于Linux的Socket编程之TCP全双工Server-Client聊天程序

转载&#xff1a;http://blog.csdn.net/apollon_krj/article/details/53437764#0-tsina-1-58570-397232819ff9a47a7b7e80a40613cfe1 一、引言&#xff1a; 由于accept函数、read、write、recv、send等函数都是是阻塞式的&#xff0c;在同一个进程之中&#xff0c;只要有任何一个…

数据结构(一)线性表

数据结构&#xff08;一&#xff09;线性表一、线性表定义二、顺序表定义动态数组三、单链表定义不带头结点带头结点头结点与不带头结点的区别头插法与尾插法双链表循环链表循环单链表循环双链表静态链表一、线性表定义 线性表是具有相同数据类型的n个数据元素的有限序列 特点…

linux网络编程(二)TCP通讯状态

linux网络编程&#xff08;二&#xff09;TCP通讯状态TCP状态转换为什么需要等待2MSL&#xff1f;端口复用TCP状态转换 tcp协议连接开始会经过三次握手&#xff0c;客户端和服务器开始都会处于CLOSED状态 第一次握手&#xff1a;客户端会先发送SYN请求给服务器&#xff0c;客户…

gethostbyname() 函数说明

转载&#xff1a;http://www.cnblogs.com/cxz2009/archive/2010/11/19/1881611.html gethostbyname()函数说明——用域名或主机名获取IP地址 包含头文件 #include <netdb.h> #include <sys/socket.h> 函数原型 struct hostent *gethostbyna…

Linux socket编程(一) 对套接字操作的封装

转载:http://www.cnblogs.com/-Lei/archive/2012/09/04/2670942.html 以前写的&#xff0c;现在回顾一下&#xff1a; 下面是对socket操作的封装&#xff0c;因为在Linux下写中文到了windows里面会乱码&#xff0c;所以注释用英文来写&#xff0c;有空再查下解决方法吧 socket.…

如何在linux上安装sqlite数据库

如何在linux上安装sqlite数据库一、下载二、解压三、配置&#xff08;configure&#xff09;四、编译和安装五、执行sqlite3程序六、测试代码一、下载 首先要先下载sqlite3源码包 链接&#xff1a;https://pan.baidu.com/s/1_70342ZLlPjLlqGzpy5IHw 提取码&#xff1a;84ne …

Linux fcntl函数详解

转载&#xff1a;http://www.cnblogs.com/xuyh/p/3273082.html 功能描述&#xff1a;根据文件描述词来操作文件的特性。 文件控制函数 fcntl -- file control 头文件&#xff1a; #include <unistd.h> #include <fcntl.h> 函数原型&#xff1a; …

vs2019使用sqlite数据库远程连接linux

vs2019使用sqlite数据库远程连接linux一、sqlite3添加到目录二、添加依赖库三、测试一、sqlite3添加到目录 将两个sqlite3头文件放入目录中 二、添加依赖库 打开项目属性 添加完成 三、测试 #include <stdio.h> #include <sqlite3.h>int main(int argc, cha…

AIGC:大语言模型LLM的幻觉问题

引言 在使用ChatGPT或者其他大模型时&#xff0c;我们经常会遇到模型答非所问、知识错误、甚至自相矛盾的问题。 虽然大语言模型&#xff08;LLMs&#xff09;在各种下游任务中展示出了卓越的能力&#xff0c;在多个领域有广泛应用&#xff0c;但存在着幻觉的问题&#xff1a…

关于C++子类父类成员函数的覆盖和隐藏

转载&#xff1a;http://blog.csdn.net/worldmakewayfordream/article/details/46827161 函数的覆盖 覆盖发生的条件&#xff1a; &#xff08;1&#xff09; 基类必须是虚函数&#xff08;使用virtual 关键字来进行声明&#xff09; &#xff08;2&#xff09;发生覆盖的两个函…