C语言自动抓取淘宝商品详情网页数据,实现轻松高效爬虫

你是否曾经遇到过需要大量获取网页上的数据,但手动复制粘贴又太过费时费力?那么这篇文章就是为你而写。今天我们将会详细讨论如何使用C语言实现自动抓取网页上的数据。本文将会从以下8个方面进行逐步分析讨论。

1. HTTP协议的基本原理

在开始之前,我们需要了解HTTP协议的基本原理。HTTP是一种客户端和服务器端之间传输数据的协议,它使用TCP/IP协议作为传输层。当客户端需要访问某个服务器时,它会向服务器发送一个HTTP请求。服务器在接收到请求后,会返回一个HTTP响应。HTTP请求和响应都是由一个头部和一个可选的消息体组成。

2.使用C语言发送HTTP请求

在C语言中,我们可以使用libcurl库来发送HTTP请求。libcurl提供了一系列函数来处理网络请求,并且支持各种常见的网络协议,包括HTTP、FTP、SMTP等等。下面是一个简单的例子:

#include <stdio.h>#include <curl/curl.h>int main(void){ CURL *curl; CURLcode res; curl = curl_easy_init(); if(curl){ curl_easy_setopt(curl, CURLOPT_URL,";); res = curl_easy_perform(curl); if(res != CURLE_OK) fprintf(stderr,"curl_easy_perform() failed:%s\n", curl_easy_strerror(res)); curl_easy_cleanup(curl); } return 0;}

这个例子中,我们使用了curl_easy_init函数来初始化一个curl对象。然后,我们使用curl_easy_setopt函数来设置请求的URL。最后,我们使用curl_easy_perform函数来执行请求,并将返回结果存储在res变量中。

3.使用正则表达式解析HTML

当我们从网页上获取到数据后,我们需要对其进行解析。HTML是一种标记语言,因此我们可以使用正则表达式来进行解析。下面是一个简单的例子:

#include <stdio.h>#include <regex.h>int main(void){  regex_t regex;  int reti;  char msgbuf[100];  const char *pattern ="<title>(.*)</title>";  char *data ="<html><head><title>Example</title></head><body><p>Hello World!</p></body></html>";  reti = regcomp(&regex, pattern, REG_EXTENDED);  if (reti){      fprintf(stderr,"Could not compile regex\n");      return 1;  }  reti = regexec(&regex, data,0, NULL,0);  if (!reti){      puts("Match");      regmatch_t matches[2];      reti = regexec(&regex, data,2, matches,0);      if (!reti){          printf("Match:%.*s\n",(int)(matches[1].rm_eo - matches[1].rm_so),&data[matches[1].rm_so]);      }  }  else if (reti == REG_NOMATCH){      puts("No match");  }  else {      regerror(reti,&regex, msgbuf, sizeof(msgbuf));      fprintf(stderr,"Regex match failed:%s\n", msgbuf);      return 1;  }  regfree(&regex);  return 0;}

这个例子中,我们使用了正则表达式来匹配网页中的标题。首先,我们使用regcomp函数来编译正则表达式。然后,我们使用regexec函数来执行匹配操作,并将结果存储在matches数组中。

4.使用XPath解析HTML

除了正则表达式外,我们还可以使用XPath来解析HTML。XPath是一种用于在XML文档中进行导航的语言,它也可以用于HTML文档的解析。下面是一个简单的例子:

#include <stdio.h>#include <libxml/xpath.h>#include <libxml/HTMLparser.h>int main(void){ char *data ="<html><head><title>Example</title></head><body><p>Hello World!</p></body></html>"; htmlDocPtr doc = htmlReadMemory(data, strlen(data), NULL, NULL, HTML_PARSE_NOWARNING | HTML_PARSE_NOERROR); if (doc == NULL){ fprintf(stderr,"Failed to parse document\n"); return 1; } xmlXPathContextPtr context = xmlXPathNewContext(doc); if (context == NULL){ fprintf(stderr,"Failed to create XPath context\n"); xmlFreeDoc(doc); return 1; } xmlXPathObjectPtr result = xmlXPathEvalExpression((const xmlChar*)"//title/text()", context); if (result == NULL){ fprintf(stderr,"Failed to evaluate XPath expression\n"); xmlXPathFreeContext(context); xmlFreeDoc(doc); return 1; } if (xmlXPathNodeSetIsEmpty(result->nodesetval)){ fprintf(stderr,"No match found\n"); xmlXPathFreeObject(result); xmlXPathFreeContext(context); xmlFreeDoc(doc); return 1; } printf("Match:%s\n", result->nodesetval->nodeTab[0]->content); xmlXPathFreeObject(result); xmlXPathFreeContext(context); xmlFreeDoc(doc); return 0;}

这个例子中,我们使用了libxml2库来解析HTML。首先,我们使用htmlReadMemory函数将HTML文档读入内存,并解析成一个DOM树。然后,我们使用xmlXPathNewContext函数创建一个XPath上下文。接着,我们使用xmlXPathEvalExpression函数来执行XPath表达式,并将结果存储在result对象中。

5.使用JSON解析数据

当我们从网页上获取到数据时,它有可能是JSON格式的。JSON是一种轻量级的数据交换格式,易于阅读和编写。我们可以使用cJSON库来解析JSON数据。下面是一个简单的例子:

#include <stdio.h>#include <stdlib.h>#include <string.h>#include "cJSON.h"int main(void){    char *data ="{\"name\":\"John Smith\",\"age\":30,\"hobbies\":[\"reading\",\"swimming\"]}";    cJSON *root = cJSON_Parse(data);    if (root == NULL){        fprintf(stderr,"Failed to parse JSON data\n");        return 1;    }    cJSON *name = cJSON_GetObjectItem(root,"name");    if (name == NULL){        fprintf(stderr,"Failed to get name\n");        cJSON_Delete(root);        return 1;    }    printf("Name:%s\n", name->valuestring);    cJSON *age = cJSON_GetObjectItem(root,"age");    if (age == NULL){        fprintf(stderr,"Failed to get age\n");        cJSON_Delete(root);        return 1;    }    printf("Age:%d\n", age->valueint);    cJSON *hobbies = cJSON_GetObjectItem(root,"hobbies");    if (hobbies == NULL){        fprintf(stderr,"Failed to get hobbies\n");        cJSON_Delete(root);        return 1;    }    int i;    for (i=0; i < cJSON_GetArraySize(hobbies);i++){        cJSON *hobby = cJSON_GetArrayItem(hobbies,i);        printf("Hobby %d:%s\n", i +1, hobby->valuestring);    }    cJSON_Delete(root);    return 0;}
这个例子中,我们使用了cJSON库来解析JSON数据。首先,我们使用cJSON_Parse函数将JSON数据解析成一个cJSON对象。然后,我们使用cJSON_GetObjectItem函数来获取对象中的属性。最后,我们使用cJSON_GetArrayItem函数来获取数组中的元素。6.使用数据库存储数据
当我们从网页上获取到数据时,我们可以将其存储到数据库中。在C语言中,我们可以使用SQLite库来操作数据库。下面是一个简单的例子:
#include <stdio.h>#include <sqlite3.h>static int callback(void *NotUsed, int argc, char **argv, char **azColName){    int i;    for (i=0; i < argc;i++){        printf("%s=%s\n", azColName[i], argv[i]? argv[i]:"NULL");    }    printf("\n");    return 0;}int main(void){    sqlite3 *db;    char *zErrMsg =0;    int rc;    rc = sqlite3_open("test.db",&db);    if (rc){        fprintf(stderr,"Can't open database:%s\n", sqlite3_errmsg(db));        sqlite3_close(db);        return 1;    }    const char *sql ="CREATE TABLE IF NOT EXISTS users ("                      "id INTEGER PRIMARY KEY,"                      "name TEXT NOT NULL,"                      "age INTEGER NOT NULL)";    rc = sqlite3_exec(db, sql, NULL,0,&zErrMsg);    if (rc != SQLITE_OK){        fprintf(stderr,"SQL error:%s\n", zErrMsg);        sqlite3_free(zErrMsg);        sqlite3_close(db);        return 1;    }    sql ="INSERT INTO users (name, age) VALUES ('John Smith', 30)";    rc = sqlite3_exec(db, sql, NULL,0,&zErrMsg);    if (rc != SQLITE_OK){        fprintf(stderr,"SQL error:%s\n", zErrMsg);        sqlite3_free(zErrMsg);        sqlite3_close(db);        return 1;    }    sql ="SELECT * FROM users";    rc = sqlite3_exec(db, sql, callback,0,&zErrMsg);    if (rc != SQLITE_OK){        fprintf(stderr,"SQL error:%s\n", zErrMsg);        sqlite3_free(zErrMsg);        sqlite3_close(db);        return 1;    }    sqlite3_close(db);    return 0;}
这个例子中,我们使用了SQLite库来操作数据库。首先,我们使用sqlite3_open函数打开一个数据库连接。然后,我们使用sqlite3_exec函数执行SQL语句。最后,我们使用回调函数来处理查询结果。
7.使用多线程提高效率
当我们需要从多个网页上获取数据时,我们可以使用多线程来提高效率。在C语言中,我们可以使用pthread库来创建和管理线程。下面是一个简单的例子:
#include <stdio.h>#include <pthread.h>void *thread_func(void *arg){    int i;    for (i=0; i < 10;i++){        printf("Thread %d:%d\n",*((int*)arg),i);    }    return NULL;}int main(void){    pthread_t threads[4];    int thread_args[4];    int i;    for (i=0; i <4;i++){        thread_args[i]= i +1;        pthread_create(&threads[i], NULL, thread_func,&thread_args[i]);    }    for (i=0; i <4;i++){        pthread_join(threads[i], NULL);    }    return 0;}

这个例子中,我们使用了pthread库来创建和管理线程。首先,我们使用pthread_create函数创建一个新的线程,并将thread_args数组中的元素传递给线程函数。然后,我们使用pthread_join函数等待线程结束。

8.使用定时器实现定时抓取

当我们需要定时抓取网页上的数据时,我们可以使用定时器来实现。在C语言中,我们可以使用timer_create函数来创建一个定时器。下面是一个简单的例子:

#include <stdio.h>#include <signal.h>#include <time.h>void handler(int sig){    printf("Timer expired\n");}int main(void){    struct sigevent sev;    timer_t timerid;    struct itimerspec its;    sev.sigev_notify = SIGEV_SIGNAL;    sev.sigev_signo = SIGUSR1;    sev.sigev_value.sival_ptr =&timerid;    timer_create(CLOCK_REALTIME,&sev,&timerid);    signal(SIGUSR1, handler);    _sec =5;    _nsec =0;    _sec =5;    _nsec =0;    timer_settime(timerid,0,&its, NULL);    while (1){f56ac3d0fc4809ae1c100a6b745ccf4b// do something    }    return 0;}

9.举例说明:通过C语言进行封装接口获取淘宝商品详情返回值说明

9.1公共参数

名称类型必须描述
keyString调用key(必须以GET方式拼接在URL中,演示demo地址)
secretString调用密钥
api_nameStringAPI接口名称(包括在请求地址中)[item_search,item_get,item_search_shop等]
cacheString[yes,no]默认yes,将调用缓存的数据,速度比较快
result_typeString[json,jsonu,xml,serialize,var_export]返回数据格式,默认为json,jsonu输出的内容中文可以直接阅读
langString[cn,en,ru]翻译语言,默认cn简体中文
versionStringAPI版本 (复制Taobaoapi2014获取API SDK文件)

9.2 请求示例(C语言)

#include<stdio.h>
#include <stdlib.h>
#include<string.h>
#include<curl/curl.h>int main(){CURL *curl;  CURLcode res;   struct curl_slist *headers=NULL; char url[] = "https://api.xxxxx.cn/taobao/item_get/?key=<您自己的apiKey>&secret=<您自己的apiSecret>&num_iid=商品ID&is_promotion=1";curl_global_init(CURL_GLOBAL_ALL); curl = curl_easy_init(); if(curl) {curl_easy_setopt(curl, CURLOPT_URL,url);headers = curl_slist_append(headers, "Content-Type: application/json"); curl_easy_setopt(curl, CURLOPT_HTTPHEADER, headers); res = curl_easy_perform(curl);if(res != CURLE_OK){printf("curl_easy_perform(): %s\n",curl_easy_strerror(res));                     }curl_easy_cleanup(curl);          }curl_global_cleanup();return 0;
}

通过上面的代码,我们可以得到一个简单版的爬虫程序,它可以从目标网站上抓取内涵段子,并提取出来打印输出。

注意事项及高级技巧
在使用PHP编写爬虫程序时,需要注意以下事项:

遵循目标网站的robots.txt协议,不要滥用爬虫而导致网站崩溃;
使用cURL等工具时,需要设置User-Agent、Referer等头部信息,模拟浏览器行为;
对获取的HTML数据进行适当的编码处理,防止乱码问题;
避免频繁访问目标网站,操作过于频繁可能会被网站封禁IP地址;
如需获取验证码等需要人工干预的内容,需要使用图像识别技术等高级技巧。
通过以上这些注意事项和高级技巧,我们可以更好地应对不同的爬虫需求,实现更加高效、稳定的数据采集。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/36865.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

小白到运维工程师自学之路 第七十三集 (kubernetes应用部署)

一、安装部署 1、以Deployment YAML方式创建Nginx服务 这个yaml文件在网上可以下载 cat nginx-deployment.yaml apiVersion: apps/v1 #apiVersion是当前配置格式的版本 kind: Deployment #kind是要创建的资源类型&#xff0c;这里是Deploymnet metadata: #metadata是该资源…

Photoshop多图片与多窗口下排列操作方法

首先&#xff0c;在Photoshop中打开6张图片&#xff0c;在“窗口”菜单下切换窗口排列状态&#xff1a; 在 “窗口”菜单下对窗口进行排列&#xff0c;分别呈现如下&#xff1a; &#xff08;一&#xff09;. 点击“窗口” -> “排列”->"全部垂直拼贴": &am…

本地oracle登录账号锁定处理,the account is locked

1.打开cmd命令窗口 2.打开sqlplus: sqlplus /nolog(加/nolog是不登录服务器的意思&#xff0c;不加就需要输账号密码) 3.切换到管理员&#xff1a;conn / as sysdba; 第2步第3步可以合并&#xff0c;直接使用sysdba登录&#xff1a;sqlplus / as sysdba; 4.解锁账号&#x…

大端和小端

大端和小端 大端&#xff08;Big Endian&#xff09;和小端&#xff08;Little Endian&#xff09;是两种不同的字节序排列方式&#xff0c;用于解释多字节数据在内存中的存储顺序。 在大端字节序中&#xff0c;高位字节&#xff08;最高有效位&#xff09;存储在低位地址&am…

1. 两数之和

题目&#xff1a; 给定一个整数数组 nums 和一个整数目标值 target&#xff0c;请你在该数组中找出 和为目标值 target 的那 两个 整数&#xff0c;并返回它们的数组下标。 你可以假设每种输入只会对应一个答案。但是&#xff0c;数组中同一个元素在答案里不能重复出现。 你…

如何从cpu改为gpu,pytorch,cuda

1.cmd输入nvcc -V 2.得到 cuda版本后&#xff0c;去pytorch官网 3.根据自己的cuda进行选择 4.复制上述链接&#xff0c;进入cmd 5.cmd中输入activate XXX,这里的"XXX"指代自己在工程中用到的环境 6.进入后&#xff0c;将刚才链接粘贴&#xff0c;回车等待下载结束 …

qt实现截取屏幕

利用qt提供的函数实现截屏: QPixmap QPixmap::grabWindow(WID window, int x 0, int y 0, int width -1, int height -1) window: 表示窗口ID号 x、y: 截取屏幕的其实坐标 width:截取屏幕的宽度 -1表示当前窗口宽度 height:截取屏幕的高度 -1表示当前窗口高度 示例…

《高性能MySQL》——查询性能优化(笔记)

文章目录 六、查询性能优化6.1 查询为什么会慢6.2 慢查询基础&#xff1a;优化数据访问6.2.1 是否向数据库请求了不需要的数据查询不需要的记录多表关联时返回全部列总是取出全部列重复查询相同的数据 6.2.2 MySQL 是否在扫描额外的记录响应时间扫描的行数与返回的行数扫描的行…

新增守护进程管理、支持添加MySQL远程数据库,支持PHP版本切换,1Panel开源面板v1.5.0发布

2023年8月14日&#xff0c;现代化、开源的Linux服务器运维管理面板1Panel正式发布v1.5.0版本。 在这个版本中&#xff0c;1Panel新增了守护进程管理功能&#xff1b;支持添加MySQL远程数据库&#xff1b;支持添加FTP/S和WebDAV的SFTP服务&#xff1b;支持PHP版本切换。此外&am…

jupyter打开ipynb后,还没有运行cell,反复报错

今天遇到了一个比较奇怪的问题&#xff1a; 这个原因是当前目录下有一个code.py的文件&#xff0c;一旦打开ipynb&#xff0c;就是先执行code.py&#xff0c;而且遇到报错&#xff0c;还会反复执行&#xff0c;导致内核崩溃。

创建一个 React+Typescript 项目

接下来 我们来一起探索一下用TypeScript 来编写react 这也是一个非常好的趋势&#xff0c;目前也非常多人使用 那么 我们就先从创建项目开始 首先 我们先找一个 或者 之前创建一个目录 用来放我们的项目 然后 在这个目录下直接输入 例如 这里 我想创建一个叫 tsReApp 的项目…

Leangoo领歌敏捷工具全面开启免费模式

转发自&#xff1a;Leangoo.com 为了更好的服务敏捷社区&#xff0c;更好的帮助敏捷企业加速产业升级&#xff0c;更好的帮助企业打造敏捷团队&#xff0c;Leangoo领歌软件团队版和企业版全面开启永久免费模式&#xff0c;同时&#xff0c;Leangoo领歌仍然继续提供专业的私有部…

面向对象设计与分析40讲(20)消息驱动编程和事件驱动编程模型

文章目录 消息驱动编程事件驱动编程消息驱动和事件驱动的区别 消息驱动编程 消息驱动是一种编程模型&#xff0c;它基于事件和消息的传递来驱动程序的执行流程。在消息驱动的模型中&#xff0c;系统中的各个组件&#xff08;或对象&#xff09;通过发送和接收消息进行通信和协…

matplotlib绘制位置-时序甘特图

文章目录 1 前言2 知识点2.1 matplotlib.pyplot.barh2.2 matplotlib.legend的handles参数 3 代码实现4 绘制效果5 总结参考 1 前言 这篇文章的目的是&#xff0c;总结记录一次使用matplotlib绘制时序甘特图的经历。之所以要绘制这个时序甘特图&#xff0c;是因为22年数模研赛C…

【IDEA问题】下载不了源代码

引出问题 最近不知道怎么打开 IDEA&#xff0c;本想查看源代码&#xff0c;然后点击下载源码&#xff0c;总是报找不到此对象的源代码。百度找了半天&#xff0c;GPT问了半天还是解决不了&#xff0c;直到遇到了这篇&#xff1a;idea中无法下载源码问题解决&#xff0c;终于得…

取证--实操

2022年美亚杯个人赛 运用软件DB Browser for SQLite &#xff08;一款用于查看SQLlite数据库文件的浏览器工具&#xff09; 火眼&#xff0c;盘古石手机取证系统等 案件详情 于2022年10月&#xff0c;有市民因接获伪冒快递公司的电邮&#xff0c;不慎地于匪徒架设的假网站提…

网络安全 Day31-运维安全项目-容器架构下

容器架构下 6. Dockerfile6.1 Docker自动化DIY镜像之Dockerfile1) 环境准备2) 书写Dockerfile内容3&#xff09; 运行Dockerfile生成镜像4) 运行容器5) 小结 6.2 案例14&#xff1a;Dockerfile-RUN指令1) 书写Dockerfile2) 构建镜像3) 启动容器4) 测试结果 6.3 Dockerfile指令 …

腾讯面试题算法还原【游戏安全】

本题的参考链接&#xff1a;https://share.weiyun.com/5Xg2b7v 其实拿到这个题我就感觉在哪里看过&#xff0c;后来想想是在旺仔那里看到的&#xff0c;以下是旺仔写的分析过程可以参考一下https://bbs.kanxue.com/thread-276536.htm 但是这个题要比旺仔拿到的那个要增加些许…

Flowable 6.8.0中主要数据表及其字段

在Flowable 6.8.0中&#xff0c;以下是每个表的作用并列出每张表的所有字段及其含义&#xff1a; act_evt_log (用于记录流程引擎事件的日志) log_nr&#xff1a;日志编号type&#xff1a;事件类型proc_def_id&#xff1a;流程定义IDproc_inst_id&#xff1a;流程实例IDexecuti…

AI 绘画Stable Diffusion 研究(七) 一文读懂 Stable Diffusion 工作原理

大家好&#xff0c;我是风雨无阻。 本文适合人群&#xff1a; 想要了解AI绘图基本原理的朋友。 对Stable Diffusion AI绘图感兴趣的朋友。 本期内容&#xff1a; Stable Diffusion 能做什么 什么是扩散模型 扩散模型实现原理 Stable Diffusion 潜扩散模型 Stable Diffu…