构建大语言模型友好型网站

        以大语言模型为代表的AI 技术迅速发展,将会影响原有信息网络的方式。其中一个明显的趋势是通过chatGPT 对话代替搜索引擎和浏览器来获取信息。

        互联网时代,主要是通过网站(website)提供信息。网站主要为人类阅读的方式构建的。主要技术基于HTML5/javascript 技术支撑。进入AI 时代,网站信息从人类浏览,转型AI 机器人搜索和获取。这种变化将引发重大的影响。诸如网络广告,文章的版权,网页的爬取等等。

     本博文探讨一下AI 时代的网站发展趋势。

传统网站对大语言模型并不友好

不利于机器获取信息

        浏览网站的主要方式是导航方式,人们根据导航指引获取信息。这种方式适合人类的阅读习惯,但是并不适合机器获取信息。目前使用一些”网络爬虫“技术来获取网站信息。

      网站普遍采取前后端架构,前端网页通过web API 读取后端网页和数据库中的数据。webAPI 采用了RestFul方式。无论是调用方式,还是数据结构都是自定义的,没有统一的标准。

     另一方面,网站信息是以HTML5 的形式表达,甚至是前端程序生成的。它是以人类阅读体验为中心设计的,对机器阅读并不友好,比如各种”网络爬虫“ 技术都不能完整地读取网站上的信息。网络搜索引擎页难以精准地搜索需要的信息。人们在浏览器面前浪费了大量的时间。特别是中文网站普遍信息质量低下,广告漫天飞。检索信息犹如大海捞针。小公司的网站几乎无人问津。

不利于LLM访问

       未来的发展趋势是使用大语言模型的对话获取网站信息,目前的方式是通过搜索引擎寻找相关的网页内容,通过所谓的RAG技术读取关注的信息,RAG需要embedding,矢量数据库技术的支持。这就要求网站的信息有利于RAG。比如在数据库中,除了关键字以外,要添加必要的描述(description)。有助于生成更加有效的矢量数据。

    在网站上添加chatGPT 接口也具有不同的方式:

  • 浏览器网页与chatGPT 是完全独立的接口
  • 借助于chatGPT 实现网页导航的方式

网站的信息开放与内容保护

     网络上的网站可以分成两类,一种是尽量能够提供所有信息的网站,比如企业网站,购物网站。另一种是内容保护的网站,他们不希望其他人爬取所有的信息,比如科研论文发布,新闻网,银行,信息有偿服务网站等等。

      对于第一种网站而言,未来应该提供机器读取信息的接口和大语言模型的接口,为”网络爬虫“提供服务,让网站的内容尽量地发布出去。

由此看来,未来网站将会有三种基本的访问方式

  • 浏览器阅读
  • 大语言模型对话
  • 网络爬虫和搜索

这三种访问方式如下图所示: 

 网络爬虫、搜索引擎友好的网站

          有意思的是上面提到的第三种方式。借助大语言模型,能够实现网站对网络爬虫和搜索引擎友好。使用自然语言的成为网站的统一的接口,避免了访问内部的web API 。同时能够实现更加精准的网络搜索。

网站将成为“超级推销员”

        chatGPT 支持的网站将成为你公司的“超级推销员”和“导购”员。它能够回答客户关心的问题。甚至可以播放视频,PPT。回答专业的技术问题。

网页设计的变化

       相信未来的网页设计也将发生变化,一方面网页中应该添加chatGPT 对话的栏目,另一方面,如果使用chatGPT 完成网页内容的导航,那么网页的前端设计将大幅度简化,网页将是单页的方式显示内容,去掉了大量的导航内容。网页的内容与chatGPT 对话同步显示,网页的UX 设计风格也将发生变化。

思考比行动更重要

         chatGPT 带来的AI革命正在到来,人们为之兴奋不已。像谷歌,百度等依靠搜索引擎赚钱的公司受到的巨大的压力。靠弹广告为生的浏览器公司感到商业模型即将失灵了。AI 时代一切皆有可能。目前几乎大家都在急切地寻找落地的场景。笔者看来,急于应用之前,深入地思考比仓促上阵更重要。

     相信好事情即将发生。。。。。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/26017.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

高通Android开关机动画踩坑简单记录

1、下面报错有可能是selinux的原因 Read-only file system 2、接着push 动画 reboot之后抓取logcat出现 以下报错。看着大概意思像是压缩格式有问题。 3、于是重新压缩一下报错没有再出现 ,压缩格式默认是标准,这里必须要改成存储格式哈 4、修改之后重新…

GitHub工程git merge出现冲突处理方式

GitHub工程git merge出现冲突处理方式 1. 源由2. 冲突解决2.1 触发合并冲突2.2 查看冲突状态2.3 打开冲突文件2.4 解决冲突2.5 标记冲突已解决2.6 继续合并2.7 检查合并结果 3. 示例 1. 源由 在产品研发中,常见的技术动作就是merge,而这个操作通常有两种…

Mysql基础 - 事务

Mysql基础 - 事务 文章目录 Mysql基础 - 事务1 事务简介2 事务操作2.1 控制事务一2.2 控制事务二 3 事务四大特性4 并发事务问题5 事务隔离级别 1 事务简介 事务是一组操作的集合,他是一个不可分割的工作单位,事务会把所有操作作为一个整体一起向系统提…

tcp协议的面向字节流介绍,粘包问题(解决的本质)

目录 面向字节流 引入 介绍 比喻 处理数据 粘包问题 引入 介绍 解决的本质 面向字节流 引入 对于udp来说,它是面向数据报的 一旦要发送数据,因为没有发送缓冲区,且不需要维护连接,直接封装完报头就发出去了依靠报头中的udp长度字段,可以拆分出报文然后交付给上层一个…

解决Vue项目Network: unavailable的问题

在vscode使用 npm run serve 运行 Vue项目时发现一个问题,项目只能通过Local访问而不能通过Network访问,终端显示如下: 碰到这种情况的解决方法:在环境变量的path中添加“C:\Windows\System32\Wbem” 1.找到“环境变量”&#xf…

Apollo9.0 PNC源码学习之Control模块(二)

前面文章:Apollo9.0 PNC源码学习之Control模块(一) 本文将对具体控制器以及原理做一个剖析 1 PID控制器 1.1 PID理论基础 如下图所示,PID各参数(Kp,Ki,Kd)的作用: 任何闭环控制系统的首要任务是要稳、准、快的响…

【JavaEE】Spring Boot MyBatis详解(一)

一.MyBatis的基本概念与相关配置. 1.基本概念 MyBatis是一款优秀的持久层框架,用于简化JDBC的开发。MyBatis本是Apache的一个开源项目iBatis,2010年这个项目由apache迁移到了google code,并且改名为MyBatis. 2013年11月迁移到Github.持久层…

.net core webapi跨域

var builder WebApplication.CreateBuilder(args);// Add services to the container. // Learn more about configuring Swagger/OpenAPI at https://aka.ms/aspnetcore/swashbuckle builder.Services.AddEndpointsApiExplorer(); builder.Services.AddSwaggerGen();//此处1 …

13 RTP包的使用

RTP RTP包最主要的就是Sequence number。 对于发送者来说,视频的每一个帧都有很多包组成。对于接收端来接收的时候是有一个队列进行接收的。这个队列大小都是通过计算的。有了队列之后就会不断的往队列中插入数据。当队列中有的数据超时一直组不成包的时候&#xf…

STM32 UART串口与RTOS的结合使用

STM32 UART串口与RTOS的结合使用 摘要: 实时操作系统(RTOS)为嵌入式系统提供了多任务处理和实时性能。STM32微控制器结合RTOS,可以有效地管理串口通信任务,提高系统的响应速度和稳定性。本文将探讨STM32 UART串口与RT…

MacOS升级ruby版本

MacOS自带ruby版本是2.x,可以通过“ruby -v”查看版本号 $ ruby -v ruby 2.6.10p210 (2022-04-12 revision 67958) [universal.x86_64-darwin22]homebrew安装的ruby版本号可以通过“brew info ruby”命令参看 $ brew info ruby > ruby: stable 3.3.2 (bottled)…

深度学习的可微渲染

深度学习的可微渲染 可微渲染(Differentiable Rendering)是深度学习领域的一个重要概念,它将传统的计算机图形学与深度学习结合起来,通过使渲染过程可微分(differentiable),以便于在深度学习模…

SpringMVC01-初始SpringMVC

SpringMVC 回顾MVC 什么是MVC MVC是模型(Model)、视图(View)、控制器(Controller)的简写,是一种软件设计规范。是将业务逻辑、数据、显示分离的方法来组织代码。MVC主要作用是降低了视图与业务逻辑间的双向偶合。MVC不是一种设计模式,MVC是一种架构模…

如何使用Pandas处理数据?

一、技术难点 Pandas是Python中一个强大的数据处理和分析库,它提供了高效、灵活且易于使用的数据结构,主要用于数据清洗、转换、聚合和可视化等任务。然而,在使用Pandas处理数据时,也会遇到一些技术难点。 数据导入与导出&#…

Python装饰器:打造强大的日志记录系统

题目:Python装饰器:打造强大的日志记录系统 摘要: 在Python编程中,装饰器是一种强大的工具,它允许我们以一种非常灵活的方式增强函数的功能。本文将详细介绍如何使用装饰器来实现日志记录,这是一种在开发过程中追踪函数调用和执行情况的有效手段。我们将从装饰器的基本…

Go singlefight 源码详解|图解

写在前面 通俗的来说就是 singleflight 将相同的并发请求合并成一个请求,进而减少对下层服务的压力,通常用于解决缓存击穿的问题。 详解 基础结构 golang.org/x/sync/singleflight singleflight结构体: type call struct {wg sync.WaitGro…

Linux系统下非高精度对时实操

测试对时偏差 使用 ntpdate -d 选项, 挑选一个合适的ntp对时地址比如 ntp.tencent.com 或者 time.pool.aliyun.com 使用 /usr/sbin/ntpdate -d ntp.tencent.com, 可以看到如下结果, 其中offset 就代表NTP服务器时间- 系统时间, 所以offset 0.012036 sec 就代表系统时间比NTP服…

[Java] TDengine时序数据库时间戳(timestamp)字段插入数据的实现方法

👉原文阅读 目录 👉[原文阅读](https://b1ankc-mov.github.io/posts/tdengine_timestamp/) 📘正文开始实体类Mapper接口Controller控制器 📘正文开始 实体类 定义实体类,插入数据分别代表打卡时间、员工id&#xff0…

如何在WPS中加载EndNote X9插件

如何在WPS中加载EndNote X9插件 步骤1:关闭WPS 确保所有WPS文档和窗口都已关闭。 步骤2:修改文件后缀 打开文件资源管理器,导航到路径:C:\Program Files (x86)\EndNote X9\Product-Support\CWYW。找到文件 Cwyw_X86.dat&#…

正排索引和倒排索引的区别

正排索引和倒排索引是数据库中常见的两种索引方式,它们有以下区别: 1. 数据结构不同:正排索引是按照文档的顺序存储索引,而倒排索引是根据关键词来存储索引。 2. 查询方式不同:正排索引适合按文档顺序进行查询&a…