AI #算法

大模型训练挑战

文章探讨了大模型在人工智能领域的发展及其面临的挑战。随着模型和数据规模的增大，可以突破现有精度的局限，但同时也带来了训练上的难题。增加芯片数量能够加速模型训练，然而当训练资源扩大到一定规模时，分布式并行会遇到通讯瓶颈问题，限制系统性能。大模型面临的主要挑战包括“内存墙”、“通讯墙”、“性能墙”以及“调优墙”。这些问题分别指的是存储容量不足、节点间通信效率低下、计算能力受限以及模型参数调整复杂度高等方面。解决这些问题是进一步推动大模型技术发展的关键。

Published on 2023-06-02

AI #算法

预训练技术简介

预训练技术（PTM）是一种通过大量未标记数据对模型进行训练的方法，以赋予模型先验知识和常识，从而提高其在各种任务上的表现。预训练主要解决数据稀缺性、先验知识需求、迁移学习问题以及模型可解释性等问题。预训练方法分为有监督预训练和自监督预训练两大类，前者常见于计算机视觉（CV）领域，后者则广泛应用于自然语言处理（NLP）中。在CV领域，从早期的AlexNet到最近的Swin Transformer等，预训练模型经历了从有监督向自监督的转变；而在NLP领域，自Word2Vec以来，GPT系列成为了当前最流行的预训练方式之一。此外，多模态预训练模型如DALL-E、CLIP等也展示了强大的跨模态理解能力。预训练不仅提高了模型性能，还促进了不同领域间的技术交流与融合。

Published on 2023-06-02

AI #算法

大模型训练为什么那么难

本文探讨了使用CPU和GPU进行模型训练的差异及优缺点。尽管CPU因计算单元少于GPU而不适合大规模并行运算，但依然可以用于模型训练。文章强调了GPU在深度学习中的优势，特别是在处理大规模数据集时。对于模型训练而言，适当的batch size至关重要，过小或过大都会影响训练效果。此外，介绍了单机多卡同步数据并行、模型并行以及流水线并行等技术来提高训练效率，并指出结合数据并行与模型并行能够实现更佳性能。最后，讨论了如何通过优化通信以实现模型并行、张量并行与数据并行的同时应用，从而达到最优训练效果。

Published on 2023-06-02

默认分类 #其他

IaaS、SaaS 和 PaaS 区别

本文通过一个网站站长建立网站的例子，解释了IaaS（基础设施即服务）、PaaS（平台即服务）和SaaS（软件即服务）三种云计算服务模式之间的区别。如果使用IaaS，用户不需要购买物理服务器，但需要自己安装服务器软件；采用PaaS时，除了不需购买服务器外，也无需自行安装服务器软件，只需开发自己的应用程序；而选择SaaS，则连应用程序开发都可以省略，直接使用服务商提供的软件，并由服务商负责维护升级等工作，用户仅需专注于业务运营。

Published on 2023-05-23

面试问题

该文章涵盖了多个技术主题。首先，介绍了训练并行的概念，这是一种通过同时使用多个处理器来加速机器学习模型训练的方法。接着讨论了训练加速的策略，包括硬件优化和软件算法改进。随后，文章解释了神经架构搜索（NAS）的基本原理，这是一种自动化设计神经网络结构的技术。此外，还探讨了flannel网络的工作机制，这是一种为容器提供网络支持的技术。最后，文章提到了GPU拉远相关的概念，如PCIe总线和RDMA技术，这些是实现高效远程GPU访问的关键技术。

Published on 2023-05-20

DevOps #操作系统

TCP 3次握手4次挥手

文章介绍了TCP协议中的3次握手和4次挥手过程。3次握手用于建立连接：首先客户端向服务器发送SYN包请求建立连接；服务器收到后回复SYN+ACK确认收到并同意建立连接；最后客户端再发送ACK给服务器，完成连接建立。4次挥手用于断开已建立的连接：任一方发起FIN包表示要关闭连接；对方收到后返回ACK，并可能继续发送未完成的数据；当数据传输完毕后，该方也发送FIN包；另一方收到FIN后回送ACK，双方正式断开连接。这个过程确保了数据传输的可靠性和完整性。

Published on 2023-05-12

DevOps #数据库

Mysql 锁

本文详细介绍了MySQL中的锁机制，包括共享锁（S锁）与排他锁（X锁），以及意向锁、间隙锁等概念。文章首先解释了锁的基本类型及其作用：共享锁允许多个事务同时读取同一数据，但阻止其他事务修改该数据；排他锁则只允许一个事务对数据进行读写操作，禁止其他任何事务访问。接着，文中探讨了几种特殊的锁定策略，如意向共享锁和意向排他锁，用于提高并发控制效率；间隙锁则是在特定条件下为防止幻读而设置的。最后，文章通过实例说明了如何在实际场景中应用这些锁来解决并发问题，并强调了合理使用锁的重要性以避免性能瓶颈。

Published on 2023-05-12

AI #算法

AVL树、红黑树以及B树介绍

该文章介绍了三种重要的自平衡搜索树：AVL树、红黑树以及B树。AVL树是一种高度平衡的二叉搜索树，通过旋转操作保持左右子树的高度差不超过1，确保了查找、插入和删除操作的时间复杂度为O(log n)。红黑树也是一种自平衡二叉搜索树，但其平衡性要求较AVL树宽松，通过颜色标记节点来维护树的近似平衡状态，同样保证了高效的操作性能。而B树（或B-树）则是一种多路搜索树，特别适用于文件系统和数据库等场景下的数据存储与检索，能够有效地减少磁盘I/O操作次数。这三种树结构各有特点，在不同的应用场景下发挥着重要作用。

Published on 2023-05-12

AI #算法

对数：log lg ln 的区别是什么

本文介绍了对数函数log、lg和ln的区别及数学常数e的相关知识。对数函数中，lg是以10为底的对数，ln是以自然对数的底数e（约等于2.71828）为底的对数，而log则可以表示以任意正数为底的对数，具体底数通常会在符号下方注明。e是一个重要的无理数，在微积分、概率论等多个领域都有广泛应用。它最初由瑞士数学家欧拉在研究复利计算时提出，并且被定义为当n趋近于无穷大时(1+1/n)^n的极限值。此外，e还与自然对数有着密切联系。

Published on 2023-05-12

编程语言 #Java

JDK1.8 HashMap源码分析

本文详细解析了JDK 1.8版本中HashMap的源码实现。首先介绍了HashMap的基本结构，包括数组+链表+红黑树的数据组织方式，接着深入探讨了重要属性如容量、负载因子等的作用与意义。文章还全面分析了HashMap的核心方法，如put()、get()、resize()等的工作原理及其优化策略。特别强调了JDK 1.8相较于之前版本在处理哈希冲突时引入红黑树机制以提高查询效率的变化。通过对比不同版本之间的差异，展示了Java集合框架持续演进的过程。最后，对常见问题进行了总结，并给出了一些使用建议，帮助开发者更好地理解和运用HashMap。

Published on 2023-05-12

Menu

Author: liujie

大模型训练挑战

预训练技术简介

大模型训练为什么那么难

IaaS、SaaS 和 PaaS 区别

面试问题

TCP 3次握手4次挥手

Mysql 锁

AVL树、红黑树以及B树介绍

对数：log lg ln 的区别是什么

JDK1.8 HashMap源码分析

对数：log lg ln 的区别是什么

使用shadowsockets-libev 进行魔法访问

精度及其3σ准则

币安K线及相关指标

在国内如何使用GPT-4?GPT4.0充值流程

数学与统计学中常见的字母符号

VSCode快捷键总结（mac版）

Squid极简搭建HTTP/HTTPS代理服务器

币安-虚拟货币交易一些概念

如何查看 udp 协议的端口是否正常?