# PyTorch - 灵活的深度学习框架教程

欢迎来到 PyTorch 教程!PyTorch 是一个由 Facebook AI Research (FAIR) 开发和维护的开源机器学习库,广泛用于计算机视觉和自然语言处理等应用。

**为什么 PyTorch 在 ML/DL/数据科学领域如此受欢迎?**

1. **Pythonic 和易用性**:PyTorch 的 API 设计简洁直观,与 Python 和 NumPy 的风格非常接近,学习曲线相对平缓。
2. **动态计算图 (Define-by-Run)**:计算图在运行时动态构建,使得调试更加容易,并且非常适合处理动态结构的模型(如 RNN)。
3. **强大的 GPU 加速**:可以轻松地将计算移到 NVIDIA GPU 上执行,显著加速训练过程。
4. **丰富的生态系统**:拥有庞大的社区和丰富的扩展库(如 TorchVision, TorchText, TorchAudio)。
5. **研究友好**:由于其灵活性,PyTorch 在学术研究界非常受欢迎。

**本教程将涵盖 PyTorch 的核心概念和基本用法:**

1. **张量 (Tensors)**:PyTorch 的基本数据结构。
2. **张量操作**:类似于 NumPy 的操作。
3. **自动微分 (`torch.autograd`)**:计算梯度。
4. **神经网络模块 (`torch.nn`)**:构建网络的基础。
5. **构建一个简单的神经网络**。
6. **损失函数 (`torch.nn`)**。
7. **优化器 (`torch.optim`)**。
8. **模型训练流程**。
9. **数据加载 (`Dataset` & `DataLoader`)**。
10. **GPU 使用基础**。
11. **模型保存与加载**。

## 准备工作:导入 PyTorch

确保你已经安装了 PyTorch (可以访问 [pytorch.org](https://pytorch.org/) 获取适合你系统的安装命令)。

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
import torch.utils.data as data
import numpy as np
import matplotlib.pyplot as plt

print(f"PyTorch version: {torch.__version__}")

# 检查是否有可用的 GPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Using device: {device}")

## 1. 张量 (Tensors)

张量是 PyTorch 中的核心数据结构,类似于 NumPy 的 `ndarray`,但增加了在 GPU 上计算和自动微分的功能。

可以从 Python 列表、NumPy 数组等创建张量,也可以使用 PyTorch 提供的函数创建。

In [None]:
print("--- Creating Tensors ---")
# 从列表创建
data_list = [[1, 2], [3, 4]]
tensor_from_list = torch.tensor(data_list)
print(f"Tensor from list:\n{tensor_from_list}")
print(f"Tensor dtype: {tensor_from_list.dtype}") # 默认通常是 torch.int64

# 从 NumPy 数组创建 (共享内存,除非显式复制)
np_array = np.array([[5, 6], [7, 8]], dtype=np.float32)
tensor_from_np = torch.from_numpy(np_array)
print(f"\nTensor from NumPy array:\n{tensor_from_np}")
print(f"Tensor dtype: {tensor_from_np.dtype}")

# 修改 NumPy 数组会影响 Tensor (反之亦然)
# np_array[0, 0] = 99
# print(f"Tensor after modifying NumPy array:\n{tensor_from_np}")

# 创建特定形状和类型的张量
tensor_zeros = torch.zeros(2, 3) # 2x3 全零张量 (默认 float32)
print(f"\nZeros tensor (2x3):\n{tensor_zeros}")

tensor_ones = torch.ones(3, 2, dtype=torch.int)
print(f"\nOnes tensor (3x2, int):\n{tensor_ones}")

tensor_rand = torch.rand(2, 2) # [0, 1) 均匀分布随机数
print(f"\nRandom tensor (2x2, uniform [0,1)):\n{tensor_rand}")

tensor_randn = torch.randn(3, 1) # 标准正态分布随机数
print(f"\nRandom tensor (3x1, standard normal):\n{tensor_randn}")

# 获取张量属性
print(f"\nProperties of tensor_from_list:")
print(f" Shape: {tensor_from_list.shape}")
print(f" Size: {tensor_from_list.size()}") # size() 和 shape 类似
print(f" Data type: {tensor_from_list.dtype}")
print(f" Device: {tensor_from_list.device}") # 存储设备 (默认是 'cpu')

## 2. 张量操作

PyTorch 张量支持丰富的操作,语法与 NumPy 非常相似。

In [None]:
t1 = torch.tensor([[1., 2.], [3., 4.]])
t2 = torch.tensor([[5., 6.], [7., 8.]])
scalar = 10

print(f"Tensor t1:\n{t1}")
print(f"Tensor t2:\n{t2}")

# 算术运算 (Element-wise)
print("\n--- Arithmetic Operations ---")
print(f"t1 + t2:\n{t1 + t2}")
print(f"torch.add(t1, t2):\n{torch.add(t1, t2)}")
print(f"t1 * t2:\n{t1 * t2}") # 逐元素乘法
print(f"t1 + scalar:\n{t1 + scalar}")

# In-place 操作 (通常方法名后带下划线 '_')
t1_copy = t1.clone() # 创建副本
t1_copy.add_(t2) # t1_copy = t1_copy + t2
print(f"\nt1_copy after add_:\n{t1_copy}")

# 矩阵乘法
print("\n--- Matrix Multiplication ---")
# 使用 @ 运算符 或 torch.matmul()
mat_mul = t1 @ t2
print(f"t1 @ t2:\n{mat_mul}")
mat_mul_func = torch.matmul(t1, t2)
print(f"torch.matmul(t1, t2):\n{mat_mul_func}")

# 索引和切片 (类似 NumPy)
print("\n--- Indexing and Slicing ---")
print(f"t1[0, 1]: {t1[0, 1]}") # 第一行,第二列
print(f"t1[:, 0]: {t1[:, 0]}") # 第一列
print(f"t1[t1 > 2]: {t1[t1 > 2]}") # 布尔索引

# 形状操作
print("\n--- Reshaping ---")
t_flat = torch.arange(6) # [0, 1, 2, 3, 4, 5]
t_reshaped = t_flat.view(2, 3) # 改变视图,共享数据 (类似 reshape 但不保证)
print(f"Original flat tensor: {t_flat}")
print(f"View as (2, 3):\n{t_reshaped}")
t_reshape = t_flat.reshape(3, 2) # 更通用的 reshape,可能返回副本
print(f"Reshape as (3, 2):\n{t_reshape}")

# NumPy <-> PyTorch 转换
print("\n--- NumPy Bridge ---")
np_arr = np.ones((2,2))
torch_tensor = torch.from_numpy(np_arr)
print(f"Tensor from NumPy:\n{torch_tensor}")
np_back = torch_tensor.numpy() # 转换回 NumPy 数组 (共享内存)
print(f"NumPy from Tensor:\n{np_back}")

## 3. 自动微分 (`torch.autograd`)

`autograd` 是 PyTorch 的核心功能之一,它为张量上的所有操作提供自动微分。这对于神经网络的反向传播至关重要。

* 设置 `requires_grad=True` 的张量会跟踪其上的所有操作。
* 当计算完成后,可以调用 `.backward()`,PyTorch 会自动计算所有梯度。
* 梯度会累积到张量的 `.grad` 属性中。

In [None]:
print("--- Autograd Example ---")
# 创建需要计算梯度的张量
x = torch.tensor(2.0, requires_grad=True)
w = torch.tensor(3.0, requires_grad=True)
b = torch.tensor(1.0, requires_grad=True)

# 定义一个简单的计算图 (e.g., y = w * x + b)
y = w * x + b
print(f"y = w*x + b = {y}")

# 定义一个损失函数 (e.g., L = y^2)
L = y.pow(2)
print(f"L = y^2 = {L}")

# 执行反向传播计算梯度
print("\nCalling L.backward()...")
L.backward()

# 查看梯度 (dL/dx, dL/dw, dL/db)
# dL/dy = 2*y = 2*(w*x+b) = 2*(3*2+1) = 14
# dL/dw = dL/dy * dy/dw = (2*y) * x = 14 * 2 = 28
# dL/dx = dL/dy * dy/dx = (2*y) * w = 14 * 3 = 42
# dL/db = dL/dy * dy/db = (2*y) * 1 = 14 * 1 = 14
print(f"Gradient dL/dx (x.grad): {x.grad}")
print(f"Gradient dL/dw (w.grad): {w.grad}")
print(f"Gradient dL/db (b.grad): {b.grad}")

# --- 停止梯度跟踪 ---
# 使用 torch.no_grad() 上下文管理器
print("\nInside torch.no_grad():")
with torch.no_grad():
 y_no_grad = w * x + b
 print(f" y_no_grad = {y_no_grad}")
 print(f" y_no_grad.requires_grad: {y_no_grad.requires_grad}") # False

# 或者使用 .detach() 创建一个不带梯度历史的新张量
x_detached = x.detach()
print(f"\nx_detached requires_grad: {x_detached.requires_grad}") # False

# 梯度会累积,在优化循环中需要清零
print("\nGradient accumulation:")
y2 = w * x + b
L2 = y2.pow(2)
L2.backward() # 再次计算梯度
print(f"w.grad after second backward(): {w.grad}") # 梯度变成了 28 + 28 = 56

# 清零梯度 (在优化循环开始时)
w.grad.zero_()
x.grad.zero_()
b.grad.zero_()
print(f"w.grad after zero_(): {w.grad}")

## 4. 神经网络模块 (`torch.nn`)

`torch.nn` 模块是构建神经网络的核心。它提供了各种网络层、损失函数和容器。

* **`nn.Module`**: 所有神经网络模块的基类。自定义网络层需要继承它,并实现 `forward()` 方法。
* **常用层**: `nn.Linear`, `nn.Conv2d`, `nn.RNN`, `nn.LSTM`, `nn.Embedding`, `nn.Dropout`, `nn.BatchNorm2d` 等。
* **激活函数**: `nn.ReLU`, `nn.Sigmoid`, `nn.Tanh`, `nn.Softmax` 等 (通常在 `nn.functional` 中也有函数形式)。
* **损失函数**: `nn.MSELoss`, `nn.CrossEntropyLoss`, `nn.BCELoss` 等。
* **容器**: `nn.Sequential` (按顺序连接模块), `nn.ModuleList`, `nn.ModuleDict`。

In [None]:
print("--- torch.nn Examples ---")

# 全连接层 (Linear Layer)
input_features = 4
output_features = 2
linear_layer = nn.Linear(input_features, output_features)
print(f"Linear layer: {linear_layer}")
print(f"Linear layer weight shape: {linear_layer.weight.shape}") # [output_features, input_features]
print(f"Linear layer bias shape: {linear_layer.bias.shape}") # [output_features]

# 示例输入 (需要 Batch 维度, e.g., [batch_size, num_features])
sample_input = torch.randn(3, input_features) # Batch of 3 samples
output = linear_layer(sample_input)
print(f"\nSample input shape: {sample_input.shape}")
print(f"Output shape from linear layer: {output.shape}") # [batch_size, output_features]

# ReLU 激活函数
relu = nn.ReLU()
output_relu = relu(output)
print(f"\nOutput after ReLU:\n{output_relu}")

# 使用 Sequential 容器构建简单网络
model_sequential = nn.Sequential(
 nn.Linear(10, 20), # 输入 10, 输出 20
 nn.ReLU(),
 nn.Linear(20, 5) # 输入 20, 输出 5
)
print(f"\nSequential model:\n{model_sequential}")

# 示例输入
seq_input = torch.randn(4, 10) # Batch of 4, 10 features
seq_output = model_sequential(seq_input)
print(f"Output shape from sequential model: {seq_output.shape}") # [4, 5]

## 5. 构建一个简单的神经网络

通常通过继承 `nn.Module` 并定义 `__init__` 和 `forward` 方法来构建自定义网络。

In [None]:
print("--- Building a Simple Network (Custom Class) ---")

class SimpleNet(nn.Module):
 def __init__(self, input_size, hidden_size, output_size):
 super(SimpleNet, self).__init__() # 调用父类的 __init__
 self.layer1 = nn.Linear(input_size, hidden_size)
 self.relu = nn.ReLU()
 self.layer2 = nn.Linear(hidden_size, output_size)
 print(f"SimpleNet initialized with input={input_size}, hidden={hidden_size}, output={output_size}")

 def forward(self, x):
 # 定义数据如何通过网络层流动
 print(" SimpleNet forward pass starting...")
 out = self.layer1(x)
 print(f" Shape after layer1: {out.shape}")
 out = self.relu(out)
 print(f" Shape after relu: {out.shape}")
 out = self.layer2(out)
 print(f" Shape after layer2 (final output): {out.shape}")
 return out

# 实例化网络
input_dim = 5
hidden_dim = 8
output_dim = 2
net = SimpleNet(input_dim, hidden_dim, output_dim)
print(f"\nNetwork structure:\n{net}")

# 查看网络参数
print("\nNetwork parameters:")
for name, param in net.named_parameters():
 if param.requires_grad:
 print(f" {name}: shape={param.shape}, requires_grad={param.requires_grad}")

# 示例前向传播
print("\nPerforming a forward pass:")
dummy_input = torch.randn(4, input_dim) # Batch of 4
output = net(dummy_input)
print(f"Output tensor:\n{output}")

## 6. 损失函数 (`torch.nn`)

损失函数(或成本函数)衡量模型输出与真实目标之间的差距。训练的目标是最小化损失。

* 回归常用:`nn.MSELoss` (均方误差), `nn.L1Loss` (平均绝对误差)。
* 分类常用:`nn.CrossEntropyLoss` (通常用于多分类,内部结合了 `LogSoftmax` 和 `NLLLoss`),`nn.BCELoss` (二元交叉熵,需要输入概率和 Sigmoid 激活)。

In [None]:
print("--- Loss Function Examples ---")

# --- MSELoss for Regression --- 
loss_fn_mse = nn.MSELoss()
predictions_reg = torch.tensor([2.5, 4.8, 1.9])
targets_reg = torch.tensor([3.0, 5.0, 1.5])
mse_loss = loss_fn_mse(predictions_reg, targets_reg)
print(f"MSE Loss: {mse_loss.item()}") # .item() 获取标量张量的值

# --- CrossEntropyLoss for Multi-class Classification --- 
# 输入: 模型输出的原始分数 (logits),形状 [BatchSize, NumClasses]
# 目标: 类别索引 (整数),形状 [BatchSize]
loss_fn_ce = nn.CrossEntropyLoss()
predictions_clf = torch.tensor([[2.0, -1.0, 0.5], # Sample 1 scores for 3 classes
 [0.1, 1.5, -0.5]]) # Sample 2 scores
targets_clf = torch.tensor([0, 1]) # Sample 1 true class is 0, Sample 2 true class is 1
ce_loss = loss_fn_ce(predictions_clf, targets_clf)
print(f"\nCross Entropy Loss: {ce_loss.item()}")

## 7. 优化器 (`torch.optim`)

优化器实现了更新模型参数(权重和偏置)以最小化损失函数的算法。

* 常用优化器:`optim.SGD` (随机梯度下降), `optim.Adam`, `optim.RMSprop`, `optim.Adagrad`。
* 需要将模型的参数 (`model.parameters()`) 和学习率 (`lr`) 传递给优化器构造函数。

In [None]:
print("--- Optimizer Example (using SimpleNet) ---")

learning_rate = 0.01

# 使用 SGD
optimizer_sgd = optim.SGD(net.parameters(), lr=learning_rate, momentum=0.9)
print(f"SGD Optimizer: {optimizer_sgd}")

# 使用 Adam (常用的自适应学习率优化器)
optimizer_adam = optim.Adam(net.parameters(), lr=learning_rate)
print(f"Adam Optimizer: {optimizer_adam}")

# 优化器的关键方法:
# - optimizer.zero_grad(): 清除所有参数的梯度 (在计算新梯度前必须调用)
# - optimizer.step(): 根据计算出的梯度更新参数

## 8. 模型训练流程

一个典型的 PyTorch 训练循环包含以下步骤:

1. **前向传播 (Forward Pass)**:将输入数据传递给模型,得到输出。
2. **计算损失 (Compute Loss)**:使用损失函数计算模型输出和真实目标之间的差距。
3. **反向传播 (Backward Pass)**:调用 `loss.backward()` 计算损失相对于模型参数的梯度。
4. **更新参数 (Update Parameters)**:调用 `optimizer.step()` 更新模型参数。
5. **清零梯度 (Zero Gradients)**:调用 `optimizer.zero_grad()` 清除梯度,为下一次迭代做准备。

这个过程通常在一个循环中重复多个周期 (epochs)。

In [None]:
print("--- Simple Training Loop Example (Linear Regression) ---")

# 1. 准备数据 (简单线性关系 y = 2*x + 1 + noise)
X_numpy = np.linspace(0, 10, 100).reshape(-1, 1) # 100个样本, 1个特征
y_numpy = 2 * X_numpy + 1 + np.random.randn(100, 1) * 2 # 添加噪声

X_train = torch.from_numpy(X_numpy.astype(np.float32))
y_train = torch.from_numpy(y_numpy.astype(np.float32))

# 2. 定义模型、损失和优化器
input_size = 1
output_size = 1
model = nn.Linear(input_size, output_size)
criterion = nn.MSELoss()
optimizer = optim.SGD(model.parameters(), lr=0.01)

print(f"Initial model weights: {model.weight.item():.3f}, bias: {model.bias.item():.3f}")

# 3. 训练循环
num_epochs = 100
losses = []

for epoch in range(num_epochs):
 # 前向传播
 outputs = model(X_train)
 loss = criterion(outputs, y_train)
 
 # 反向传播和优化
 optimizer.zero_grad() # 清零梯度
 loss.backward() # 计算梯度
 optimizer.step() # 更新权重
 
 losses.append(loss.item())
 
 if (epoch + 1) % 20 == 0:
 print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {loss.item():.4f}')

print(f"\nFinal model weights: {model.weight.item():.3f}, bias: {model.bias.item():.3f}") # 应该接近 2 和 1

# 绘制损失曲线
plt.figure(figsize=(6, 4))
plt.plot(losses)
plt.xlabel("Epoch")
plt.ylabel("MSE Loss")
plt.title("Training Loss Over Epochs")
plt.show()

# 绘制拟合结果
predicted = model(X_train).detach().numpy() # detach() 停止梯度跟踪,.numpy() 转回 NumPy
plt.figure(figsize=(8, 5))
plt.scatter(X_numpy, y_numpy, label='Original data', s=10, alpha=0.7)
plt.plot(X_numpy, predicted, color='red', label='Fitted line')
plt.xlabel("X")
plt.ylabel("y")
plt.title("Linear Regression Fit")
plt.legend()
plt.show()

## 9. 数据加载 (`Dataset` & `DataLoader`)

`torch.utils.data` 提供了两个核心类来帮助加载和处理数据:
* **`Dataset`**: 一个抽象类,代表数据集。你需要继承它并实现 `__len__` (返回数据集大小) 和 `__getitem__` (根据索引获取一个样本)。
* **`DataLoader`**: 将 `Dataset` 包装起来,提供对数据的迭代访问,支持批处理 (batching)、打乱 (shuffling) 和并行加载数据。

对于常见的图像 (TorchVision)、文本 (TorchText)、音频 (TorchAudio) 数据集,通常有预置的 `Dataset` 类。

In [None]:
print("--- Dataset and DataLoader Example ---")

# 1. 创建一个简单的自定义 Dataset
class SimpleDataset(data.Dataset):
 def __init__(self, features, labels):
 self.features = features
 self.labels = labels
 print(f"SimpleDataset created with {len(features)} samples.")

 def __len__(self):
 return len(self.features)

 def __getitem__(self, idx):
 # 根据索引获取一个样本 (特征和标签)
 sample_feature = self.features[idx]
 sample_label = self.labels[idx]
 # print(f" Dataset __getitem__ called for index {idx}")
 return sample_feature, sample_label

# 使用之前的线性回归数据
dataset = SimpleDataset(X_train, y_train)

# 获取第一个样本
first_sample_feature, first_sample_label = dataset[0]
print(f"\nFirst sample feature: {first_sample_feature}, label: {first_sample_label}")

# 2. 创建 DataLoader
batch_size = 16
shuffle_data = True
num_workers_loader = 0 # Windows often requires 0, Linux/Mac can use > 0 for parallelism

dataloader = data.DataLoader(dataset=dataset, 
 batch_size=batch_size, 
 shuffle=shuffle_data,
 num_workers=num_workers_loader)

print(f"\nDataLoader created with batch_size={batch_size}, shuffle={shuffle_data}")

# 迭代 DataLoader 获取数据批次
print("Iterating through the first batch from DataLoader:")
num_batches_to_show = 1
for i, (batch_features, batch_labels) in enumerate(dataloader):
 print(f"\nBatch {i+1}:")
 print(f" Features shape: {batch_features.shape}") # [batch_size, num_features]
 print(f" Labels shape: {batch_labels.shape}") # [batch_size, num_labels]
 # 在训练循环中,你会在这里进行模型的前向/反向传播
 if i+1 >= num_batches_to_show:
 break

## 10. GPU 使用基础

如果你的机器上有兼容的 NVIDIA GPU 和 CUDA 环境,可以将张量和模型移动到 GPU 上进行计算。

1. **确定设备**:`device = torch.device("cuda" if torch.cuda.is_available() else "cpu")`
2. **移动模型到设备**:`model.to(device)`
3. **移动数据到设备**:在训练循环中,将每个数据批次移动到设备:`inputs, labels = inputs.to(device), labels.to(device)`

In [None]:
print("--- GPU Usage Example ---")

# 1. 确定设备 (在教程开始时已完成)
print(f"Using device: {device}")

# 2. 创建模型并移动到设备
model_gpu = nn.Linear(10, 5) # 示例模型
model_gpu.to(device)
print(f"Model moved to device: {next(model_gpu.parameters()).device}")

# 3. 创建数据并移动到设备
input_cpu = torch.randn(4, 10)
input_gpu = input_cpu.to(device)
print(f"Input tensor on device: {input_gpu.device}")

# 在 GPU 上执行前向传播
# (确保模型和输入都在同一设备上)
try:
 with torch.no_grad(): # 推理时通常不需要梯度
 output_gpu = model_gpu(input_gpu)
 print(f"Output tensor on device: {output_gpu.device}")

 # 如果需要将结果移回 CPU (例如,用于绘图或 NumPy 操作)
 output_cpu = output_gpu.cpu()
 print(f"Output tensor moved back to CPU: {output_cpu.device}")
except Exception as e:
 print(f"An error occurred during GPU operation (maybe no GPU?): {e}")

# 在训练循环中移动数据 (伪代码)
print("\nTraining loop data movement (pseudo-code):")
print("for inputs, labels in dataloader:")
print(" inputs = inputs.to(device)")
print(" labels = labels.to(device)")
print(" # ... rest of the training step ...")

## 11. 模型保存与加载

训练好的模型需要保存以便后续使用或继续训练。

* **推荐方式**:只保存模型的**状态字典 (`state_dict`)**,它包含了模型的所有可学习参数(权重和偏置)。
* 加载时,需要先创建同一模型类的实例,然后加载状态字典。

In [None]:
import os
print("--- Saving and Loading Models ---")

# 假设我们已经训练好了之前的线性回归模型 'model'
model_path = "linear_regression_model.pth"

# 1. 保存模型的状态字典
torch.save(model.state_dict(), model_path)
print(f"Model state_dict saved to {model_path}")

# 2. 加载模型
# a) 首先,创建同一模型结构的新实例
loaded_model = nn.Linear(input_size, output_size)
print("New model instance created.")
print(f"Weights before loading: {loaded_model.weight.item():.3f}")

# b) 加载状态字典
loaded_model.load_state_dict(torch.load(model_path))
print("State_dict loaded into the new model instance.")
print(f"Weights after loading: {loaded_model.weight.item():.3f}") # 应该和之前保存的一样

# c) 设置为评估模式 (重要!影响 Dropout, BatchNorm 等层的行为)
loaded_model.eval()
print("Model set to evaluation mode (.eval())")

# 使用加载的模型进行预测
# with torch.no_grad():
# predictions = loaded_model(some_new_data)

# 清理保存的文件
if os.path.exists(model_path):
 os.remove(model_path)

## 总结

PyTorch 是一个强大而灵活的深度学习框架,特别适合研究和需要精细控制的场景。

**关键要点:**
* **张量 (Tensor)** 是核心数据结构,支持 GPU 和自动微分。
* **`autograd`** 自动计算梯度,是反向传播的基础。
* **`torch.nn`** 提供了构建神经网络的模块、层和损失函数。
* **`torch.optim`** 提供了优化算法来更新模型参数。
* 训练循环通常包括:**前向传播 -> 计算损失 -> 反向传播 -> 更新参数 -> 清零梯度**。
* **`Dataset` 和 `DataLoader`** 用于高效地加载和批处理数据。
* 使用 **`.to(device)`** 将模型和数据移动到 GPU (如果可用)。
* 推荐保存和加载模型的 **`state_dict`**。

PyTorch 的功能非常丰富,本教程只介绍了基础。要深入学习,需要探索更复杂的网络结构 (CNN, RNN), TorchVision/TorchText 等库,以及更高级的训练技巧。官方文档和教程是极佳的学习资源。