一个从网页tag里面分析url和url标题的类作者：Kiki猫De弟弟下载源代码-cdutlibing-ChinaUnix博客

vc++ c++ c 程序开发（vc学习园地cdutlibing.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

cdutlibing

博客访问： 9835060
博文数量： 1227
博客积分： 10026
博客等级：上将
技术积分： 20273
用户组：普通用户
注册时间： 2008-01-16 12:40

文章分类

全部博文（1227）

心得感想（0）
test（0）
COM技术（134）

MS Office中的COM（13）

IE编程（12）

ActiveX控件应用（6）

ActiveX控件开发（14）

OLE Automation（3）

WTL（10）

ATL（30）

COM技术_COM_DCO（46）
新闻（572）
工具与产品（0）

设计工具（0）

发布工具（0）

测试工具（0）

调试工具（0）

开发工具（0）
技术英语（0）
标准与规范（0）
程序员话题（0）
开发新闻与技术展（7）
软件工程（19）
硬件与嵌入开发（14）
VC环境与编译调试（21）
XML（17）
脚本语言（3）
WEB Services（1）
.NET平台（50）

应用开发（16）

系统安全（13）

公共语言运行时（21）
文件系统（21）

文件格式（2）

文件与目录对话框（4）

驱动器与磁盘信息（1）

文件操作_拷贝_查（14）
WINDOWS系统（143）

其它（24）

NT服务（7）

注册表（5）

剪贴板（2）

Shell编程（10）

驱动程序开发（11）

钩子HOOK（7）

消息系统（11）

多任务_多进程_（25）

DLL（16）

WIN32 API（25）
数据库（47）

数据库技术_SQL索（4）

Access（3）

Oracle（5）

SQL Server（8）

ODBC（27）
网络与通信（79）

网络安全（7）

通信协议（15）

RAS拨号上网（1）

MODEM通信（1）

并行通信（2）

串行通信（11）

局域网（4）

Internet与WEB服（17）

WinSock（21）
图形、图像与多媒（52）

游戏开发（4）

图形算法（8）

OpenGL（2）

DirectX（5）

视频技术（2）

音频技术（9）

图形存取（6）

图像格式（2）

字体与GDI（5）

位图与调色板（9）
WINDOWS窗口视图（28）

报表与打印（7）

高级用户界面（7）

窗口管理（6）

视图分割与停靠（3）

多文档界面（5）

单文档界面（0）

对话框（0）
WINDOWS标准界面（0）

其它控件（0）

数据表格控件（0）

进度条（0）

列表控件（0）

树型控件（0）

静态控件（0）

属性页（0）

组合框（0）

多功能编辑控件（0）

编辑控件（0）

状态条（0）

工具提示（0）

工具条（0）

菜单（0）

按钮（0）
一般性编程问题（0）

C++、MFC（0）

杂项（0）

Samples（0）

加解密（0）

常用算法与数据结（0）

日期与时间（0）

字符串处理（0）

STL（0）
未分配的博文（19）

文章存档

2010年（1）

2008年（1226）

我的朋友

分类： C/C++

2008-04-23 21:51:00

一个从网页tag里面分析url和url标题的类

作者：

一、不得不说的废话

　　我知道用 MSHTML 的 IHTMLDocument2 的 get_links 获取 IHTMLElementCollection 接口，通过 IHTMLElementCollection 来获取 IHTMLAnchorElement，再通过 IHTMLAnchorElement 接口的get_href 我们就可以得到网页的所有链接了！但这是用 MSHTML 的办法，就我本人而言，总喜欢自己来搞，不喜欢用看不到内部的东西（虽然 microsoft 写得比我的好）。所以，我就自己封装了一个通过分析网页标记字符，来获取 url 的类，这个类我知道有缺陷，所以就公布出来，希望有人能在我这个类的基础上从新搞出一个更好的新版本。

二、关于这个类

　　也许有人要说，分析网页的url不就是分析 href=…什么的不就可以了吗？但是说起来很多事情是容易的，但要尽可能的做好一个事情，也知道真正的去尝试了才会知道。比如有的连接是这样的 url=…。比如 javascript 里面的连接（我现在分析javascript的部分也很有问题），比如相对地址的and so on……在这个类里面能处理的我已经尽可能的处理了，无奈我的水平有限，还不是很完美。

三、这个类的接口

　　接口函数只有一个就是这个类的构造函数 ,下面是这个函数的声明:

CWebHost(const CString& m_str_webcode,　　　　　/*网页代码*/

　　　　　vector& m_vec_URL,　　　　　/*分析得到的url和url标题的结构*/

　　　　　CString& str_URL);　　　　　　　　　　　/*本页的url*/

HyperLink 是一个结构我放在URLSturct文件里面：

//URLSturct_.h

//超连接数据结构

#ifndef _____HyperLinkTag_h____

#define _____HyperLinkTag_h____

//超连接数据集

typedefstruct tagHyperLinkTag{

　　//link address;

　　CString str_Hyperlink;



　　//link text;

　　CString str_HyperlinkText;

}HyperLink;

#endif

四、这个类的函数列表

函数名字

阅读(356) | 评论(0) | 转发(0) |

上一篇：自绘菜单的实现

下一篇：Windows CE下拨号上网

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6