分类: C/C++
2008-03-18 14:51:47
三、程序实现
<1> 取得 IHTMLDocument2 的接口指针。根据IE浏览器的运行方式,有多种不同的方式可以获取文档指针。
<1.1> 如果你在程序中使用MFC的 CHtmlView 视来浏览网页。
取得文档的方法最简单,调用 CHtmlView::GetHtmlDocument() 函数。
<1.2> 如果你的程序中使用了“Web 浏览器” 的ActiveX 控件。
取得文档的方法也比较简单,调用 CWebBrowser2::GetDocument() 函数。
<1.3> 如果你的程序是用 ATL 写的 ActiveX 控件。
那么需要调用 IOleClientSite::GetContainer 得到 IOleContainer 接口,然后就可以通过 QueryInterface() 查询得到 IHTMLDocument2 的接口。主要代码如下:
CComPtr < IOleContainer > spContainer; m_spClientSite->GetContainer( &spContainer ); CComQIPtr < IHTMLDocument2 > spDoc = spContainer; if ( spDoc ) { // 已经得到了 IHTMLDocument2 的接口指针 }<1.4> 如果你的程序是用 MFC 写的 ActiveX 控件。
#include < atlbase.h > #include < mshtml.h > void FindFromShell() { CComPtr< IShellWindows > spShellWin; HRESULT hr = spShellWin.CoCreateInstance( CLSID_ShellWindows ); if ( FAILED( hr ) ) return; long nCount=0; spShellWin->get_Count(&nCount); // 取得浏览器实例个数 for(long i=0; ispDisp; hr=spShellWin->Item(CComVariant( i ), &spDisp ); if ( FAILED( hr ) ) continue; CComQIPtr< IWebBrowser2 > spBrowser = spDisp; if ( !spBrowser ) continue; spDisp.Release(); hr = spBrowser->get_Document( &spDisp ); if ( FAILED ( hr ) ) continue; CComQIPtr< IHTMLDocument2 > spDoc = spDisp; if ( !spDoc ) continue; // 程序运行到此,已经找到了 IHTMLDocument2 的接口指针 } }
<1.6> IE 浏览器控件被一个进程包装在一个子窗口中。那么你首先要得到那个进程的顶层窗口句柄(使用 FindWindow() 函数,或其它任何可行的方法),然后枚举所有子窗口,通过判断窗口类名是否是“Internet Explorer_Server”,从而得到浏览器的窗口句柄,再向窗口发消息取得文档的接口指针。主要代码如下:
#include < atlbase.h > #include < mshtml.h > #include < oleacc.h > #pragma comment ( lib, "oleacc" ) BOOL CALLBACK EnumChildProc(HWND hwnd,LPARAM lParam) { TCHAR szClassName[100]; ::GetClassName( hwnd, &szClassName, sizeof(szClassName) ); if ( _tcscmp( szClassName, _T("Internet Explorer_Server") ) == 0 ) { *(HWND*)lParam = hwnd; return FALSE; // 找到第一个 IE 控件的子窗口就停止 } else return TRUE; // 继续枚举子窗口 }; void FindFromHwnd(HWND hWnd) { HWND hWndChild=NULL; ::EnumChildWindows( hWnd, EnumChildProc, (LPARAM)&hWndChild ); if(NULL == hWndChild) return; UINT nMsg = ::RegisterWindowMessage( _T("WM_HTML_GETOBJECT") ); LRESULT lRes; ::SendMessageTimeout( hWndChild, nMsg, 0L, 0L, SMTO_ABORTIFHUNG, 1000, (DWORD*) &lRes ); CComPtr < IHTMLDocument2 > spDoc; HRESULT hr = ::ObjectFromLresult ( lRes, IID_IHTMLDocument2, 0 , (LPVOID *) &spDoc ); if ( FAILED ( hr ) ) return; // 程序运行到此,已经找到了 IHTMLDocument2 的接口指针 }<2> 得到了 IHTMLDocument2 接口指针后,如果网页是单贞的,那么转第<4>步骤。如果是多贞(有子框架)则还需要遍历所有的子框架。这些子框架(IHTMLWindow2),被保存在集合中(IHTMLFramesCollection2),取得集合指针的方法比较简单,取属性 IHTMLDocument2::get_frames()。
// 假设 spDisp 是由IHTMLElementCollection::item() 得到的 IDispatch 指针 CComQIPtr < IHTMLInputTextElement > spInputText(spDisp); CComQIPtr < IHTMLInputButtonElement > spInputButton(spDisp); CComQIPtr < IHTMLInputHiddenElement > spInputHidden(spDisp); ...... if ( spInputText ) { //如果是文本输入表单域 } else if ( spInputButton ) { //如果是按纽输入表单域 } else if ( spInputHiddent ) { //如果是隐藏输入表单域 } else if ........ //其它输入类型上面的方法,由于使用具体类型的接口指针,因此程序的效率比较高。但是通过 QueryInterface 接口查询,然后再进行条件判断显然是比较烦琐的,所以这个方法适合于特定的已知网页设计内容的程序。在示例程序中,我则是直接使用 IDispatch 接口进行操作的,这个方式执行起来稍微慢一些,但程序比较简单。主要代码和说明如下:
#include < atlbase.h > CComModule _Module; // 由于需要使用 CComDispatchDriver 的 IDispatch 包装类ATL智能指针,所以这个是必须的 #include < atlcom.h > ...... long nElemCount=0; //表单域的总数目 spFormElement->get_length( &nElemCount ); for(long j=0; j< nElemCount; j++) { CComDispatchDriver spInputElement; // IDispatch 的智能指针 spFormElement->item( CComVariant( j ), CComVariant(), &spInputElement ); CComVariant vName,vVal,vType; // 域名称,域值,域类型 spInputElement.GetPropertyByName( L"name", &vName ); spInputElement.GetPropertyByName( L"value",&vVal ); spInputElement.GetPropertyByName( L"type", &vType ); // 使用 IDispatch 的智能指针的好处就是:象上面这样读取、设置属性很简单 // 另外调用 Invoke 函数也异常方便,Invoke0(),Invoke1(),Invoke2().... ...... }四、结束语