نحوه استفاده از کتابخانه HtmlAgilityPack

نحوه استفاده از کتابخانه HtmlAgilityPack
فهرست مقاله [نمایش]


    HtmlAgilityPack یک کتابخانه قدرتمند .NET است که به برنامه‌نویسان سی‌شارپ  امکان تجزیه، پیمایش، جستجو و تغییر سند HTML را می‌دهد. این کتابخانه رابط برنامه‌نویسی را ساده می‌کند و اجازه می‌دهد که با اسناد HTML به‌راحتی کار کنید، مانند یک سند XML. 


    نصب و راه‌اندازی:

    HtmlAgilityPack را می‌توان از طریق بسته NuGet نصب کرد. در Visual Studio، شما می‌توانید از محیط CLI برای نصب این بسته استفاده کنید:

    PM> Install-Package HtmlAgilityPack 


    پس از نصب بسته، می‌توانید آن را در برنامه خود با استفاده از دستور using فراخوانی کنید:

    using HtmlAgilityPack; 

    پیمایش در سند HTML:

    HtmlAgilityPack اجازه می‌دهد که بر روی اسناد HTML پیمایش کنید. برای نمونه، فرض کنید که ما می‌خواهیم HTML صفحه اصلی Google را به دست بیاوریم. کد زیر این کار را انجام می‌دهد:
     

    var web = new HtmlWeb();
    var doc = web.Load("http://www.google.com");
    
    Console.WriteLine(doc.DocumentNode.OuterHtml);


    این کد صفحه اصلی Google را بارگذاری می‌کند و محتوای HTML آن را چاپ می‌کند.

    جستجوی عناصر با استفاده از XPath یا Css Selectors:

    HtmlAgilityPack از XPath و CSS Selectors برای جستجوی عناصر در سند HTML پشتیبانی می‌کند. برای مثال، اگر می‌خواهید تمام لینک‌های درون یک سند HTML را پیدا کنید، می‌توانید از کد زیر استفاده کنید:
     

    var web = new HtmlWeb();
    var doc = web.Load("http://www.google.com");
    
    var nodes = doc.DocumentNode.SelectNodes("//a[@href]");
    
    foreach (var node in nodes)
    {
        Console.WriteLine(node.OuterHtml);
    }

    ویرایش و تغییر سند HTML:

    HtmlAgilityPack اجازه می‌دهد که محتوای یک سند HTML را تغییر دهید. به‌عنوان‌مثال، شما می‌توانید عناصری را به سند اضافه کنید، حذف کنید یا تغییر دهید.
     

    var doc = new HtmlDocument();
    doc.LoadHtml("<html><body><h1>Hello, World</h1></body></html>");
    
    var h1Node = doc.DocumentNode.SelectSingleNode("//h1");
    
    h1Node.InnerHtml = "Hello, HtmlAgilityPack";
    
    Console.WriteLine(doc.DocumentNode.OuterHtml);

     ذخیره‌سازی و بارگذاری اسناد HTML:

    با HtmlAgilityPack، شما می‌توانید یک سند HTML را ذخیره کنید و سپس آن را مجدداً بارگذاری کنید. برای ذخیره‌سازی سند، می‌توانید از Save استفاده کنید و برای بارگذاری از Load استفاده کنید.

    var doc = new HtmlDocument();
    doc.LoadHtml("<html><body><h1>Hello, World</h1></body></html>");
    
    doc.Save("test.html");
    
    var loadedDoc = new HtmlDocument();
    loadedDoc.Load("test.html");
    
    Console.WriteLine(loadedDoc.DocumentNode.OuterHtml);

    مشکلات رایج و راه‌حل‌های آنها:

    HtmlAgilityPack بسیار قدرتمند است، اما مانند هر ابزار دیگری، ممکن است برخی مشکلات رایج را داشته باشد. یکی از مشکلات رایج این است که XPath یا CSS Selectors برخی از عناصر را پیدا نمی‌کند. در این موارد، اغلب می‌توان با استفاده از ابزار توسعه وب برای بررسی ساختار سند و اطمینان حاصل‌کردن از صحت مسیرهای XPath یا CSS Selectors مشکل را حل کرد.


    کاربرد HtmlAgilityPack در یادگیری ماشین:

    HtmlAgilityPack در علم داده و یادگیری ماشین کاربردهای فراوانی دارد. این کتابخانه می‌تواند برای "وب اسکرپینگ" (جمع آوری اطلاعات از وب سایت ها) استفاده شود، که می‌تواند منبع بسیار قدرتمندی از داده برای مدل‌های یادگیری ماشین باشد.
    برای مثال، فرض کنید که می‌خواهید هزاران نظری که‌ برای محصولات سایت فروشگاهی مثل دیجی‌کالا ارسال شده است را به دست بیاورید برای آموزش یک مدل یادگیری ماشین برای تشخیص احساس.
    HtmlAgilityPack می‌تواند به شما کمک کند تا به‌سرعت و به طور خودکار این داده‌ها را جمع‌آوری کنید:

     var web = new HtmlWeb();
    var doc = web.Load("http://www.example.com/product-review-page");
    
    var reviewNodes = doc.DocumentNode.SelectNodes("//div[@class='review']");
    
    var reviews = new List<string>();
    foreach (var node in reviewNodes)
    {
        var reviewText = node.SelectSingleNode(".//p[@class='review-text']").InnerText;
        reviews.Add(reviewText);
    }

     

    این کد هر یک از عناصر <div> باکلاس review را جمع‌آوری می‌کند و متن هر نقد و بررسی را ذخیره می‌کند. سپس این داده‌ها می‌توانند برای آموزش مدل یادگیری ماشین استفاده شوند.
    بنابراین، HtmlAgilityPack ابزار بسیار مفید و قدرتمندی برای یادگیری ماشین و علم داده است، به‌خصوص زمانی که داده‌های خام برای آموزش مدل‌ها لازم است.

    خلاصه و نتیجه‌گیری:

    HtmlAgilityPack یک ابزار قدرتمند برای کار با اسناد HTML در .NET است. با این کتابخانه، شما می‌توانید بر روی اسناد HTML پیمایش کنید، عناصر را جستجو کنید، تغییرات ایجاد کنید و آنها را ذخیره و بارگذاری کنید. اگر شما یک برنامه‌نویس .NET هستید که با HTML کار می‌کند، HtmlAgilityPack می‌تواند یک ابزار بسیار مفید برای شما باشد.

     

    اطلاعات نویسنده
    • نویسنده: احسان بابائی

    ارسال دیدگاه

    برای افزودن دیدگاه خود، نیاز است ابتدا وارد حساب کاربری‌تان شوید


    دیدگاه کاربران